Optimierung der statistischen und strukturellen Mustererkennung in Biomolekülen
In der vorliegenden Arbeit wurde eine Methodik zur Analyse von Suchmustern fuer die Vorhersage von Transkriptionsfaktorbindungsstellen in DNA-Sequenzen entwickelt. Fuer die Suchmuster, in diesem Fall Nukleotidverteilungs-Matrizen aus der Datenbank TRANSFAC (http://www.transfac.de), wurden mittels ausgewaehlter positiver und negativer Datensaetze Fehlerraten ermittelt. Fuer die Verwendung mit dem Matrixsuchprogramm MatInspector wurde fuer jede Matrix drei Schwellenwerte definiert - ein Schwellenwert fuer eine minimale Rate an falsch positiven Treffern (sinnvoll fuer die Untersuchung grosser DNA-Sequenzen), ein Schwellenwert fuer eine minimale Rate an falsch negativen Treffern (sinnvoll fuer die umfassende Analyse kurzer Sequenzabschnitte), sowie ein Schwellenwert bei dem beide Fehlerraten zusammen ein Minimum haben. Desweiteren wird eine Methode zum strukturbasierten Datenbankscreening vorgestellt, die es erlaubt ueber attraktive Pseudopotentiale die aktive Site eines Enzyms flexibel zu beschreiben und so das Docken von kleinen Molekuelen aus einer Datenbank zu ermoeglichen und mit Hilfe einer Energiefunktion zu bewerten.
This work describes a methodolgy for analysing search patterns for the prediction of transcription factor binding sites in DNA sequences. Search patterns, in this case nucleotide distribution matrices from the database TRANSFAC (http://www.transfac.de) were examined with a positive and a negative data set in order to determine their error rates. For use with the matrix search program MatInspector a set of three thresholds for each matrix was derived which can be used to obtain a minimal rate of false positives (useful for the analysis of long sequences), a minimal rate of false negatives (useful to analyse short sequences comprehensively for putative transcription factor binding sites) and an optimal rate for both errors where the sum of both rates is minimal. Furthermore a methodolgy for a structure based database screening was developed which allows the use of attractive pseudo potentials for the flexible description of an active site of an enzyme in order to dock small molecules from a database. It gives the possibility to score these docked molecules with the help of an energy function.
Preview
Cite
Access Statistic
Rights
Use and reproduction:
All rights reserved