gapFiller - Entwicklung eines Tools zur Identifizierung fehlender Enzyme in biochemischen Pathways
Annotationen von vollständig sequenzierten Genomen ermöglichen die organismenspezifische metabolische Rekonstruktion von Netzwerken. Sie werden erstellt, um aufbauend auf ihnen Analysen zur Aufklärung von Systemeigenschaften durchzuführen. Da für die Anfertigung dieser Analysen ein lückenloses Netzwerk essentiell ist, ist die korrekte Vorhersage von Enzymen dabei enorm wichtig. Bioinformatische Methoden können diese Vorhersagen nur mit einer limitierten Präzision bestimmen, wodurch die Annotation von Genomen immer zu Lücken in rekonstruierten Netzwerken führt. Ziel des Projekts war die Entwicklung einer automatisierten Methode zur Verbesserung von vorhandenen organismenspezifischen Annotationen von Enzymen. Dabei wird die Tatsache genutzt, dass vom realen Organismus nachweislich produzierte Metabolite auch in dessen virtuell erstelltem Reaktionsnetzwerk mithilfe biologisch realistischer Verbindungen erreichbar sein müssen. Es wird gezielt nach Enzymen gesucht, die nicht Bestandteil der bisherigen Annotation sind, aber aufgrund der notwendigen Erreichbarkeit sowie einer weiteren Evaluation der lückenfüllenden Enzymkandidaten inklusive ihrer Gene vorhanden sein müssen. Um dies zu erreichen, wird die Information des organismenspezifisch vorhandenen Enzympools mit metabolischer Information kombiniert. In dem hierdurch erstellten Reaktionsnetzwerk werden fundamentale Pfade identifiziert, die von einem zentralen Knotenpunkt zu den essentiellen Elementen führen. Die Erreichbarkeit wird dabei durch einen graphbasierten Ansatz getestet, der biologisch sinnvolle Verknüpfungen beinhaltet. Ist auf diese Weise kein Weg auffindbar, so wird durch Einbezug möglichst weniger „Auffüll“-Reaktionen anderer Organismen eine Vervollständigung zu einem Pfad erreicht. Das Vorkommen der ermittelten Enzymkandidaten wird über Sequenz-, Profil-, und Mustersuchen mittels funktionell gleicher Enzyme anderer Organismen auf dem Genom des zu untersuchenden Organismus überprüft und lokalisiert. Bei der Suche auf dem Genom wird die Wahrscheinlichkeit eines korrekten Treffers unter Einbezug der jeweiligen Methode, die Möglichkeit einer Zugehörigkeit des jeweiligen Treffer-Gens zu einem Operon, das Vorkommen anderer Genkandidaten an der begutachteten Stelle im Genom, sowie die phylogenetische Inferenz zur Entscheidungsfindung herangezogen, ob der Treffer anzuerkennen ist. Durch den in dieser Arbeit entwickelten gapFiller ist eine Methode geschaffen worden, mithilfe der es möglich ist, automatisch nicht oder falsch annotierte Enzyme organismenspezifisch aufzudecken und zu verifizieren um damit wichtige metabolische Pfade zu vervollständigen.
Annotations of complete sequenced genoms allow the organism-specific reconstruction of metabolic networks. They are built for exploring the characteristics of biological systems. This requires a complete network and thus, correct predictions of enzyme functions are crucial. As bioinformatic methods are only able to make these predictions with a limited accuracy, annotations of genomes always lead to gaps in reconstructed networks. The aim of this thesis was the development of an automated method to ameliorate the existing organism specific annotation of enzymes. Demonstrably produced metabolites of the actual organism have to be accessible in the virtually created reaction network by using biologically realistic connections. It is investigated purposeful for enzymes that are not part of the so far available annotation, but have to exist in the organism because of the necessary reachability plus the evaluation of those gap-filling enzymes and the genes encoding them. The focus is on enzymes that have not been found by the currently available annotations but which have to exist in the organism due to the existence of enzymes and metabolites farther down the pathway. To achieve this, a complete list of enzyme predictions for the organism of interest is combined with metabolic information in order to identify fundamental metabolic paths which connect central metabolites to essential components of the organism. The accessibility is tested via a newly developed graph-based approach which includes biologically meaningful considerations. For metabolites that are not connected within the network, known reactions of other organisms are used to complete these paths. Incomplete paths are filled with reactions selected from other organisms with preference for paths with the lowest number of gaps. Enzymes that have not yet been annotated for the evaluated organism are further examined by “backwards” sequence, profile and motif searches by functionally equal enzymes of other organisms on the genome of the investigated organism. The procedure yields appropriate enzyme predictions including the genomic location of the encoding genes. The probability of a hit with respect to the applied method and the appearance of other genes at the observed location are surveyed for the decision whether a hit is admitted. For the acceptance of predicted sequence candidates, their probability to be in an operon and the presence in related organisms is also considered. The gapFiller which has been developed in this work is a method for the automatic filling of gaps or for the correction of incorrectly annotated enzymes in metabolic pathways and the construction of completed pathways.
Preview
Cite
Access Statistic
Rights
Use and reproduction:
All rights reserved