Feedback

Computational Methods for Reproducible Genotyping and Composite Datatype Tree Inference with Bacterial Sequence Data

ORCID
0000-0001-9530-1970
Affiliation/Institute
Institut für Biochemie, Biotechnologie und Bioinformatik
Kuo, Tzu-Hao

Whole-genome sequencing technology plays an essential role in modern epidemiology. However, analytic results such as orthologous clustering are often irreproducible. The classic tree inference method with the sequence data could also reach the resolution limit for low-divergent samples. This dissertation describes novel techniques and the evaluation results for the two issues.

First, for a reproducible genotyping method, I describe Seq2Geno to conduct six classic sequence analyses. Seq2Geno prevents error-prone manual management by automatically determining the required procedures, resolving their dependencies, and shifting computational environments. The application to a clinical Pseudomonas aeruginosa dataset produced results with a quality similar to that of the original paper. Furthermore, assessment with automated unit tests suggests the reproducibility of Seq2Geno. In addition, the joint use with Geno2Pheno, the machine learning package, yielded performant predictors for the multi-drug resistance of the P. aeruginosa dataset and the virulence of Klebsiella pneumoniae samples. The package Seq2Geno is publicly available at https://github.com/hzi-bifo/Seq2Geno

Second, I devised a composite datatype method for tree inference by incorporating nucleotide and gene content data. This technique consists of two stages: first, inferring a conventional nucleotide tree and collapsing low-confident branches, and then resolving the multifurcating parts using the integrated data of nucleotides and gene contents. The applications to two clinical datasets suggested that this method increased highly supported branches and improved spatial isolate clustering. Furthermore, the transmission reconstruction with the composite datatype method also identified more spatially parsimonious patterns among Klebsiella pneumoniae samples from patients admitted to the wards of the same hospital. Additionally, an evaluation with the simulated dataset showed the robustness of this branch collapsing method. The composite datatype method is available as a command-line tool at https://github.com/hzi-bifo/CompositeDatatypeTree

As both issues are crucial to epidemiological studies, I envisage that the novel methods in this dissertation can increase the reliability of microbial genotyping and transmission reconstruction.

Die Technologie der Ganzgenomsequenzierung spielt in der modernen Epidemiologie eine wesentliche Rolle. Analyseergebnisse wie orthologes Clustering sind jedoch oft nicht reproduzierbar. Auch die klassische Bauminferenzmethode mit den Sequenzdaten könnte bei gering divergenten Proben an die Auflösungsgrenze stoßen. In dieser Dissertation werden neuartige Techniken und die Evaluierungsergebnisse für diese beiden Probleme beschrieben.
Für eine reproduzierbare Genotypisierungsmethode beschreibe ich zunächst Seq2Geno, um sechs klassische Sequenzanalysen durchzuführen. Seq2Geno verhindert die fehleranfällige manuelle Verwaltung, indem es die erforderlichen Verfahren automatisch bestimmt, ihre Abhängigkeiten auflöst und die Berechnungsumgebungen verschiebt. Die Anwendung auf einen klinischen Pseudomonas aeruginosa-Datensatz lieferte Ergebnisse von ähnlicher Qualität wie in der Originalarbeit. Darüber hinaus deutet die Bewertung mit automatisierten Modultests auf die Reproduzierbarkeit von Seq2Geno hin. Darüber hinaus ergab die gemeinsame Verwendung mit Geno2Pheno, dem Paket für maschinelles Lernen, leistungsfähige Prädiktoren für die Multiresistenz des P. aeruginosa-Datensatzes und die Virulenz von Klebsiella pneumoniae-Proben. Das Paket Seq2Geno ist öffentlich zugänglich unter https://github.com/hzi-bifo/Seq2Geno
Zweitens habe ich eine zusammengesetzte Datentyp-Methode für die Inferenz von Bäumen unter Einbeziehung von Nukleotid- und Geninhaltsdaten entwickelt. Diese Technik besteht aus zwei Schritten: Zunächst wird ein konventioneller Nukleotidbaum abgeleitet und Kanten mit geringer Wahrscheinlichkeit zusammengelegt, und dann werden die sich mehrfach verzweigenden Teile unter Verwendung der integrierten Daten von Nukleotiden und Geninhalten aufgelöst. Die Anwendungen auf zwei klinische Datensätze ergaben, dass diese Methode die Zahl der hochgradig unterstützten Kanten erhöht und die räumliche Gruppierung der Isolate verbessert. Darüber hinaus identifizierte die Übertragungsrekonstruktion mit der zusammengesetzten Datentyp-Methode auch räumlich aussagekräftigere Muster zwischen Klebsiella pneumoniae-Proben von Patienten, die auf den Stationen desselben Krankenhauses aufgenommen wurden. Darüber hinaus zeigte eine Evaluierung mit einem simulierten Datensatz die Robustheit dieser Methode zur Kantenreduzierung. Die zusammengesetzte Datentyp-Methode ist als Befehlszeilen-Tool unter https://github.com/hzi-bifo/CompositeDatatypeTree verfügbar.
Da beide Aspekte für epidemiologische Studien von entscheidender Bedeutung sind, gehe ich davon aus, dass die neuen Methoden in dieser Dissertation die Zuverlässigkeit der mikrobiellen Genotypisierung und der Rekonstruktion der Übertragung erhöhen können.

Cite

Citation style:
Could not load citation form.

Access Statistic

Total:
Downloads:
Abtractviews:
Last 12 Month:
Downloads:
Abtractviews:

Rights

Use and reproduction: