The genomic and transcriptomic landscape of clinical Escherichia coli and Pseudomonas aeruginosa isolates
Large amounts of genomic data have been obtained due to the rapid advances in DNA sequencing technology. With efficient computational platforms, these data can provide many possibilities to improve our knowledge on species evolution and their genetic makeup. The general interest of this thesis is to facilitate studies on important biological questions by attaining the relevant information from transcriptomic and genomic data. The aims of my thesis were i) to develop the pan-genome based RNA-Seq data analysis pipeline in order to analyze ex vivo gene expression profiles of uro-pathogenic Escherichia coli isolates and ii) to create the consensus sequence of the Pseudomonas aeruginosa core genome in order to identify single nucleotide polymorphisms (SNPs) at high accuracy and to find the patho-adaptive mutations in P. aeruginosa clinical isolates. To address these aims I developed and used the pan-genome of E. coli in order to map and analyze the RNA-Seq reads that were associated with an acute urinary tract infection. Whereas the in vivo gene expression profiles of the majority of genes were conserved among the 21 E. coli strains, the specific gene expression profiles of the accessory genome were diverse and reflected phylogenetic relationships. In addition to that, whole genome sequencing data was used to gain insights into the genetic variations of 99 clinical P. aeruginosa isolates. I created the consensus sequence for every core gene based on the most frequent nucleotide. I used it as reference for the identification of SNPs across all clinical isolates. The identified SNPs were classified into clonal-specific, single and phylogenetically independent SNPs. The majority of the SNPs were clonal-dependent and single SNPs. However, I identified a large set of 2,252 genes which had one or more phylogenetically independent non-synonymous mutation. Moreover, the ratio of dN/dS on 3,814 genes revealed that the core genome is not under selection pressure. In summary, this thesis explores pan-genome-based as well as consensus sequence-based approaches on transcriptomic and genomic sequencing data of clinical isolates of E. coli and P. aeruginosa respectively. The results of the thesis contributed to understanding of sequence variations that are selected in the environment of the human host and lead to bacterial adaptation and pathogenicity. This is not only important for the basic scientific research, but also to understand the link between diversity and community structure and function.
Aufgrund der schnellen Fortschritte in der DNA-Sequenzierungstechnologie wurden große Mengen genomischer Daten erhalten. Mit effizienten Rechenplattformen können diese Daten viele Möglichkeiten bieten, unser Wissen über die Evolution von Arten und ihren genetischen Aufbau zu verbessern. Das allgemeine Interesse dieser Arbeit ist es, Studien zu wichtigen biologischen Fragen zu ermöglichen, indem relevante Informationen aus transkriptomischen und genomischen Daten gewonnen werden. Ziel meiner Dissertation war es, i) die auf dem Pan-Genom basierende RNA-Seq Datenanalyse Pipeline zu entwickeln, um ex vivo-Genexpressionsprofile von uropathogenen Escherichia coli-Isolaten zu analysieren und ii) die Konsensussequenz des Pseudomonas aeruginosa-Kerns zu erstellen Genom, um einzelne Nukleotidpolymorphismen (SNPs) mit hoher Genauigkeit zu identifizieren und die pathoadaptiven Mutationen in klinischen P. aeruginosa-Isolaten zu finden. Um diese Ziele zu erreichen, entwickelte und verwendete ich das Pan-Genom von E. coli, um die RNA-Seq-Reads abzubilden und zu analysieren, die mit einer akuten Harnwegsinfektion assoziiert waren. Während die in vivo-Genexpressionsprofile der meisten Gene unter den 21 E. coli-Stämmen konserviert waren, waren die spezifischen Genexpressionsprofile des akzessorischen Genoms unterschiedlich und spiegelten phylogenetische Beziehungen wider. Darüber hinaus wurden Daten zur vollständigen Genomsequenzierung verwendet, um Einblicke in die genetischen Variationen von 99 klinischen P. aeruginosa-Isolaten zu erhalten. Ich erstellte die Konsensussequenz für jedes Kerngen basierend auf dem häufigsten Nukleotid. Ich habe es als Referenz für die Identifizierung von SNPs in allen klinischen Isolaten verwendet. Die identifizierten SNPs wurden in klonenspezifische, einzelne und phylogenetisch unabhängige SNPs eingeteilt. Die Mehrheit der SNPs waren klonabhängige und einzelne SNPs. Ich identifizierte jedoch eine große Menge von 2.252 Genen, die eine oder mehrere phylogenetisch unabhängige, nicht synonyme Mutationen aufwiesen. Darüber hinaus zeigte das Verhältnis von dN / dS bei 3.814 Genen, dass das Kerngenom nicht unter Selektionsdruck steht. Zusammenfassend werden in dieser Dissertation Pan-Genom-basierte sowie Consensus-Sequenz-basierte Ansätze zur Transkriptom- und Genom-Sequenzierung von klinischen Isolaten von E. coli bzw. P. aeruginosa untersucht. Die Ergebnisse der Dissertation trugen zum Verständnis von Sequenzvariationen bei, die in der Umgebung des menschlichen Wirts selektiert werden und zu einer bakteriellen Anpassung und Pathogenität führen. Dies ist nicht nur für die wissenschaftliche Grundlagenforschung wichtig, sondern auch, um den Zusammenhang zwischen Vielfalt und Struktur und Funktion der Gemeinschaft zu verstehen.
Preview
Cite
Access Statistic
Rights
Use and reproduction:
All rights reserved