Funktionelle Genomik des bakteriellen Pathogens Porphyromonas pogonae und des Dinoflagellaten Prorocentrum minimum
Porphyromonas pogonae ist ein Gram-negatives Bakterium, das an systemischen Infektionen beteiligt ist. Die Genome beider untersuchten P. pogonae Stämme DSM 101539 und JCM 19732T bestehen jeweils aus einem Chromosom und enthalten keine Plasmide. Die Genomgröße beträgt bei jeweils etwa 3 Mbp mit circa 2.500 Genen. Es wurden etwa 10 genomische Inseln gefunden. Mehrere genomische Inseln kodieren fast den kompletten Biosyntheseweg zur Bildung von 4-Amino-4-desoxy-L-arabinose (L-Ala4N)-modifiziertem Lipopolysaccharid (LPS), das eine Resistenz gegen antimikrobielle Peptide der Immunantwort und Polymyxin vermittelt. Weiterhin wird eine Tetrazyklinresistenz über TetM und eine Tetrazyklin-abhängige Mobilisierung der Inseln über das RteC-regulierte tra-System vermittelt. Ergänzt wird dies durch Gene für kodierte Effluxpumpen (LagA, MdtEF, MacAB) und den SigmafaktorW, welche Resistenz gegen diverse Antibiotika vermitteln. Das Genom selbst kodiert für einen ungewöhnlichen aeroben und anaeroben Energiestoffwechsel. Die genomischen Grundlagen der Bildung der kurzkettigen Fettsäuren Acetat, Propionat und Butyrat wurden aufgeklärt und funktionell nachgemessen. Schließlich wurde die genomische Grundlage der Häm-Akquise und deren Bedeutung für den Eisenstoffwechsel beschrieben.
In einem zweiten Teil der Arbeit wurde ein erstes Genommodell für den Dinoflagellaten Prorocentrum minimum CCMP1329 erstellt. Das hier beschriebene Genom besteht aus 42.202 contigs mit einer mittleren Länge von 34 kbp und einer Genomgröße von 5 Gbp. Der Organismus ist mit hoher Wahrscheinlichkeit haploid. Während der genombasierten Genvorhersage wurden bioinformatisch circa 5.000 repeats modelliert. Basierend darauf wurden mit MAKER etwa 4.000 proteinogene Transkripte und mit GeneMarkES ungefähr 200.000 proteinkodierende Sequenzen vorhergesagt. Für das Transkriptom wurden ungefähr 7,5 Millionen Sequenzen de novo undGenom-gestüzt assembliert. Die Genvorhersage mit PASA ergab etwa 172.000 proteinkodierende Sequenzen und lieferte erste Hinweise auf alternatives Spleißen, die die Genvorhersage beeinflussen. Eine zusätzliche Genvorhersage mit Trinotate ergab ein Genmodell aus etwa 850.000 proteinkodierenden Sequenzen, von denen ungefähr 30 % durch SwissProt annotiert werden können. Zusätzlich ergab die Evaluierung des Transkriptomdatensatzes mit BUSCO, dass etwa 87 % des Vergleichsdatensatzes eukaryote_odb9 repräsentiert werden. Dies lässt auf eine hohe Qualität des Transkriptom-datensatzes schließen.
In summary, in the framework of this theses two genomes of the novel pathogenic bacterium Porphyromonas pogonae and the dinoflagellate Prorocentrum minimum were elucidated and functional characterized. P. pogonae is a Gram-negative bacterium involved in systemic infections. The genomes of both P. pogonae strains studied, DSM 101539 and JCM 19732T, each consist of one chromosome and contain no plasmids. The genome size is about 3 Mbp each with circa 2,500 genes. Approximately 10 genomic islands were found. Several genomic islands encode almost the complete biosynthetic pathway for the formation of 4-amino-4-deoxy-L-arabinose (L-Ala4N)-modified lipopolysaccharides (LPS), which confers resistance to antimicrobial peptides of the human immune system and polymyxin. Furthermore, tetracycline resistance is mediated via TetM. A tetracycline-dependent mobilization of genomic islands is performed by RteC controled tra system. This is complemented by genes for encoded efflux pumps (LagA, MdtEF, MacAB) and sigma factor SigW, which mediate resistance to diverse antibiotics. The genome revealed an unusual aerobic and anaerobic energy metabolism. The formation of short-chain fatty acids (SCFA) acetate, propionate, and butyrate was recognized at the genomic level and functionally verified. Finally, the genomic setup of heme acquisition and its importance for iron metabolism were elucidated.
In a second part of the work, a first genome model for the dinoflagellate P. minimum CCMP1329 was elucidated and assembled. It consists of 42,202 contigs with a mean length of 34 kbp and a genome size of 5 Gbp. The organism is highly likely to be haploid. During genome-based gene prediction, approximately 5,000 repeats were bioinformatically modeled. Based on this, approximately 4,000 proteinogenic transcripts were predicted using MAKER and approximately 200,000 protein coding sequences were predicted using GeneMarkES. For the transcriptome, approximately 7.5 million sequences were assembled de novo and genome guided. Gene prediction with PASA yielded approximately 172,000 protein-coding sequences and provided initial evidence of alternative splicing affecting gene prediction. Additional gene prediction with Trinotate yielded a gene model of approximately 850,000 protein-coding sequences, of which approximately 30% can be annotated by SwissProt. In addition, evaluation of the transcriptome dataset with BUSCO revealed that approximately 87% of the eukaryote_odb9 comparison dataset is represented. This suggests a high quality of the transcriptome dataset.