Etablierung und Evaluierung molekularbiologischer Verfahren zur Analyse zellfreier DNA für die Infektions- und Tumordiagnostik
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Zellfreie DNA (cfDNA) ist ein Biomolekül, das extrazellulär in verschiedenen Körperflüssigkeiten wie Blut(-plasma) oder Urin gefunden werden kann. Sie ist Träger von Erbinformation und besitzt eine relativ kurze Halbwertszeit. Diese kurze Halbwertszeit ist nützlich, um die aktuelle cfDNA-Konzentration und damit den physiologischen Zustand spezifisch bestimmen zu können. Somit kann cfDNA als Biomarker für diagnostische Zwecke eingesetzt werden. Neben ihren biologisch vorteilhaften Eigenschaften kann sie außerdem über eine Blutentnahme minimal-invasiv in Form einer sogenannten Flüssigbiopsie entnommen werden und somit eine risikobehaftete Gewebebiopsie vermieden werden. Mithilfe von Next-Generation Sequencing (NGS) sollte cfDNA im Rahmen dieser kumulativ verfassten Doktorarbeit analysiert und in verschiedenen Anwendungsgebieten auf ihre Eignung als Biomarker untersucht werden. Die zugrundeliegenden Publikationen sind in Kapitel 7.2 beigelegt. Im ersten Teil dieser Dissertation wurden die Charakteristika von mikrobieller cfDNA (mcfDNA) in der Infektionsdiagnostik am Beispiel der Sepsis untersucht. In einem Mausmodell wurde unter definierten Bedingungen die zeitliche und räumliche Dynamik von mcfDNA während einer Sepsis nachverfolgt und daraus ein Workflow für die individuelle Charakterisierung des pathologischen Mikrobioms – im Folgenden Pathobiom – und seiner dynamischen Veränderungen entwickelt. Zunächst wurde das Darmmikrobiom von gesunden Mäusen als Reservoir für Sepsis-verursachende Erreger bestimmt. Das physiologische Darmmikrobiom veränderte sich rapide nach Induktion einer Sepsis: Schon nach 24 h bildete sich ein Pathobiom im Darm, das sehr individuell ausgeprägt war. Im nächsten Schritt wurde die räumliche Transition des Pathobioms aus dem Darm in andere Kompartimente wie das normalerweise sterile Peritoneum und den Blutkreislauf untersucht. Auch hier konnten starke Veränderungen bereits nach 24 h in Peritoneum und Blut detektiert und mit unterschiedlichen Methoden nachgewiesen werden: Die Befunde von klassischer Blutkultur und NGS deckten sich weitestgehend, wobei mit NGS zusätzlich deutlich mehr Spezies identifiziert werden konnten. Die Pathobiome unterschieden sich teilweise zwischen einzelnen Mäusen deutlich, es konnten aber im Vergleich zu humanen Proben deutliche Überlappungen mikrobieller Genera identifiziert werden, welche als hauptsächliche Erreger bei einer Sepsis auftreten. Schließlich wurde eine Formel entwickelt, mit deren Hilfe die absolute Erregerbelastung im Blut berechnet werden konnte. Für die Analyse reichten kleinste Blutmengen von nur 30 µl, was die serielle Probenentnahme in Mäusen erst ermöglichte. Folglich konnten einzelne Mäuse über einen Zeitraum von 72 h analysiert werden. Nach 24 h wurde die höchste mikrobielle Belastung festgestellt, es konnten aber auch dynamische Veränderungen innerhalb weniger Stunden festgestellt werden. So ließ sich in dieser Studie eine kurze Halbwertszeit für mcfDNA ableiten und diese DNA-Klasse damit als sensitiver und adäquater Marker für die Sepsisdiagnostik etabliert werden. Der zweite Teil dieser Arbeit widmete sich der Charakterisierung epigenetischer Marker von humaner cfDNA für die Diagnostik von pankreatobiliären Krebsformen (PBC), wobei hier im Speziellen DNA-Methylierungsmuster (als Information innerhalb der cfDNA) als Biomarker im Fokus standen. Ziel war es, Regionen im Genom zu identifizieren, die zwischen PBC-Patienten und Kontrollgruppen in unterschiedlichem Maße methyliert waren. Aus diesen differenziell methylierten Regionen (DMRs) sollten ein Target-Panel gebildet werden, das basierend auf NGS von Patienten-cfDNA im hohen Durchsatz sensitive und spezifische Diagnostik ermöglichen sollte. Im ersten Schritt wurde methylierte cfDNA unspezifisch angereichert und mithilfe von NGS sequenziert. Die erhobenen Daten wurden mit drei unterschiedlichen bioinformatischen Methoden ausgewertet und DMRs damit bestimmt. Diese wurden zusammen mit bereits publizierten Regionen aus der Literatur sowie neu bestimmten Regionen aus Gebewebedatenbanken zu einem Sequenzierpanel zusammengefügt, welches für die zielgerichtete Methode Hybridization and Capture verwendet wurde. Zusätzliche klinisch erhobene Daten wie der in der Routine bereits etablierte Tumor-Proteinmarker CA19-9 wurden nur als ergänzende Information für das Panel herangezogen, da diese im Gegensatz zu den Sequenzierdaten in dieser Kohorte bisher keine zuverlässige Unterscheidung zwischen Patientengruppen erlaubten. Das Hybridization and Capture-Panel wurde schließlich für die Sequenzierung von je 15 PBC-, 15 Pankreatitis- sowie 15 Kontroll-Patienten verwendet. In Kombination mit den CA19-9-Werten der Patienten wurde ein Machine-Learning-Ansatz angewendet, um in der Identifizierungskohorte die 50 besten Markerpositionen zu identifizieren. Mit diesen konnte eine Sensitivität von 93%, eine Spezifität von 63% und eine Fläche unter der ROC-Kurve von 0,85 erreicht werden. Anschließend wurde eine Validierungskohorte bestehend aus je zehn Patienten aus der PBC-, Pankreatitis- und Kontrollgruppe sowie sieben IPMN-Patienten sequenziert. In dieser Kohorte wurde eine Sensitivität von 92%, eine Spezifität von 84% und eine Fläche unter der ROC-Kurve von 0,88 erzielt. Außerdem konnten die High-grade-IPMNs und PBC-Patienten gut von Low-grade-IPMNs, Pankreatitis und Kontrollen unterschieden werden. Somit konnten Patienten identifiziert werden, welche eine intensivere Behandlung bzw. eine Operation benötigten. Methylierte cfDNA birgt folglich großes diagnostisches Potenzial für Pankreaserkrankungen und zeigte in dieser Publikation sensitive Eigenschaften, die für eine große Anzahl an (Krebs-)Erkrankungen genutzt werden könnten. Im dritten und abschließenden Teil im Rahmen dieser Doktorarbeit war das Ziel, eine spezifische Klasse an kurzen cfDNA-Fragmenten aus Gesamt-cfDNA zu charakterisieren. Die Hypothese war, dass kurze cfDNA-Fragmente (20-60 bp) regulatorische Informationen im systemischen Kontext eines Individuums enthalten, welche in der Diagnostik als differenzielle Marker genutzt werden können. Hierfür wurde zunächst ein Verfahren zur Größenselektion von cfDNA etabliert, welches mithilfe von Gelelektrophorese die Anreicherung intakter doppelsträngiger kurzer DNA-Fragmente ermöglichte. Kurze cfDNA reicherte sich in spezifischen genomischen Positionen an, und zeigte schmale, definierte als auch breite Cluster-Peaks. Dabei zeichneten sich Cluster-Peaks meist durch die Nähe zu Transkriptionsstartpunkten (TSPs) oder Transkriptionsfaktorbindestellen (TFBS) aus. Ein Vergleich zu regulärer cfDNA offenbarte, dass sie sich gegensätzlich verhielt: Die Anreicherung der einen cfDNA-Klasse bedeutete die Abreicherung der anderen zum Beispiel an offenem Chromatin, Nukleosom-freien Regionen oder TSPs. Kurze cfDNA schien somit kein Abbauprodukt der regulären cfDNA zu sein, sondern eher durch die Bindung von Transkriptionsfaktoren (nicht Nukleosomen wie bei regulärer cfDNA) vor dem Abbau von DNasen geschützt zu sein. Mithilfe der kurzen cfDNA konnte auch über Transkriptionsfaktormotiv-Anreicherung oder die Analyse bekannter Transkriptionsfaktorbindestellen (TFBS) eine potenzielle Bindung verschiedener Transkriptionsfaktoren (TFs) detektiert werden. Dies deutete bereits auf den Bezug von kurzer cfDNA zu transkriptionellen Vorgängen hin. Darüber hinaus zeigte sich eine Abhängigkeit der Anreicherung von kurzer cfDNA in bestimmten Regionen von der epigenetischen und transkriptionellen Aktivität: Aktive Promotoren zeigten eine starke Anreicherung von kurzer cfDNA, wohingegen stark methylierte CpG-Inseln eine deutlich schwächere Anreicherung von kurzer cfDNA als wenig methylierte CpG-Inseln zeigten. Außerdem zeigten ergänzende RNA-Sequenzierungen die Anreicherung von kurzer cfDNA in Genen, die laut RNA-Analysen hoch exprimiert waren. Diese Beobachtungen erinnerten insgesamt an die Detektion von DNA-Footprints, bei denen die Bindung spezifischer DNA-Sequenzen an bestimmte Proteine durch den Schutz vor Abbau durch DNasen identifiziert wird. Folglich wurden die ableitbaren Transkriptionsfaktor-Footprints aus Flüssigbiopsien als Liquid Footprints bezeichnet. Abschließend konnte gezeigt werden, dass die Sequenzierung von kurzer cfDNA die Detektion konditionsspezifischer TFBS in Flüssigbiopsien ermöglichte und die Unterscheidung vier klinischer Indikationen (PDAC, Kolorektalkrebs, Sepsis, Post-OP) möglich war. Dies unterstreicht die Möglichkeiten von Liquid Footprinting als explorative, unvoreingenommene Plattform zur Detektion diagnostischer Markerregionen für verschiedenste klinische Indikationen. Abschließend wurde ein kurzer Ausblick auf die Kombination von Methylierungsdaten und Transkriptionsfaktordaten gegeben. Es wurden beispielhaft zwei Regionen betrachtet, welche auf ein Zusammenspiel der beiden Datentypen und damit eine biologische Verknüpfung schließen lassen. Zukünftige Diagnostik könnte von der integrierten Analyse profitieren und das volle Potenzial der verschiedenen cfDNA-Klassen in Kombination ausschöpfen.
Cell-free DNA (cfDNA) is a biomolecule that can be found extracellularly in various body fluids such as blood (plasma) or urine. It is a carrier of genetic information and has a relatively short half-life. This short half-life is useful to accurately determine the current cfDNA concentration and thus the physiological state. Accordingly, cfDNA can be used as a biomarker for diagnostic purposes. In addition to its biologically advantageous properties, it can also be extracted in a minimally invasive manner by taking a blood sample in form of a liquid biopsy, thus avoiding a risky tissue biopsy. With the help of next-generation sequencing (NGS), cfDNA was analyzed as part of this cumulative doctoral thesis and examined for its suitability as a biomarker in various fields of application. The underlying publications are attached in chapter 7.2. In the first part of this dissertation, the characteristics of microbial cfDNA (mcfDNA) in infection diagnostics were investigated using the example of sepsis. In a mouse model, the temporal and spatial dynamics of mcfDNA during sepsis were tracked under defined conditions. A workflow for the individual characterization of the pathological microbiome - hereafter referred to as pathobiome - and its dynamic changes was developed. First, the gut microbiome of healthy mice was determined as a reservoir for sepsis-causing pathogens. The physiological gut microbiome changed rapidly after induction of sepsis: After only 24 h, a pathobiome formed in the gut that showed high individual development. In the next step, the spatial transition of the pathobiome from the intestine to other compartments such as the normally sterile peritoneum and the bloodstream was investigated. Again, strong changes could be detected already after 24 h in the peritoneum and blood and could be detected using different methods: The findings of classical blood culture and NGS largely coincided, although NGS additionally identified significantly more species. In some cases, the pathobiomes differed considerably between the individual mice. However, in comparison to human samples, a clear overlap of the microbial genera could be identified, which occur as the main pathogens in sepsis. Finally, a formula was developed to calculate the absolute pathogen load in the blood. Smallest blood volumes of only 30 µl were sufficient for the analysis, which made serial sampling in mice possible in the first place. Consequently, individual mice could be analyzed over a period of 72 h. The highest microbial load was detected after 24 h, but dynamic changes could also be detected within a few hours. Thus, a short half-life for mcfDNA could be deduced in this study and this DNA class could be established as a sensitive and adequate marker for sepsis diagnostics. The second part of this work was dedicated to the characterization of epigenetic markers of human cfDNA for the diagnosis of pancreatobiliary cancers (PBC), focusing in particular on DNA methylation patterns (as information within cfDNA) as biomarkers. The aim was to identify regions in the genome that were differentially methylated between PBC patients and control groups. These differentially methylated regions (DMRs) were supposed to form a target panel that would enable sensitive and specific diagnostics based on high-throughput NGS of patient cfDNA. In the first step, methylated cfDNA was enriched non-specifically and sequenced by means of NGS. The collected data were analyzed using three different bioinformatic tools and DMRs were determined. These were combined with previously published regions from the literature and newly determined regions from tissue databases to form a sequencing panel which was used for the targeted Hybridization and Capture method. Additional clinically collected data such as the tumor protein marker CA19-9, which is already established in routine practice, were only used as additional information for the panel, as these did not yet allow reliable differentiation between patient groups.in contrast to the sequencing data in this cohort. Finally, the Hybridization and Capture panel was used to sequence 15 PBC, 15 pancreatitis, and 15 control patients. In combination with the CA19-9 values of the patients, a machine learning approach was used to identify the top 50 marker positions in the identification cohort. With these, a sensitivity of 93%, a specificity of 63%, and an area under the ROC curve of 0.85 could be achieved. A validation cohort consisting of ten patients each from the PBC, pancreatitis and control groups as well as seven IPMN patients was then sequenced. In this cohort, a sensitivity of 92%, a specificity of 84%, and an area under the ROC curve of 0.88 were achieved. In addition, high-grade IPMNs and PBC patients could be well distinguished from low-grade IPMNs, pancreatitis, and controls. Thus, patients requiring more intensive treatment or surgery could be identified. Methylated cfDNA consequently holds great diagnostic potential for pancreatic diseases and showed sensitive properties in this publication that could be used for a large number of (cancer) diseases. In the third and final part of this dissertation, the aim was to characterize a specific class of short cfDNA fragments from total cfDNA. The hypothesis was that short cfDNA fragments (20-60 bp) contain regulatory information in the systemic context of an individual, which can be used as differential markers in diagnostics. For this purpose, a method for size selection of cfDNA was first established, which enabled the enrichment of intact double-stranded short DNA fragments by means of gel electrophoresis. Short cfDNA was enriched in specific genomic positions and showed narrow, defined as well as broad cluster peaks. Among these, broad peaks were mostly characterized by their proximity to transcription start sites or transcription factor binding sites (TFBS). Comparison to regular cfDNA revealed that the two cfDNA classes behaved in opposite ways: The enrichment of one cfDNA class meant the depletion of the other, for example, at open chromatin, nucleosome-free regions, or transcription start sites. Short cfDNA thus did not appear to be a degradation product of regular cfDNA, but rather seemed to be protected from degradation by DNases through the binding of transcription factors (not nucleosomes as in regular cfDNA). Using the short cfDNA, a potential binding of various transcription factors (TFs) could also be detected via transcription factor motif enrichment or analysis of known TFBS. This already indicated the relation of short cfDNA to transcriptional processes. Moreover, the enrichment of short cfDNA in particular regions was found to be dependent on epigenetic and transcriptional activity: Active promoters showed a strong enrichment of short cfDNA, whereas highly methylated CpG islands showed a much weaker enrichment of short cfDNA than low-methylated CpG islands. In addition, complementary RNA sequencing showed the enrichment of short cfDNA in genes that were highly expressed according to RNA analyses. Overall, these observations were reminiscent of the detection of DNA footprints, in which the binding of specific DNA sequences to certain proteins is identified by protection from degradation by DNases. Consequently, the transcription factor footprints derived from liquid biopsies were termed liquid footprints. In conclusion, it was shown that sequencing of short cfDNA enabled the detection of condition-specific TFBS in liquid biopsies and the discrimination of four clinical indications (PDAC, colorectal cancer, sepsis, post-OP). This underscores the potential of liquid footprinting as an exploratory, unbiased platform for the detection of diagnostic marker regions for various clinical indications. Finally, a brief outlook was given on the combination of methylation data and transcription factor data. Two regions were considered as examples, suggesting an interaction of the two data types and thus a biological linkage. Future diagnostics could benefit from the integrated analysis and exploit the full potential of the different cfDNA classes in combination.