inSARa: Hierarchische Netzwerke zur Analyse, Visualisierung und Vorhersage von Struktur-Aktivitäts-Beziehungen
Die Kenntnis von Struktur-Aktivitäts-Beziehungen (SARs) kann die Entwicklung neuer Arzneistoffe entscheidend beschleunigen. Die fortlaufend zunehmende Menge an verfügbaren Bioaktivitätsdaten enthält potentiell diese wertvollen Schlüssel-Informationen. Die Herausforderung, die es noch zu lösen gilt, ist die Auswertung dieser Daten. Für die Bewältigung dieser Dimensionen werden heutzutage computergestützte Verfahren benötigt, die automatisiert, die wichtigsten Informationen über SARs extrahieren und möglichst anschaulich und intuitiv für den medizinischen Chemiker darstellen. Das Ziel dieser Arbeit war daher, die Entwicklung einer Methode namens inSARa (Abkürzung für „intuitive networks for Structure-Activity Relationship analysis“) zur intuitiven Analyse und Visualisierung von SARs. Die Hauptmerkmale des entwickelten Verfahrens sind hierarchische Netzwerke klar-definierter Substruktur-Beziehungen auf Basis gemeinsamer pharmakophorer Eigenschaften. Hierzu wurde das Konzept des „reduzierten Graphen“ (RG) mit dem intuitiven Konzept der „maximal gemeinsamen Substruktur“ (MCS) kombiniert, wodurch ein besonderer Synergismus für die SAR-Interpretation resultiert. Dieser ermöglicht, dass der medizinische Chemiker leicht gemeinsame bzw. bioaktivitätsbeeinflussende molekulare (pharmakophore) Merkmale in großen, auch strukturell diverseren Datensätzen, die aus Hunderten oder Tausenden von Molekülen bestehen, erfassen kann. Verschiedene Analysen (z.B. basierend auf der Bioaktivitäts-Vorhersage mittels kNN-Regression) konnten eine Komplementarität oder Überlegenheit der für inSARa verwendeten molekularen Repräsentation und Ähnlichkeitserfassung zum häufig verwendeten Ansatz der Fingerprint-basierten Ähnlichkeitsanalyse belegen. Der inSARa Hybrid Ansatz, der inSARa in verschiedenen Varianten mit Fingerprint-basierten Ähnlichkeits-Netzwerken kombiniert, zeigt zudem die Vorteile auf, die aus der Kombination beider Prinzipien resultieren können. Beim Analysieren von Datensätzen aktiver Moleküle einzelner Zielstrukturen haben sich die ohne Berücksichtigung von Bioaktivitätsinformation aufgebauten inSARa-Netzwerke als wertvoll für verschiedene essentielle Aufgaben der SAR-Analyse erwiesen. Neben gemeinsamen pharmakophoren Eigenschaften lassen sich so auf Grundlage einfacher Regeln bioisosterer Austausch, sprunghafte SARs oder „SAR Hotspots“ und sogenannte „Activity Switches“ erkennen. Die verschiedenen Typen an SAR-Information können sowohl mittels interaktiver Navigation durch die hierarchisch aufgebauten Netzwerke als auch durch automatisierte Netzwerk-Analyse (inSARaauto) identifiziert werden. Der auf inSARaauto aufbauende SARdisco Score ermöglicht zudem analog zum Fingerprint-basierten SAR-Index die globale Charakterisierung der Verteilung von SAR-(Dis-)Kontinuität in inSARa-Netzwerken. Der Vergleich der inSARa-Netzwerke verschiedener Zielstrukturen auf Basis der Schnittmenge an RG-MCSs hat außerdem gezeigt, dass die für die SAR-Interpretation entwickelten inSARa-Netzwerke auch wichtige Information im Hinblick auf Polypharmakologie enthalten. Die Ergebnisse dieser Analyse bestätigen, dass dieser RG-MCS-basierte Ansatz aufgrund seiner einfachen Interpretierbarkeit und Fokussierung auf Eigenschaften, die in die Protein-Ligand-Bindung involviert sind, das Potential für die Ergänzung verfügbarer Chemogenomik-Ansätze zur ligandbasierten Analyse von Target-Ähnlichkeiten und zur Identifizierung von Kreuzreaktivitäten aufweist. Zusammenfassend ist festzustellen, dass von dem in dieser Arbeit entwickelten inSARa-Ansatz somit durch seine vielseitige Anwendbarkeit ein wichtiger Beitrag zur Entwicklung neuer und sicherer Arzneistoffe erwartet werden kann.
The analysis of Structure-Activity-Relationships (SARs) of small molecules is a fundamental task in drug discovery as this this knowledge is essential for the medicinal chemist at different stages of drug development. The increasing number of bioactivity data is a valuable source for this key information. Yet, up to now, the organization and mining of these data is one of the major challenges. To tackle this issue, computational methods aiming at the automatic extraction of SARs and their subsequent visualization are needed. Therefore, the goal of this thesis was the development of a method called inSARa (abbreviation for “intuitive networks for Structure-Activity Relationship analysis”) for the intuitive SAR analysis and visualization. The main features of the approach introduced herein are hierarchical networks of clearly-defined substructure relationships based on common pharmacophoric features. The method takes advantage of the synergy resulting from the combination of reduced graphs (RG) and the intuitive concept of the maximum common substructure (MCS). Using inSARa networks, common molecular or pharmacophoric features crucial for bioactivity modification are easily identified in data sets of different size (up to thousands of molecules) and heterogeneity. Various analyses (e.g. based on the prediction of bioactivities using kNN regression) show that the way of molecular representation and perception of similarity used in inSARa is superior to the commonly used concept of fingerprint-based similarity analysis. The inSARa Hybrid approach, which combines inSARa with fingerprint-based similarity networks in different ways, highlights the advantages resulting from the combination of both concepts. When focusing on a set of active molecules at one single target, the resulting inSARa networks are shown to be valuable for various essential tasks in SAR analysis. Based on simple rules not only common pharmacophoric patterns but also bioisosteric exchanges, activity cliffs or ‘SAR hotspots’ and ‘activity switches’ are easily identified. These different types of SAR information are either identified by interactive navigation of the hierarchical networks or automated network analysis (inSARaauto). In Analogy to the fingerprint-based SAR-Index, the SAR disco Score which is based on inSARaauto globally characterize the portion of SAR (dis)continuity in inSARa networks. Additionally, inSARa networks of a large number of different targets were pairwisely compared on the basis of the portion of common RG-MCSs. The results indicate that inSARa networks which were primarily devoloped for SAR interpretation are also valuable for gaining insights in polypharmacology. The promising results of the analysis show that the RG-MCS-based concept can complement published chemogenomic approaches for ligand-based analysis of targets similarities and the identification of cross-reactivities/off-target-relationships. The advantage of the devoloped RG-MCS approach is the easy interpretability and the the fact that molecular features involved in protein-ligand binding are represented. In summary, due to the versatility and the intuitive concept, the introduced inSARa approach is expected to support and stimulate the development of new or safer drugs.
Preview
Cite
Access Statistic
Rights
Use and reproduction:
All rights reserved