Reduced graph based networks for the analysis of drug research datasets
In this work, the method inSARa (intuitive networks for structure-activity relationships analysis) is reimplemented and enhanced to tackle different data analysis challenges during the drug design process. InSARa facilitates the interpretation of structure-activity relationships (SAR) via interactive network navigation. This enables identification of features such as activity cliffs, bioisosteric exchanges, pharmacophore features and hotspots. To obtain inSARa networks, molecules are represented by reduced graphs (RG). Reduced graphs encode defined pharmacophoric features as pseudo atoms while keeping the original topology of the molecule. Halogens can optionally be encoded as separate feature, as they play an important role in drug design. Next, the maximum common substructure (MCS) is calculated for every RG pair to form a hierarchical tree-like skeleton of the network, where the root node represents the smallest MCS between RGs. More than one root node can be defined leading to separate subnetworks. Once generated, the original molecules are added directly to the MCS nodes that is a direct match or substructure of the respective reduced graph. To keep the network simple to navigate, subnetworks that consist of less than a defined number of nodes and MCS nodes not attached to any original molecules (exception: root nodes) are removed. Optional post-processing removes duplicate molecules from non-leaf MCS nodes if they are also found at a MCS leaf node. The open source software Cytoscape is used to visualize the networks, to assign molecule data like bioactivity to the nodes and apply a color code. Two approaches to aid finding interesting SAR spots are introduced by assigning values to the MCS nodes and calculating the gradient between two MCS nodes as edge attributes e.g. bioactivity differences between two MCS nodes. The assignment of values to MCS nodes can be done locally or hierarchically to focus the analysis to changes between similar molecules. The local approach assigns the median of the bioactivity values of molecules directly attached to the MCS node. The hierarchical approach takes into account all molecules that are further away from the root node. Two approaches for characterizing chemical spaces are shown using datasets from the public database ChEMBL: The first approach calculates RGs for the ChEMBL database as a coarse clustering by combining all molecules that get represented by the same reduced graph. A large number of molecules within ChEMBl do not share the RG with another molecule because drug-like molecules have different features and topologies to show activity and selectivity towards different targets. For the second approach, networks for ten kinase datasets from ChEMBL are characterized and statistically analyzed to give an overview of parameters like homogenicity/heterogenicity. The target FGFR4 could be identified as a very unique dataset with a high similarity of molecules. While this information alone could be obtained by calculating the Tanimoto distance, the network also identified the reason: the molecules in this dataset share large substructures. The identification of novel chemical space and the creation of intellectual property remains a drug design challenge. Here, an inSARa network built for the available patent space of the target Stearoyl-CoA desaturase 1 (SCD1) shows aspects between the patent space for different companies that would have not been obvious with traditional approaches like structural clustering. Another optimization goal in drug design is gaining selectivity towards off-targets. The inSARa method is extended to compare the SAR of different targets. Combination networks are calculated by connecting the networks of two targets over common MCS nodes and assigning their activity differences to the newly formed edges. Different strategies to find interesting selectivity in SAR are demonstrated: the edge weights; focus on nodes with high variability in node colors; focus on MCS leaf nodes between targets that show a great difference in activity. These strategies lead to different interesting areas e.g. identical molecules, activity differences of the surrounding very similar molecules, scaffold selectivity between two targets. The target network combination method introduced here is an intuitive and visual method that offers finding relevant difference in activity between targets.
In dieser Arbeit wird die Methode inSARa (intuitive networks for structure-activity relationships analysis) erweitert, um verschiedenen Herausforderungen der Datenanalyse in der Wirkstoffentwicklung zu begegnen. inSARa erlaubt die Interpretation der Struktur-Aktivitäts-Beziehungen (engl. structure-activity relationships (SAR)). Mithilfe interaktiver Netzwerknavigation lassen sich interessante SAR-Bereiche, wie z.B. SAR-Sprünge, Bioisostere oder so genannte Hotspots (Bereiche mit hoher Bioaktivitätsvarianz) finden. Zur Berechnung der inSARa Netzwerke werden Moleküle als reduzierte Graphen (RG) repräsentiert. RG kodieren pharmakophore Merkmale in Pseudoatomen unter Erhaltung der Molekültopologie. Halogene können als separates Merkmal kodiert werden, da sie eine besondere Rolle in der Wirkstoffentwicklung spielen. Für jedes RG-Paar wird die maximale gemeinsame Substruktur (engl. maximum common substructure (MCS)) berechnet und ein hierarchisches, baumartiges Grundgerüst des Netzwerkes gebildet. Die kleinste MCS bildet den Wurzelknoten, wobei auch mehrere Wurzelknoten definiert werden können, wodurch Teilnetzwerke entstehen. Die Originalmoleküle werden direkt an die MCS Knoten gehängt, wenn diese Knoten mindestens einer Substruktur des Molekül-RGs entspricht. Zur Vereinfachung der Netzwerknavigation werden kleine Teilnetzwerke mit einer vordefinierte Anzahl an Knoten und MCS Knoten ohne verbundene Originalmoleküle entfernt (Ausnahme: der Wurzelknoten). Optional können im Anschluss Duplikate aus mittelständigen MCS-Knoten entfernt werden. In dem Open Source Programm Cytoscape werden die Netzwerke visualisiert und Moleküleigenschaften wie Bioaktivität den Knoten zugeordnet und entsprechend eingefärbt. Zwei Methoden zum Finden interessanter SAR Bereiche in großen Netzwerken werden vorgestellt. Sie ordnen MCS Knoten einen Wert zu und notieren den Gradienten an der entsprechenden Kante, um beispielsweise signifikante Unterschiede in der Bioaktivität zu finden. Die Bestimmung der Gradienten kann lokal oder hierarchisch erfolgen. Lokale Bestimmung bedeutet, dass der Median der Bioaktivitäten aller Moleküle an einem MCS Knoten gebildet wird. Hierarchische Bestimmung bedeutet, dass auch alle Moleküle, die weiter entfernt vom Wurzelknoten sind für die Berechnung herangezogen werden. Exemplarisch werden zwei Möglichkeiten zur Charakterisierung chemische Räume an Datensätzen der öffentlichen Datenbank ChEMBL gezeigt: Für die erste Methode werden RG für die gesamte Datenbank berechnet und dann Cluster für alle Moleküle, die vom selben Graphen beschrieben werden können, gebildet. Die meisten ChEMBL-Moleküle teilen sich keinen RG mit anderen Molekülen, da ChEMBL vor allem Wirkstoffkandidaten beinhaltet, welche gleichzeitig hohe Bioaktivität und Selektivität an bestimmten Proteinen zeigen müssen. Für die zweiten Methode werden Netzwerkstatistiken für 10 ChEMBL Kinase Datensätze genutzt, um einen Eindruck ihrer jeweiligen Homogenität oder Heterogenität zu erhalten. Obwohl dieser Eindruck auch durch traditionelle Methoden wie Tanimoto Abstände erhalten werden kann, konnte z.B. im FGFR4 Netzwerk zusätzlich der Grund dieser hohen Ähnlichkeit gesehen werden: Die Moleküle teilen große Substrukturen. Eine weitere Herausforderung des Wirkstoffdesigns ist die Suche nach patentfreien chemischen Räumen, welche die Analyse der vorhandenen Patente notwendig macht. Als exemplarische Anwendung in diesem Bereich wird ein inSARa Netzwerk für den Patentraum des Zielproteins Steraoyl-CoA Desaturase 1 (SCD1) gebaut. Die Analyse dieses Netzwerkes zeigt einige interessante Zusammenhänge der Patenträume von verschiedenen Firmen, die nicht mit traditionellen Methoden wie zusammenpassenden Molekülpaaren oder Clustering zu entdecken sind. Selektivität ist ein weiterer Wirkstoffoptimierungsparameter. Die Methode inSARa wird hier erweitert, um die SAR zwischen nah verwandten Proteinen zu vergleichen. Kombinationsnetzwerke werden erstellte, indem einzelne Protein-Netzwerke über gemeinsame MCS Knoten miteinander verbunden werden und ihre Differenz in Bioaktivität den neu gezogenen Kanten zugeordnet wird. Verschiedene Möglichkeiten werden vorgestellt, um interessante SAR für die Selektivität zu finden: die Kantenwerte, heterogene Knoten (große Variabilität der Aktivität) und die größten Aktivitätsunterschiede zwischen den endständigen MCS Knoten beider Zielproteine. Die hier vorgestellte Kombination verschiedener Zielproteinnetzwerke ist eine intuitive und visuelle Methode, welche die Analyse für relevante Aktivitätsunterschiede ermöglicht.