Benutzer:Robin.goerlach/Entwürfe/Chemische Datenbanken

Eine chemische Datenbank ist eine Datenbank zur Speicherung chemischer Information. Diese Informationen sind chemische- oder Kristallstrukturen, physikalische Eigenschaften von Molekülen, Spektren, Reaktionen und Synthesen und thermodynamischen Daten.

Arten von chemischen Datenbanken

Chemische Strukturen

Chemische Strukturen sind traditionell Liniengrafiken, die chemischen Bindungen zwischen Atomen darstellen (2D Strukturformeln ). Diese sind ideal für Chemiker zur visuelle Darstellungen, für den Computer gestützten Einsatz sind diese gänzlich ungeeignet (Speicherung und Suche). Kleine Moleküle (auch als Liganden in Drug Design-Prozess), werden in der Regel in Listen von Atomen und deren Verbindungen dargestellt. Große Moleküle wie Proteine werden jedoch kompakter dargestellt unter Verwendung der Sequenzen der Aminosäure-Bausteine. Große Datenbanken für chemische Strukturen werden aufgebaut, um die Speicherung und Abruf von Informationen über Millionen von Molekülen und ihren physikalischen Eigenschaften oder ihrer Verbindungen zu handhaben.

Literaturdatenbank

Chemische Literaturdatenbanken verbinden Strukturen oder andere chemische Informationen zu relevanten Referenzen wie wissenschaftliche Arbeiten oder Patente. Diese Datenbank sind z.B. STN, Scifinder und Reaxys.

Kristallographischen Datenbank

Kristallographische Datenbanken verwaltet Röntgen Kristallstruktur Daten. Typische Beispiele sind Protein Data Bank und Cambridge Structural Database.

NMR-Spektren-Datenbank

NMR-Spektren Datenbanken korrelieren chemischen Struktur mit NMR-Daten. Diese Datenbanken enthalten oft andere Charakterisierung Daten wie FTIR und Massenspektrometrie.

Reaktionen Datenbank

Die meisten chemischen Datenbanken speichern Informationen über stabile Moleküle aber in Datenbanken für Reaktionen auch Zwischenprodukte und vorübergehend erstellt instabile Moleküle gespeichert werden. Reaction Datenbanken enthalten Informationen über Produkte, Edukte und Reaktionsmechanismen.

Thermophysikalische Datenbank

Thermophysikalische Daten sind Informationen über

Phasengleichgewicht mit Dampf-Flüssigkeit-Gleichgewicht, Löslichkeit von Gasen in Flüssigkeiten, Feststoffe in Flüssigkeiten (SLE), Mischungswärmen, Verdampfung und Schmelzenthalpie.
kalorische Daten wie Wärmekapazität , Standardbildungsenthalpie und Verbrennungswärme,
Transporteigenschaften wie Viskosität und Wärmeleitfähigkeit.

Chemische Struktur Darstellung

Es gibt zwei grundlegende Techniken für die Darstellung von chemischen Strukturen in digitalen Datenbanken Als Verbindung Tabellen / Adjazenzmatrizen / Listen mit zusätzlichen Informationen über Bindung (Kanten) und Atom Attribute (Knoten), wie z. B.: MDL Molfile , PDB, CML Als lineare Zeichenfolge Notation auf Basis der Tiefensuche oder Breitensuche , wie zB: SMILES / SMARTS, SLN , WLN , InChI

Diese Ansätze wurden verfeinert, um Darstellung ermöglichen stereochemische Unterschiede und Gebühren sowie besondere Arten von Bindung, wie sie in gesehen metallorganischen Verbindungen. Der Hauptvorteil eines Computers Darstellung ist die Möglichkeit für erhöhte Speicherkapazität und schnelle, flexible Suche.

Suche

Substruktur Suche

Chemiker können Datenbanken unter Verwendung von Strukturteilen durchsuchen, Teile ihrer IUPAC -Namen sowie auf Einschränkungen für Eigenschaften. Chemische Datenbanken unterscheiden sind besonders von anderen Allzweck-Datenbanken in ihrer Unterstützung von Sub-Struktur suchen. Diese Art der Suche ist durch die Suche nach Subgraphisomorphismus (manchmal auch als Monomorphismus bezeichnet) erreicht und ist eine Anwendung der Graphentheorie. Die Algorithmen für die Suche sind rechenintensiv oft von der zeitliche Komplexität O (N ³) oder O (N ⁴) (wobei n die Anzahl der Atome beteiligt ist). Die intensive Suche der Komponente heißt Atom für Atom-Suche (ABAS), in dieser Suche Atome und Bindungen mit dem Zielmolekül verglichen. ABAS suchen in der Regel nutzt dem Ullman-Algorithmus ^[1] oder Variationen davon (dh SMSD ^[2] ). Beschleunigungen der Suche werden durch Aufteilung erreicht, das heißt, einen Teil der Zeit für die Suchanfrage wird durch die Verwendung vorberechneten gespeichert Informationen (Domain Index) gespart. Diese Vorberechnung sind typischerweise Bitstrings diese stellt die Anwesenheit oder Abwesenheit von molekularem Fragmente dar. Mit Blick auf die Fragmente in einem Such-Struktur ist es möglich, die Notwendigkeit für ABAS Vergleich mit Zielmoleküle, die nicht über die Fragmente, die in der Such-Struktur sind zu beseitigen. Diese Eliminierung wird als Screening (nicht mit den Screening-Verfahren in Wirkstoffentwicklung verwechselt werden). Die Bit-Strings die für diese Anwendungen verwendet werden auch als strukturell-Schlüssel bezeichnet. Die Leistung solcher Schlüssel hängt von der Wahl der Fragmente für die Konstruktion der Schlüssel und die Wahrscheinlichkeit ihres Auftretens in der Moleküle Datenbank ab. Eine andere Art von Schlüssel nutzt Hash-Codes um Fragmenten abgeleitet. Diese werden als "Fingerabdrücke" obwohl der Begriff wird manchmal synonym mit strukturell-Schlüssel verwendet. Die Größe des Speichers der benötigt wird, um diese strukturellen-Schlüssel und Fingerabdrücke zu speichern kann von 'Faltung' reduziert werden, hierzu werden durch Kombination von Teilen des Schlüssels mit bitweisen Operationen kombiniert und hierdurch wird eine Verkürzung Gesamtlänge erreicht. ^[3]

3D-Konformation

Suche nach passenden 3D-Konformation von Molekülen durch Angabe räumlichen Einschränkungen ist ein weiteres Merkmal, das besonders wichtig in der Wirkstoffentwicklung ist. Suchen dieser Art können rechnerisch sehr viel Zeit benötigen. Viele Verfahren die verwendet werden bieten nur ein ungefähre Ergebnis, zum Beispiel BCUTS, spezielle Funktion Darstellungen, Trägheitsmomente, Ray-Tracing Histogramme Histogramme maximale Abstand, Form Multipolen ein paar zu nennen. ^[4]^[5]^[6] ^[7] ^[8]

Deskriptoren

Alle Eigenschaften von Molekülen über ihre Struktur hinaus können entweder in physikalisch-chemischen oder pharmakologischen Eigenschaften, auch Deskriptoren genannt, aufgeteilt werden. Hinzu kommt, dass, gibt es verschiedene künstliche und mehr oder weniger standardisierte Benennung für Moleküle, die mehr oder weniger zweideutigen Namen und Synonyme belegt sind auch verwaltet werden müssen. Der IUPAC Name ist in der Regel eine gute Wahl für die Darstellung einer Molekül Struktur, in einem sowohl für Menschen lesbaren auch und eindeutige Zeichenfolge für den Computer, obwohl diese für größere Moleküle unhandlich wird. Trivial Name auf der anderen Seite gibt es mit Homonyme und Synonyme und sind daher eine schlechte Wahl als Definition eines Datenbank-Schlüssels. Während physikalisch-chemischen Deskriptoren wie Molekulargewicht, ( Teil- ) Ladung, Löslichkeit , etc. berechnet meist direkt auf dem Molekül die Struktur basieren, können pharmakologische Deskriptoren nur indirekt abgeleitet werden mit einbezogen multivariaten Statistik oder experimentelle ( Screening, Bioassay) Ergebnisse. All diese Deskriptoren können aus Gründen des Rechenaufwand sowie für die Molekül Darstellung gespeichert werden.

Chemische Ähnlichkeit

Chemische Ähnlichkeit (oder molekularen Ähnlichkeit) bezieht sich auf die Ähnlichkeit der chemischen Elemente , Moleküle oder chemische Verbindungen, in Bezug auf entweder strukturelle oder funktionelle Eigenschaften. Es gibt keine einheitliche Definition der molekularen Ähnlichkeit, aber das Konzept kann je nach Anwendung wie folgt definiert werden und wird oft beschrieben als das Inverse eines Entfernungsmaß in Deskriptor Raum. Zwei Moleküle könnten als eher ähnlich bezeichnet werden wenn zum Beispiel, ihre Differenz in Molekulargewichten niedriger ist als im Vergleich zu anderen Molekülen. Eine Vielzahl von anderen Metriken könnten zu einem multivariaten Abstandsmaß führen. Entfernungsmaße werden oft in eingestuften euklidischen oder nichteuklidischen Metriken klassifiziert je nachdem, ob die Dreiecksungleichung bestand hat. Maximale Gemeinsame Subgraph ( MCS ) basierte Substruktursuche ^[9] (Ähnlichkeit oder Distanzmaß) ist auch sehr häufig. MCS wird auch für das Screening von Moleküleketten als gemeinsame Teilgraphen verwendet. ^[10]

In den Chemischen Datenbanken werden Gruppen von "ähnlichen" Molekülen auf Ähnlichkeiten hin geclustert. Sowohl hierarchische und nicht-hierarchische Clustering Ansätze können zu chemischen Einheiten mit mehreren Attributen angewendet werden. Diese Attribute oder molekularen Eigenschaften können entweder empirisch oder rechnerisch abgeleitet bestimmt werden Deskriptoren . Eines der beliebtesten Clustering Ansätze ist die Jarvis-Patrick Algorithmus. ^[11]

In pharmakologisch ausgerichteten chemischen Repositories, wird die Ähnlichkeit in der Regel in Bezug auf die biologische Wirkung der Verbindungen (definiert ADME / tox), die wiederum können halbautomatisch aus ähnlichen Kombinationen von physikalisch-chemischen Deskriptoren mit gefolgert werden QSAR Methoden.

Registrierung

Datenbanken für die Speicherung eindeutige Datensätze von chemischen Verbindungen werden als Registrier Systeme bezeichnet. Diese werden häufig für chemische Indexierung verwendet (Patent- und Industrie-Datenbanken). Registrierungssysteme bauen in der Regel auf Einzigartigkeit der Chemikalie in der Datenbank die durch die Verwendung von eindeutigen Darstellungen vertreten werden. Durch die Erzeugung von einzigartigen / 'kanonischen' Zeichenketten als Repräsentant der Chemikalie als Darstellungen wie "kanonischen SMILES'. Einige Registrierung Systeme wie das CAS-System nutzen, um einzigartige Algorithmen erzeugen Hash-Codes, um dasselbe Ziel zu erreichen.

Ein wesentlicher Unterschied zwischen einer Registrierung und einer einfachen chemischen Datenbank ist die Fähigkeit, genau darzustellen, was bekannt ist, unbekannt oder teilweise bekannt. Zum Beispiel könnte eine chemische Datenbank ein Molekül mit spezifiziert Stereochemie speichern, während eine chemische Registrier System den Registrar, auffordert um anzugeben, ob die Stereo-Konfiguration unbekannt ist, eine bestimmte (bekannte) Mischung oder Racemat ist.

Registrier Systeme kann Informationen auch aufbereiten um die Registrierung Moleküle zu vermeiden, angesichts trivialer Chemischer Unterschiede wie in Halogen -Ionen.

Werkzeuge

Die rechnerische Darstellungen sind in der Regel grafische Darstellung der Daten entsprechend der Eingaben des Registrar. Die Dateneingabe wird auch durch die Verwendung von chemischen Struktur Editoren vereinfacht. Diese Editoren wandeln die internen Daten in grafischen Darstellungen der Moleküle oder Reaktionen um. Es gibt auch zahlreiche Algorithmen für die Umwandlung von verschiedenen Formaten der Repräsentation. Ein Open-Source-Programm für die Konvertierung ist Openbabel. Diese Suche und Konvertierungsalgorithmen sind entweder innerhalb der Datenbank-System selbst implementiert oder wie jetzt der Trend als externe Komponenten (Cartridge), zur Standard-relationalen Datenbanksystemen passen implementiert und nachträglich installiert. Sowohl Oracle als auch PostgreSQL -basierte Systeme nutzen Cartridge Technologie, die eigene Benutzer Datentypen (z.B. CTAB als Struktur Datentyp) erlauben. Diese erlauben es dem Benutzer, SQL -Abfragen mit chemischen Suchkriterien zu formulieren (z. B. eine Anfrage für Aufzeichnungen mit einem Phenylring in ihrer Struktur als einem Smiles-Zeichenkette in einer SMILESCOL Spalte dargestellt suchen könnte.

 SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1')

Algorithmen für die Umwandlung von IUPAC -Namen zu strukturieren Darstellungen und umgekehrt sind auch für die verwendeten Extrahieren strukturelle Informationen aus dem Text . Es gibt jedoch Schwierigkeiten wegen der Existenz von mehreren Dialekte IUPAC. Die Arbeit ist auf eine einzigartige IUPAC-Standard (siehe etablieren InChI ).

Anmerkungen und Literatur

↑ Julian R. Ullmann: An algorithm for subgraph isomorphism. In: Journal of the ACM. 23. Jahrgang, Nr. 1, 1976, S. 31–42, doi:10.1145/321921.321925.
↑ S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader, J. M. Thornton: Small Molecule Subgraph Detector (SMSD) toolkit. In: Journal of Cheminformatics. 1. Jahrgang, 2000, S. 12, doi:10.1186/1758-2946-1-12.
↑ Maxwell D. Cummings, Alan C. Maxwell, Renee L. DesJarlais: Processing of Small Molecule Databases for Automated Docking. In: Medicinal Chemistry. 3. Jahrgang, Nr. 1, 2007, S. 107–113.
↑ R.S. Pearlman, K.M. Smith: Metric Validation and the Receptor-Relevant Subspace Concept. In: J. Chem. Inf. Comput. Sci. 39. Jahrgang, 1999, S. 28–35.
↑ Timothy Lin Jr, Clark: An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. In: JCIM. 45. Jahrgang, Nr. 4, 2005, S. 1010–1016.
↑ P. J. Meek, Z. Liu, L. Tian, C. J Wang, W. J Welsh, R. J Zauhar: Shape Signatures: speeding up computer aided drug discovery. In: DDT 2006. 19-20. Jahrgang, 2006, S. 895–904.
↑ J. A Grant, M. A. Gallardo, B. T. Pickup: A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. In: JCIC. 17. Jahrgang, Nr. 14, 1996, S. 1653–1666.
↑ P. J. Ballester, W. G. Richards: Ultrafast shape recognition for similarity search in molecular databases. In: Proceedings of the Royal Society A. 463. Jahrgang, 2007, S. 1307–1321.
↑ S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12
↑ S. Asad Rahman, M. Bashton, G. L. Holliday, R. Schrader, J. M. Thornton: Small Molecule Subgraph Detector (SMSD) Toolkit. In: Journal of Cheminformatics. 1. Jahrgang, 2009, S. 12, doi:10.1186/1758-2946-1-12 (ebi.ac.uk).
↑ Darko Butina: Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. In: Chem. Inf. Comput. Sci. 39. Jahrgang, 1999, S. 747–750.

Siehe auch

Biologische Datenbanken
Beilstein-Datenbank Beilsteins Handbuch der Organischen Chemie ist eine Datenbank für organische Chemie, eine der größten Faktendatenbanken der Welt und ein Standardwerk der chemischen Literatur.
Dortmund Datenbank (kurz DDB) ist eine Sammlung thermophysikalischer und thermodynamischer Daten reiner Stoffe und Stoffgemische.
BindingDB
ChEBI ein freies Lexikon über molekulare Entitäten
ChEMBL ein chemischen Datenbank von bioaktiven Molekülen mit medikamentös-ähnliche Eigenschaften.
ChemSpider ist eine freie Datenbank chemischer Verbindungen
Collaborative Drug Discovery (kurz CDD) eine Web-basierte Datenbank für die Verwaltung der Wirkstoffforschungs Daten, vor allem um kleine Moleküle und damit verbundene Bio-Assay-Daten.
Comparative Toxicogenomics Database (kurz CTD) ist eine öffentliche Website und Recherche-Tool, das wissenschaftliche Beziehungen zwischen Chemikalien, Gene und Krankheiten des Menschen beschreiben.
Computational Chemistry List
DrugBank eine Datenbank die Medikamente (dh chemischen, pharmakologischen und pharmazeutischen Daten) mit umfassenden Target (dh Sequenz, Struktur, Weg) Informationen kombiniert
Software Liste für die molekulare Modellierung
LOLI Datenbank die Registered Chemicals Liste
NMR-Spektren-Datenbank
PubChem
SPRESI-Datenbank
Colocalization Benchmark Source (CBS)

Externe Links

Datenbanken von chemischen Strukturen

mcule database, kostenlose Datenbank für virtuelles Screening und die Compound Bestellung
Synthesis references database Synthese Referenz Datenbank
Aurora Fine Chemicals Aurora reinst Chemicalien
eChemPortal, ein globales Portal zu Informationen über chemische Stoffe
[http://chem.sis.nlm.nih.gov/chemidplus NLM ChemIDplus , biomedizinische Chemie suchbar nach Name und Struktur.
Organic synthesis database Organische Synthese Datenbank
ZINC, eine freie Datenbank für das virtuelle Screening
ChemSpider, Freier Zugang zu > 20 Millionen Chemischen Structures, Stoffdaten und systematische Identifiers
MMsINC, ein kostenloses Web-orientierte Datenbank kommerziell erhältlichen Verbindungen für virtuelles Screening und Chemoinformatik Anwendungen
ChemIndustry eine freie Datenbank abgeleitet PubChem Daten
OpenCDLig eine kostenlose Web-Anwendung für Wirt / Gast-Komplexe
NCI/CADD Chemical Structure Lookup Service, Verzeichnis in welchen Datenbanken eine Struktur auftritt (derzeit> 70 Millionen indizierten chemischen Strukturen)
ChEBI, freien chemischen Substanz Registrierung für biologisch relevante Moleküle
Chemonaut (Seite nicht mehr abrufbar, festgestellt im April 2013.) Chemonaut ist die weltweit umfassendste Quelle für physikalisch verfügbaren kommerziellen Verbindungen.
Synthese Referenzen Datenbank
Jochem database, chemisches Wörterbuch
SMILES Chemical Reaction Database (Seite nicht mehr abrufbar, festgestellt im April 2013.), die SMILES Datenbank bietet zwei Millionen begutachteten chemische Strukturen als SMILES Strings gespeichert.
chemicalize.org Kostenlose, webbasierte Datenbank von ChemAxon bietet Ähnlichkeit, Substruktur oder exakte Struktur sucht mit Web-und Dokument (pdf, Microsoft-Dokumente usw.) Parsing-Funktionen.
eChemportal

Datenbanken der chemischen Namen

Chemical Substances Database, eine kostenlose Datenbank mit chemischen Namen, vor allem nützlich für die Übersetzung der Namen zwischen Japanisch und Englisch. Mehr als 37.000 Einträge.
ChemSub Online, kostenloses Web-Portal und Informationssystem über chemische Stoffe, Stoffnamen in 8 Sprachen.
EuroChem Online-Datenbank, die freie Chemiekalein Datenbank.

[1] Julian R. Ullmann: An algorithm for subgraph isomorphism. In: Journal of the ACM. 23. Jahrgang, Nr. 1, 1976, S. 31–42, doi:10.1145/321921.321925.

[2] S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader, J. M. Thornton: Small Molecule Subgraph Detector (SMSD) toolkit. In: Journal of Cheminformatics. 1. Jahrgang, 2000, S. 12, doi:10.1186/1758-2946-1-12.

[3] Maxwell D. Cummings, Alan C. Maxwell, Renee L. DesJarlais: Processing of Small Molecule Databases for Automated Docking. In: Medicinal Chemistry. 3. Jahrgang, Nr. 1, 2007, S. 107–113.

[4] R.S. Pearlman, K.M. Smith: Metric Validation and the Receptor-Relevant Subspace Concept. In: J. Chem. Inf. Comput. Sci. 39. Jahrgang, 1999, S. 28–35.

[5] Timothy Lin Jr, Clark: An analytical, variable resolution, complete description of static molecules and their intermolecular binding properties. In: JCIM. 45. Jahrgang, Nr. 4, 2005, S. 1010–1016.

[6] P. J. Meek, Z. Liu, L. Tian, C. J Wang, W. J Welsh, R. J Zauhar: Shape Signatures: speeding up computer aided drug discovery. In: DDT 2006. 19-20. Jahrgang, 2006, S. 895–904.

[7] J. A Grant, M. A. Gallardo, B. T. Pickup: A fast method of molecular shape comparison: A simple application of a Gaussian description of molecular shape. In: JCIC. 17. Jahrgang, Nr. 14, 1996, S. 1653–1666.

[8] P. J. Ballester, W. G. Richards: Ultrafast shape recognition for similarity search in molecular databases. In: Proceedings of the Royal Society A. 463. Jahrgang, 2007, S. 1307–1321.

[SMSD09-9] S. A. Rahman, M. Bashton, G. L. Holliday, R. Schrader and J. M. Thornton, Small Molecule Subgraph Detector (SMSD) toolkit, Journal of Cheminformatics 2009, 1:12. doi:10.1186/1758-2946-1-12

[10] S. Asad Rahman, M. Bashton, G. L. Holliday, R. Schrader, J. M. Thornton: Small Molecule Subgraph Detector (SMSD) Toolkit. In: Journal of Cheminformatics. 1. Jahrgang, 2009, S. 12, doi:10.1186/1758-2946-1-12 (ebi.ac.uk).

[11] Darko Butina: Unsupervised Data Base Clustering Based on Daylight’s Fingerprint and Tanimoto Similarity: A Fast and Automated Way To Cluster Small and Large Data Sets. In: Chem. Inf. Comput. Sci. 39. Jahrgang, 1999, S. 747–750.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]