Base de donnees chimiques

Base de données chimiques

Une base de données chimiques est une base de données (éventuellement bibliographique) spécifiquement dédiée à l'information chimique. La plupart des bases de données chimiques stockent des informations sur des molécules stables. Les structures chimiques sont traditionnellement représentées dans une représentation de Lewis, qui utilise des lignes pour les liaisons chimiques (paires électroniques) entre atomes, et portées sur papier (formules structurales bidimensionnelles). Bien qu'elles constituent des représentations visuelles adaptées pour le chimiste, elles ne sont pas utilisables pour un usage informatique et plus particulièrement pour la recherche et le stockage.
Les grandes bases de données chimiques devraient être capables d'assurer le stockage et la recherche d'informations sur des millions de molécules (ou autres objets chimiques) sur des teraoctets de mémoire physique.

Sommaire

Représentation

Il existe deux techniques principales pour représenter les structures chimiques dans les bases numériques :

Ces approches ont été raffinées afin de permettre la représentation de différences stéréochimiques, de charges ainsi que des types spéciaux de liaisons comme celles des composés organométalliques. L'avantage principale d'une représentation informatique est la possibilité d'un stockage croissant et d'une recherche rapide et flexible.

Recherche

Les chimistes peuvent faire une recherche dans les bases en utilisant des parties de structures, des parties des nomenclatures IUPAC ou des contraintes imposées sur les propriétés. Les bases de données chimiques sont particulièrement différentes des autres bases de données plus générales dans leur façon de procéder à la recherche sur des sous-structures. Ce type de recherche est menée en recherchant un isomorphisme de sous-graphe (parfois aussi appelé monomorphisme) et est une application largement étudiée de la théorie des graphes. Les algorithmes de recherche sont intensif numériquement, parfois de complexité temporelle O (n3) or O (n4) (où n est le nombre d'atomes impliqués). La composante intensive de recherche est appelée recherche atome par atome (en anglais atom-by-atom-searching - ABAS). La recherche ABAS utilise habituellement l'algorithme d'Ullman ou ses variations. Des gains en vitesse sont obtenus par amortissement temporel, qui consiste à économiser du temps par utilisation d'information pré-calculée. Ce pré-calcul implique typiquement la création de séquence de bits représentant la présence ou l'absence de fragments moléculaires. En surveillant les fragments présents, il est possible dans une recherche de structure d'éliminer le besoin d'une comparaison ABAS avec les molécules ou objets chimiques cibles ne possédant pas les fragments requis par la recherche structurale. Cette élimination est appelée écrantage (en anglais screening, à ne pas confondre avec les procédures d'écrantage utilisées dans la recherche phramaceutique ou avec l'écrantage en atomistique). Les séquences de bits utilisées pour ces applications sont aussi appelées clés structurales. Les performances de telles clés dépendent du choix des fragments utilisés pour construire les clés et de leur probabilité de présence dans les molécules de la base de données. Un autre type de clé utilise des codes de hachage basés sur des fragments déterminés numeŕiquement. Elles sont appelées « empreintes digitales » bien que le terme soit parfois utilisé comme synonyme de clés structurales. L'espace-mémoire nécessaire pour le stockage de ces clés structurales et empreintes digitales peut être réduit par « compactage », qui est produit en combinant des parties de clé en utilisant des opérations judicieuses sur les bits et réduisant ainsi leur longueur globale.

Descripteurs

Toutes les propriétés « moléculaires » au-delà de la structure peuvent être séparées soit en caractéristiques physico-chimiques, soit en caractéristiques pharmacologiques, aussi appelées descripteurs. Par dessus ce système, il existe de nombreux systèmes artificiels plus ou moins standardisés pour les molécules et objets chimiques qui produisent des dénominations plus ou moins ambigües et des synonymes. La nomenclature IUPAC est habituellement un bon choix pour la représentation des structures moléculaires dans à la fois lisible pour tout un chacun et constituant une chaîne de caractères bien que devenant peu pratique pour de grosses espèces. Les noms triviaux d'un autre côté abondent avec des homonymes et synonymes et sont par conséquent un mauvais choix de clé de définition de la base. Tandis que les descripteurs physico-chimiques comme la masse molaire, la charge (partielle), la solubilité, etc. peuvent être quasiment directement calculées en se basant sur la structure moléculaire, les descripteurs pharmacologiques ne peuvent être qu'indirectement déduits à partir de statistiques multivariationnelles ou de résultats expérimentaux (dépistage, essai biologique, etc.). Tous ces descripteurs peuvent être stockés avec la représentation de la molécule, pour des raisons de couts de calculs, et le sont de manière courante.

Similarité

Il n'existe pas de définition simple de la similarité entre deux objets chimiques, mais cependant, le concept peut être défini selon le contexte d'application et est parfois décrit comme l'inverse d'une mesure de distance dans l'espace des descripteurs. Deux objets pourraient par exemple ainsi être qualifiés de plus similaires entre eux que d'autres si la différence de leurs masses molaires respectives est plus faible que comparée à d'autres. Une variété d'autres mesures pourrait être combinée afin de produire une mesure de distance à variables multiples. Les mesures de distance sont parfois classées en mesures euclidiennes et les mesures non-euclidiennes selon le choix de l'inégalité triangulaire.
Les espèces des bases de données peuvent être ainsi regroupées par similarités. Des approches de regroupements hiérarchiques ou non-hiérarchiques peuvent être appliquées à des entités chimiques à attributs multiples. Ces attributs (ou propriétés moléculaires) peuvent être des descripteurs déterminés empiriquement ou déterminés numériquement. Une des approches de regroupement les plus courantes est l'algorithme des k plus proches voisins de Jarvis-Patrick.
Dans des bases orientées vers la pharmacologie, la similarité est définie habituellement en termes d'effets biologiques de composés (ADME/toxicité) qui peut être déduite de combinaisons similaires de descripteurs physico-chimiques en utilisant des méthodes QSAR.

Systèmes d'enregistrement

Les systèmes pour maintenir des entrées uniques pour les composés chimiques dans les bases de données sont appelés systèmes d'enregistrement. Ils sont parfois utilisés pour l'indexation chimique, les systèmes de brevets et les bases de données industrielles.
Les systèmes d'enregistrement renforcent l'unicité des composés présentés dans la base de données par l'utilisation de représentations uniques. En appliquant des lois de prééminence pour la génération des notations séquencées, on peut obtenir des représentations uniques (ou canoniques) comme par exemple les SMILES canoniques. Certains systèmes d'enregistrement comme le système CAS font usage d'algorithmes spécifiques afin de générer un code de hachage afin d'atteindre le même objectif.
Une différence clé entre un système d'enregistrement et une simple base de données chimiques est la possibilité de repr'esenter précisément ce qui est connu, inconnu et partiellement connu. Par exemple, une base de données peut stocker une molécule avec une stéréochimie non spécifiée, alors qu'un système d'enregistrement chimique requiert de spécifier si la configuration stérique est inconnue, un mélange (connu) spécifique, ou un racémique. Chacune de ces spécifications constitueraient une entrée différente dans un système d'enregistrement chimique.
Les systèmes d'enregistrement préconditionnent les objets chimiques afin d'éviter la considération de différences triviales comme par exemple entre les ions halogénures dans les composés chimiques.
On pourra citer comme exemple le système d'enregistrement Chemical Abstracts Service (CAS). Voir aussi numéro CAS.

Outils

Les représentations numériques sont habituellement transparentes pour les chimistes, les données étant traduites graphiquement. L'entrée de données est aussi simplifiée par l'utilisation d'éditeurs de structures chimiques. Ces éditeurs convertissent en interne les données graphiques en représentaiotns numériques.
Il existe aussi de nombreux algorithmes pour l'interconversion de formats variés de représentation. OpenBabel est, par exemple, un des utilitaires permettant d'effectuer cette tâche. Ces algorithmes de recherche et de conversion sont implémentés soit dans le système de base de données lui-même ou comme maintenant dans des composantes externes qui les adaptentent pour les systèmes de bases de données relationnels standard. Les systèmes basés sur Oracle ou PostgreSQL font usage de la cartridge technologie permettant des types de données définis par l'utilisateur. Ce permet à l'utilisateur de faire des requêtes SQL avec des conditions chimiques sur les recherches. Par exemple une requête sur les entrées présentant un cycle benzénique dans leur structure représenté comme une séquence SMILES dans une colonne SMILESCOL pourrait être :

SELECT * FROM CHEMTABLE WHERE SMILESCOL.CONTAINS('c1ccccc1').

Les algorithmes de conversion des noms IUPAC en représentation structurales en inversement sont aussi utilisés pour extraire de l'information des textes. Cependant, il existe des difficultés en raison de l'existence de plusieurs correspondances IUPAC. Un travail est en cours afin d'établir un standard IUPAC unique (voir InChI)

Références

On pourra se reporter à la Computational Chemistry List (en anglais) pour plus de renseignements et discussions sur le sujet.

Voir aussi

  • Beilstein database
  • PubChem
  • DrugBank
  • ChemSpider

Liens externes

Base de données et logiciel d'enregistrement

Base de données de structures chimiques

Bases de données de noms chimiques

  • Chemical Substances Database, base de données libre de noms chimiques, principalement utile pour les traductions entre le japonais et l'anglais. Plus de 37 000 entrées.
  • ChemSub Online, Portail chimique libre, nom de substances en 8 langues.


  • (en) Cet article est partiellement ou en totalité issu d’une traduction de l’article de Wikipédia en anglais intitulé « Chemical database ».
  • Portail de la chimie Portail de la chimie
  • Portail de l’informatique Portail de l’informatique
Ce document provient de « Base de donn%C3%A9es chimiques ».

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Base de donnees chimiques de Wikipédia en français (auteurs)

Regardez d'autres dictionnaires:

  • Base de données chimiques — Une base de données chimiques est une base de données (éventuellement bibliographique) spécifiquement dédiée à l information chimique. La plupart des bases de données chimiques stockent des informations sur des molécules stables. Les structures… …   Wikipédia en Français

  • Base de donnees bibliographiques — Base de données bibliographiques Une base de données bibliographiques est une base de données qui contient des notices bibliographiques. Cette définition s applique à toute catégorie d objets bibliographiques : livres, collections, revues,… …   Wikipédia en Français

  • Base de données bibliographiques — Les base de données bibliographiques répertorient toute catégorie d objets bibliographiques : livres, collections, revues, articles de revues etc. Elles sont le fruit de l informatisation des catalogues de bibliothèque, et permettent des… …   Wikipédia en Français

  • Bases de données bibliographiques — Base de données bibliographiques Une base de données bibliographiques est une base de données qui contient des notices bibliographiques. Cette définition s applique à toute catégorie d objets bibliographiques : livres, collections, revues,… …   Wikipédia en Français

  • base — [ baz ] n. f. • XIIe; lat. basis, mot gr. « marche, point d appui » I ♦ A ♦ 1 ♦ Partie inférieure d un corps sur laquelle il porte, il repose. ⇒ appui (point d appui), assiette, assise, 1. dessous, fond, fondement, pied. La base de l édifice… …   Encyclopédie Universelle

  • Base pyrimidique — Pyrimidine Pyrimidine Structure de la pyrimidine Général Nom IUPAC Pyrimidine …   Wikipédia en Français

  • Base propre — Valeur propre, vecteur propre et espace propre Fig. 1. Cette application linéaire déforme la statue de David. Les vecteurs bleus ont pour images les vecteurs verts. Ils gardent la même direction, ce sont des vecteurs propres. La valeur propre… …   Wikipédia en Français

  • Donnees sur les elements chimiques — Données sur les éléments chimiques Cet article regroupe les données présentes sur les articles des éléments chimiques. Vous pouvez modifier ces données en cliquant sur le [m] à côté du nom de l élément à modifier, puis sur modifier. Note :… …   Wikipédia en Français

  • Données Sur Les Éléments Chimiques — Cet article regroupe les données présentes sur les articles des éléments chimiques. Vous pouvez modifier ces données en cliquant sur le [m] à côté du nom de l élément à modifier, puis sur modifier. Note : Un système permet de centraliser ces …   Wikipédia en Français

  • Données sur les éléments chimiques — Cet article regroupe les données présentes sur les articles des éléments chimiques. Vous pouvez modifier ces données en cliquant sur le [m] à côté du nom de l élément à modifier, puis sur modifier. Note : Un système permet de centraliser ces …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”