Le
GEML,
un langage pour décrire le génome

Christine
BOUCHET
1er
février 2001
Le
format
GEML (Genetic Expression Markup Language), basé sur la technologie
XML, permet de décrire les gènes humains. S'il est adopté par la
communauté scientifique, il pourra devenir un standard utilisé dans
la recherche sur le génome, comme le HTML est devenu un standard
sur le Web.
Le
besoin d'une représentation harmonisée des connaissances sur le
génome
Le
langage GEML a été créé par la société américaine Rosetta
Inpharmatics, qui a mis en place la "GEML
community", une communauté scientifique destinée à développer
et promouvoir le standard. Elle comprend des leaders de la recherche
génétique comme Europroteome, la Harvard University , Agilent Technology
et Spotfire. Le prestigieux groupe de publication Nature a rejoint
récemment la GEML community.
Le
"Human
Genom Project" dont l'objectif est de cartographier l'ensemble
des gènes humains a connu des avancées significatives. L'enjeu est
maintenant de parvenir à une présentation harmonisée des résultats,
afin que les chercheurs du monde entier impliqués dans ce type de
travaux puissent bénéficier des résultats acquis.
"It's
not who's got the best technology, but who knows best how to
share the information" [i] |
Friedrich
von Bohlen, CEO de Lion Bioscience.
|
Le
format GEML répond à ce besoin en permettant de formaliser les informations
sur la structure de l'ADN et sur l'expression des gènes.
Un
format basé sur le métalangage XML
Le
GEML est basé sur le langage XML (eXtensible Markup Language), qui
est présenté comme le successeur de l'HTML sur le Web et est en
voie de devenir le format universel pour l'échange de données structurées.
C'est un profil d'application de la norme SGML (Standard Generalized
Markup Language), langage normalisé avec une sémantique riche, mais
complexe.
L'objectif
du langage XML est d'associer la facilité de HTML et la richesse
sémantique de SGML. C'est un format d'échange de données normalisé,
indépendant de la plate-forme et du SGBD. Il permet de décrire la
structure et le contenu de tout type de document. XML est qualifié
de métalangage, c'est à dire un langage permettant de définir d'autres
langages.
XML
a émergé début 96 par la réunion d'un groupe de travail spécialisé
du consortium W3. Le même consortium a publié une recommandation
en février 98, XML est donc devenu une norme industrielle de fait.
Le
principe du langage XML est d'utiliser des balises qui donnent du
sens à l'information plutôt que de lui donner un aspect particulier.
XML sépare le contenu et les instructions de traitement, y compris
le formatage. L'intérêt de cette séparation de la sémantique et
de la structure est de rendre l'information facilement réutilisable.
Le
GEML met à profit la flexibilité du XML pour définir une structure
qui doit être hiérarchique, compréhensible par l'homme et par la
machine, et compatible avec les standards industriels. Le format
doit permettre d'insérer des annotations exhaustives.
Ainsi,
GEML permet de séparer les informations sur les données et la méthodologie
utilisée pour recueillir ces données. Comme en XML on définit des
DTD (Document Type Definition) spécifiant les balises, les attributs,
et les conventions d'imbrication des balises. En pratique il y aura
deux DTD, une "Pattern DTD" qui décrit les gènes et une
"Profile DTD" qui décrit l'expression des gènes. Le format
est indépendant d'une plate forme matérielle ou d'un logiciel.
Des projets concurrents
D'autres
sociétés ont proposé des réponses au problème de standardisation
du génome. Lion Biosciences a développé son propre standard, et
le département sciences de la vie d'IBM travaille sur une base de
données virtuelle, nommée DiscoveryLink, qui permettra aux chercheurs
de retrouver de l'information de toute nature (texte, graphique
ou image), sur les gènes et les protéines.
Physiome
Sciences a également développé un langage basée sur le XML, CellML,
qui permet de modéliser différents types de cellules et de simuler
les effets des médicaments.
La
valeur ajoutée de ce type de langage est surtout liée aux nombres
de chercheurs qui l'utilisent. La prestigieuse revue scientifique
Nature et sa petite sœur Nature Genetics, références majeures dans
le domaine, ont adopté le langage GEML en décembre 2000. Les chercheurs
qui voudront publier dans Nature devront dorénavant l'utiliser le
GEML qui va donc probablement s'imposer comme un standard de fait.
[i] "Le problème n'est pas
d'avoir la meilleure technologie, mais de mieux savoir partager
l'information".
Réagissez
à cet article
Retrouvez tous
les articles de la rubrique Systèmes
d'information hospitaliers.
|