Découvrez Medcost

Plan du site

Contactez-nous

33, rue Raffet
75 016 Paris
Tél : 01 42 15 08 08

Le GEML,
un langage pour décrire le génome


Christine BOUCHET

1er février 2001

Le format GEML (Genetic Expression Markup Language), basé sur la technologie XML, permet de décrire les gènes humains. S'il est adopté par la communauté scientifique, il pourra devenir un standard utilisé dans la recherche sur le génome, comme le HTML est devenu un standard sur le Web.

Le besoin d'une représentation harmonisée des connaissances sur le génome

Le langage GEML a été créé par la société américaine Rosetta Inpharmatics, qui a mis en place la "GEML community", une communauté scientifique destinée à développer et promouvoir le standard. Elle comprend des leaders de la recherche génétique comme Europroteome, la Harvard University , Agilent Technology et Spotfire. Le prestigieux groupe de publication Nature a rejoint récemment la GEML community.

Le "Human Genom Project" dont l'objectif est de cartographier l'ensemble des gènes humains a connu des avancées significatives. L'enjeu est maintenant de parvenir à une présentation harmonisée des résultats, afin que les chercheurs du monde entier impliqués dans ce type de travaux puissent bénéficier des résultats acquis.

"It's not who's got the best technology, but who knows best how to share the information" [i]
Friedrich von Bohlen, CEO de Lion Bioscience.

Le format GEML répond à ce besoin en permettant de formaliser les informations sur la structure de l'ADN et sur l'expression des gènes.

Un format basé sur le métalangage XML

Le GEML est basé sur le langage XML (eXtensible Markup Language), qui est présenté comme le successeur de l'HTML sur le Web et est en voie de devenir le format universel pour l'échange de données structurées. C'est un profil d'application de la norme SGML (Standard Generalized Markup Language), langage normalisé avec une sémantique riche, mais complexe.

L'objectif du langage XML est d'associer la facilité de HTML et la richesse sémantique de SGML. C'est un format d'échange de données normalisé, indépendant de la plate-forme et du SGBD. Il permet de décrire la structure et le contenu de tout type de document. XML est qualifié de métalangage, c'est à dire un langage permettant de définir d'autres langages.

XML a émergé début 96 par la réunion d'un groupe de travail spécialisé du consortium W3. Le même consortium a publié une recommandation en février 98, XML est donc devenu une norme industrielle de fait.

Le principe du langage XML est d'utiliser des balises qui donnent du sens à l'information plutôt que de lui donner un aspect particulier. XML sépare le contenu et les instructions de traitement, y compris le formatage. L'intérêt de cette séparation de la sémantique et de la structure est de rendre l'information facilement réutilisable.

Le GEML met à profit la flexibilité du XML pour définir une structure qui doit être hiérarchique, compréhensible par l'homme et par la machine, et compatible avec les standards industriels. Le format doit permettre d'insérer des annotations exhaustives.

Ainsi, GEML permet de séparer les informations sur les données et la méthodologie utilisée pour recueillir ces données. Comme en XML on définit des DTD (Document Type Definition) spécifiant les balises, les attributs, et les conventions d'imbrication des balises. En pratique il y aura deux DTD, une "Pattern DTD" qui décrit les gènes et une "Profile DTD" qui décrit l'expression des gènes. Le format est indépendant d'une plate forme matérielle ou d'un logiciel.

Des projets concurrents

D'autres sociétés ont proposé des réponses au problème de standardisation du génome. Lion Biosciences a développé son propre standard, et le département sciences de la vie d'IBM travaille sur une base de données virtuelle, nommée DiscoveryLink, qui permettra aux chercheurs de retrouver de l'information de toute nature (texte, graphique ou image), sur les gènes et les protéines.

Physiome Sciences a également développé un langage basée sur le XML, CellML, qui permet de modéliser différents types de cellules et de simuler les effets des médicaments.

La valeur ajoutée de ce type de langage est surtout liée aux nombres de chercheurs qui l'utilisent. La prestigieuse revue scientifique Nature et sa petite sœur Nature Genetics, références majeures dans le domaine, ont adopté le langage GEML en décembre 2000. Les chercheurs qui voudront publier dans Nature devront dorénavant l'utiliser le GEML qui va donc probablement s'imposer comme un standard de fait.


[i] "Le problème n'est pas d'avoir la meilleure technologie, mais de mieux savoir partager l'information".



Réagissez à cet article

Retrouvez tous les articles de la rubrique Systèmes
d'information hospitaliers.

1er février 2001

 

@
Programme de Médicalisation du Système d'Information (PMSI)
Principes du PMSI
Utilisation du PMSI
Lire aussi

Septembre 2000
XML, un langage pour baliser les échanges d'information médicale

Les 10 derniers
Focus PMSI

 Juillet 2002
Thierry Boccara : PDG du Groupe OPTIUM

 Novembre 2001
La cataracte en chirurgie ambulatoire

 Septembre 2001
Chaînage des informations : vers une solution ?

 Septembre 2001
L' épidémiologie par le PMSI, cas pratiques.

 Avril 2001
HEGP : hôpital sur mesure ou hôpital démesuré ?

Février 2001
Les résultats du PMSI privé 1999

Le GEML, un langage pour décrire le génome

Janvier 2001
Le GIP GMSIH annonce son plan stratégique pour 5 ans

Hospit-Hall, une place de marché pour le matériel hospitalier

Décembre 2000
Le bilan du PMSI public et PSPH 1999

Novembre 2000
Une nouvelle agence pour l'information hospitalière

     
   
   
     
Copyright © Medcost 2003-Tous droits réservés.    
 
Dossiers
Plan du site
 
Références : Doctissimo I Caradisiac I Ados.fr I Momes.net I gnomz.com I fluctuat.net