J'ai eu la chance d'assister aujourd'hui à une conférence intitulée « A Semantic Jamboree for Biology: Ontologies, the Semantic Web and Semantic Middleware » donnée par Carole Goble sur le site de l'Institut Pasteur. C'était vraiment passionnant et j'étais heureux de replonger un peu dans l'ambiance scientifique. Voici le contenu résumé de la présentation :
Over the past ten years or more there has been huge enthusiasm for ontologies in biology. Examples include the Gene Ontology, BioPAX, OBI, etc. Ontologies are community-wide and community developed knowledge models that we use to annotate datasets, index data, cross-link records and exchange information. But they can be much more than this. And less.
Ontology-enabled metadata is used in the Life Sciences to harvest and harness the collective intelligence of the Life Science community - its data sets, its know-how, it tools and its people. This is also the aim of the Semantic Web. By adding machine-processable metadata into the Web we can enrich the Web with ontologies, interlink and aggregate the data published on the web or generated by Web Services, and even infer new information. So the Semantic Web seems like an ideal partner for the Life Sciences, and the Life Sciences are a community with a need and an environment that can incubate the development of the Semantic Web. But sometimes a little semantics is all you need.
Meanwhile, there has been a revolution in how we automate and integrate the resources of the Life Sciences – web services and workflows are the mainstays of the technical middleware underpinning our integration platforms. The myGrid project and its Taverna workflow workbench is an example of such a modern Bioinformatics platform. So is the new social networking and workflow exchange initiative myExperiment. Again, semantic technologies are valuable for finding datasets, guiding workflow development, recording and reusing results and helping Scientists exchange and share their science and their ideas. But the devil is in the detail.
In this tutorial I will tackle two things: first an introduction to Ontologies, their purpose, the state of the art and the language and tools to develop them. In the second part I will talk about my own research using ontologies to help life scientists integrate and explore the plethora of knowledge out there in the community. I will draw on my work on the myGrid, myExperiment and OntoGrid projects, my past work on the TAMBIS project and work by my colleagues on the SeaLife and ComparaGrid projects. I’ll darw on examples from other work such as the SWAN system at Harvard, BioDASH at MIT and the rise of social tagging in Scientific publications.
Et maintenant quelques phrases que j'ai retenu, en attendant que le support de la présentation soit en ligne (très prochainement dixit la conférencière qui avait pas mal de problèmes avec PowerPoint alors qu'il existe des alternatives tellement plus pratiques) :
Il n'y a pas de Science, il n'y a que des scientifiques qui échangent leurs connaissances.
L'introduction commençait assez fort et continuait sur le concept de la valeur ajoutée des méta-données via les étiquettes. C'est ce qui distingue une information d'un savoir. L'étiquetage se réalise en 3 étapes :
- l'ajout d'une étiquette ;
- la description de l'étiquette ;
- l'explication du sens de l'étiquette.
Le concept actuel des tags crée une connaissance non contrôlée due au nombre de possibilités trop important et au manque de description des relations qui peuvent exister entre ces tags. Il est nécessaire de définir un vocabulaire commun pour arriver à un résultat satisfaisant qui apporte du sens.
Ontologies
Rien de vraiment nouveau de ce côté là, surtout lorsqu'on s'est un peu renseigné avant en lisant la page sur Wikipédia ou d'autres articles intéressants à ce sujet. D'ailleurs, le dernier paragraphe de la dernière page évoque la programmation orientée ontologie. C'est un concept d' « Intelligence Artificielle » auquel je n'avais pas pensé auparavant et qui me semble très intéressant. Il faut encore que j'y réfléchisse.
Web sémantique
J'attendais cette partie avec impatience et malheureusement elle a été un peu escamotée faute de temps mais j'attends impatiemment le support de présentation qui contenait des graphes assez parlants. C'est surtout l'opposition « web intelligent crée par une élite » mais peu utilisé vs. le web grand public comprenant l'annotation des ressources par les masses mais de façon non conventionnelle et quasi-inutilisable. Ça m'a rappelé l'opposition RDF/Microformats dont j'ai déjà parlé et j'ai d'ailleurs posé la question en fin de présentation. Les Microformats représentent un part de l'avenir dixit la conférencière du fait de leur inclusion directe dans la page et l'une des tendances actuelles est d'inclure du RDF sous la forme de Microformats directement dans les pages, il faudra que je me renseigne là-dessus.
Les geeks doivent construire des outils pour que les masses fassent du web sémantique sans le savoir, un peu à la manière des tags de Flickr.
La bataille l'avenir du Web Sémantique en dépend et de nombreux espoirs sont nourris vis-à-vis de son essor dans les disciplines scientifiques comme la biologie.
myGrid : des workflows de mashups dédiés à la biologie
Bon outre le fait de faire péter le compteur 2.0 (ce qui est relativement rare en biologie), le projet est intéressant et je vais essayer d'expliquer clairement de quoi il retourne (enfin du moins ce que j'ai compris, je n'ai pas encore eu le temps de tester).
Devant le constat d'un nombre très important de services proposés aux scientifiques, l'équipe de Carole Goble a identifié des workflows récurrents d'utilisation de ces services. Ils ont donc eu l'idée de créer des workflows type d'utilisation de ces services. Ceux-ci étant utilisables via des services web, il a été relativement simple de créer des agrégations de ces services (ou mashups). Pour aller plus loin, le soin est laissé aux chercheurs de créer leurs propres workflows et de les partager. C'est en quelque sorte du Yahoo Pipes dédié à la biologie.
La dernière version de l'application a permis l'insertion de sémantique mais on manquait de temps pour aborder les détails.
Conclusion
Au final, malgré le manque de temps, je ne regrette pas du tout d'avoir assisté à cette conférence aussi bien par la densité des sujets intéressants abordés que par la prestation de la conférencière qui avait la pèche du début à la fin ! (et qui s'exprimait en anglais très distinctement).
Ça fait plaisir aussi de voir qu'une (petite) partie de la biologie n'est pas en retard de quelques années, c'est vraiment motivant. Il faut que j'explore un peu toutes les pistes données car certaines initiatives comme l'Open Biology Ontology ou Gene Ontology le méritent. Le meilleur est à venir ;-).
Commentaires
Got le 20/04/2007 :
Les biologistes sont loin d'être en retard dans l'utilisation des ontologies et du Web sémantique dans leur travail quotidien. J'en veux pour preuve le fait que le meilleur outil pour créer et gérer des ontologies, Protégé (protege.stanford.edu/ ) a été développé par un institut de médecine et l'existence du groupe "Health care and life sciences" au sein de l'activité Semantic Web du W3C (www.w3.org/2001/sw/hcls/ ).
A propos des ontologies, j'avais écrit quelques billets qui pourront peut-être compléter les références que tu as données : lespetitescases.net/defin... ; lespetitescases.net/l-ont... ; lespetitescases.net/appri... et lespetitescases.net/appri...
Thomas le 21/04/2007 :
Le seul problème c'est que la science avance, de nouveaux concepts apparaissent et donc les ontologies sont rapidement dépassées... Il faut tenir compte des différences de vocabulaire (ex: gène en biologie moléculaire et gène en génétique des pop). D'ailleurs n'y a t'il pas dans GO une catégorie pour les termes obsolètes!