Repository with sources and generator of https://larlet.fr/david/ https://larlet.fr/david/
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

article.md 12KB

title: ★ À la recherche d'un site sémantique slug: a-la-recherche-d-un-site-semantique date: 2006-08-15 16:22:46 type: post vignette: images/logos/semantic_web_activity.png contextual_title1: ★ De l'avenir du web contextual_url1: 20060808-de-l-avenir-du-web contextual_title2: ★ Résolutions : rediriger, économiser et débattre contextual_url2: 20120131-resolutions-rediriger-economiser-et-debattre contextual_title3: ★ Résolutions : découvrir, concrétiser et transmettre contextual_url3: 20110112-resolutions-decouvrir-concretiser-et-transmettre

Ce billet fait suite à celui intitulé À la recherche du site parfait qui était une ébauche de réflexion sur la structure de mon prochain site. Depuis que je vous ai promis l'avenir du web comme étant sémantique, je suis sûr que vous vous êtes jetté sur votre moteur de recherche préféré pour essayer d'être prêt lorsque ce jour sera arrivé. Si ce n'est pas le cas, 1/ c'est mal car les prédiction de Biologeekus ont une très forte probabilité d'apparition (si si je vous assure !), 2/ c'est compréhensible et c'est la raison pour laquelle je vais tenter de détailler ce que c'est ici.

Qu'est ce que le web sémantique ?

En fait la première question à se poser serait « Pourquoi le web sémantique ? ». Il est évident que le mode recherche actuel de données sur le web est archaïque. D'ailleurs, de récentes études hautement scientifiques le prouvent ;-). Il est donc nécessaire d'introduire au contenu existant des données permettant une indexation plus poussée.

L'idée est d'associer à un contenu des données qui décrivent un sens, à l'origine humain, qui soit compréhensible par les machines. Prennons exemple sur ce billet de blog :

  • le contenu est le billet en lui même ;
  • le sens humain est la compréhension et l'application du web sémantique, qu'il va falloir retranscrire en données (appelées méta-données pour données sur les données) qui soient interprétables par les machines.

Le résultat pour un lecteur humain sera exactement le même que l'actuel, sauf si l'on souhaite afficher ces méta-données. En effet, le web sémantique s'intéresse aux machines pour permettre ensuite aux humains d'effectuer des requêtes plus pertinentes.

En fait, ça se rapproche assez de l'Intelligence Artificielle puisqu'on essaye d'enseigner aux machines une manière de « penser » qui se rapproche du mode de penser humain afin d'obtenir des résultats adaptés aux humains.

Comment l'appliquer ?

Tout dépend du contenu. Mais j'ai retenu 5 pistes actuellement :

  • tout d'abord SIOC qui est une ontologie pour décrire les discussions de forums et les billets de sites appartenant à une même communauté. C'est donc grâce à ce format que je vais ajouter de la sémantique à mes billets de blog. Puisque ce format s'adresse aussi aux communautés, il serait possible que je complète ces informations personnelles à des informations issues de toute la communauté. Par exemple, il serait possible de faire une ontologie pour la communauté Ubuntu-fr avec des billets de blogs et des posts du forum.
  • viennent ensuite les relations entre individus et là on a FOAF qui permet de décrire les liens entre personnes mais aussi ce qu'elles ont fait et font (une sorte de micro-CV en fait). Cela peut être un complément à une blogroll par exemple.
  • enfin DOAP décrit les projets communautaires de développement de logiciels. Pas besoin d'exemple ici vous aurez compris je pense :-).

Ces quatre premiers sont des formats se basant sur RDF qui, avouons-le, n'est pas des plus simple à mettre en œuvre. La grammaire XML étant faite pour les machines, ce qui pose des problèmes dans la rédaction de ces différents fichiers, à moins d'avoir à sa disposition des outils adaptés.

  • C'est la grande raison de la popularité des microformats qui sont apparus plus récemment et ne se basent pas sur RDF mais sur l'insertion d'informations au sein même du XHTML de la page. Par exemple, XFN s'occupe de décrire les relations entre individus comme le fait FOAF mais en s servant de simples liens, par exemple en ajoutant rel="friend met" pour indiquer les relations entre le lieur et le lié.

Quelles sont les limitations actuelles ?

La principale limitation est... le désintéressement total actuel de ces données par les moteurs de recherche alors que ça devrait être une sorte de Graal pour eux ! Du coup, c'est un peu le serpent qui se mord la queue car quel développeur web va bosser des heures à se taper les specifications et à implémenter toutes ces relations pour son site si cela n'apporte rien ? Bon ok un geek, mais ça ne donne pas assez de sens au final pour les moteurs de recherche qui ne vont pas développer leur recherche pour une dizaine de milliers de pages...

Autre limitation, c'est compliqué. Alors c'est sûr, nous sommes compliqués donc les relations qui en découlent ne pouvaient pas être simple mais c'est un frein évident au développement du web sémantique. C'est bien simple, ça doit faire une semaine que je me suis lancé à fond là-dedans et je n'ai pas l'impression d'avancer.

Néanmoins, j'ai envie que le web progresse dans ce sens et je prend le temps d'investir dans cette technologie car j'aimerais que mon prochain site soit sémantique.

Comment faire un site sémantique finalement ?

C'est problèmatique. Le premier problème c'est le manque d'exemples concrêts disponibles. Il manque un getreal.w3.org qui listerait des outils et des exemples d'application pour chaque spec (et pas une dizaine de lignes mais un vrai exemple). Alors je sais c'est facile de critiquer mais actuellement c'est le seul moyen de faire percer rapidement une technologie. Il n'y a qu'à voir le buzz fait autour de RoR, à quand un screencast pour rendre son site sémantique ?

Autre hésitation, il y a deux écoles comme vous aurez pu le constater : les microformats et l'utilisation du RDF. Ce qui est bien c'est que vous pouvez combiner les deux sans soucis. Ce qui est moins bien c'est que ça demande le double de travail ! Pour les fainéants, les microformats sont tout trouvés, 2-3 modifications dans votre template et ça roule (presque). Le problème c'est que je ne pense pas que ce soit le lieu pour faire de la sémantique. La sémantique sert à décrire des relations entre données mais indépendament de ces données (à mon avis) car ces relations peuvent évoluer et les microformats ne sont pas une solution pérenne. Que ferez vous si la situation évolue ? Reprendre chaque ligne de html pour modifier les relations que vous avez inséré ? Bon courage.

Quelques idées sont bonnes à prendre mais devraient plus à mon avis être assimilées à des standards, par exemple que chaque billet de blog ait un contenu possédant une class="post" ou que chaque lien vers un billet ait un rel="bookmark", voila de quoi ajouter un plus sans conséquence qui permet une uniformisation de la structure d'un document html permettant par exemple d'afficher plusieurs blogs avec la même feuille de style ou d'identifier les blocs qui ont réellement un sens dans la page.

Donc pour faire un site sémantique, il va falloir :

  • apprendre le RDF ;
  • lire les spécifications de chacun des formats ;
  • implémenter les outils permettant de générer ces fichiers.

Wow, il y a encore un motivé dans l'assistance ? Personnellement je commence à douter. Heureusement qu'il existe quelques outils pour simplifier tout ça mais quand même je suis sceptique quant à la capacité à rendre tout ça grand public. Sans compter qu'il va falloir renseigner ces métadonnées pour chaque nouvelle entrée...

Qu'est ce que j'ai oublié ?

Voici quelques articles que j'ai consulté jusqu'à présent à ce sujet :

J'ai dû passer à côté de beaucoup de choses encore, et vous quelles sont vos ressources ou vos projets pour un web plus sémantique ?

[trackback manuel] : Simon qui a finit par ouvrir un blog, propose quelques ressources supplémentaires pour un web sémantique. Merci !