Michael Sokol le 28/03/2011 :

Bonjour,

J'aimerai reprendre certains points énoncés. À commencer par le premier. Un index centralisé, oui, mais pour qui ? Est-ce l'homme qui sera l'utilisateur final de ces données, ou est-ce la machine ?

Si c'est l'homme, alors un système de recherche comme Google fonctionne parfaitement et nous permet de trouver des résultats pour la majorité de nos questions.

Si c'est la machine, la donne est différente. Le web des données, Linked Data, est un réseau lié. Un set de donnée ne fait pas partie du Linked Data s'il n'est pas rattaché à d'autres données. Ceci permet donc, en théorie, aux machines d'obtenir des résultats sur l'ensemble des données disponible, au moyen d'un point d'accès SPARQL, par exemple.

La difficulté est plus profonde que cela. Le problème n'est pas d'obtenir des résultats, mais d'obtenir de bons résultats, et là, comment savoir si la donnée de X sera plus valable que celle d’Y ? Se pose également le problème du vocabulaire employé (le choix ontologique).

http://sindice.com/ est une initiative d'indexation, permettant à l'homme et à la machine d'accéder à des données RDF d'une grande partie du web sémantique.

En ce qui concerne les outils pour développeur nous avons largement de quoi faire. Beaucoup de framework, open-source pour la plupart existent, par exemple JENA.

Le web sémantique existe depuis une dizaine d'années. Je suis d'accord que les outils sont souvent complexes, et qu'ils nécessitent un grand niveau d'expertise, mais ils sont présents. Peut-être que nous nous attendons à voir une révolution avec le web des données, alors que c'est simplement une évolution.

Les standards sont là, les outils sont là, il faut maintenant que les publieur d’information décident de sémantiser leur données.

Yann Kempf le 28/03/2011 :

Je ne suis pas tout à fait d'accord avec le premier point énoncé.
Il commence à exister des réseaux P2P avec des index partagés en quelque sorte. Utilisés pour les réseaux sociaux décentralisés.
Et c'est donc plusieurs "micro webs" qui se forment pour les réseaux d'amis.
Mais reste une intelligence collective pour permettre aux gens de parcourir ces micro webs.

Tous les standards ne sont pas là mais c'est en bonne voie ^^

Martin - Webaaz le 28/03/2011 :

Une donnée périmée est un mensonge ? Je ne suis pas d'accord, si la date est clairement énoncée c'est utile, il n'y a pas que l'instant présent qui est important, l'historique aussi !

Je pense que c'est aussi ton propos, mais ce n'est pas très clair je trouve ;-)

Sinon j'approuve ta vision du partage données gratuites / payantes, sujet sur lequel je n'avais pas pas encore d'avis, tu amènes de la matière à ma réflexion !

Pierre Col - Antidot le 28/03/2011 :

Pour ceux qui chercheraient un outil capable de valoriser et exploiter des données non structurées ou semi-structurées pour les publier dans le web des données, notamment dans un triple store RDF, je signale la solution Antidot Information Factory, qui a été dévoilée en avant-première sur le salon Documation.
Doc ici : http://bit.ly/AIF-v1

Ce logiciel, conjugué au moteur de recherche Antidot Finder Suite, a permis de mener à bien le grand projet ISIDORE du CNRS / TGE Adonis qui donne accès au public le plus large à plus d'un million de publications scientifiques en sciences humaine set sociales, issues de plus de 750 sources différentes, via un portail web - http://rechercheisidore.fr - et aussi via un SparQL endpoint....

Explications techniques très concrètes sur ce premier grand projet web sem / open data français ici : http://bit.ly/CasClientISIDORE

Voilà, vous savez tout, ou presque :-)

SwingMobility le 08/04/2011 :

Un peu en accord avec Yann, pour le sujet des index.

On le voit au niveau des réseaux sociaux : un grand index où tout le monde se retrouve, et des index alternatifs, à côté, beaucoup plus décentralisés.