Les outils manquants de l'OpenData

vignette

Réflexions au sujet des outils de l'OpenData, entamés lors de la préparation de mon intervention à l'événement L'OpenData et nous, et nous, et nous ?, davantage axées sur le point de vue du développeur et sur ce qu'il serait intéressant de faire au niveau technique.

Le GoogHub de la donnée

La décentralisation nécessite d'avoir un index centralisé, que ce soit Google pour le Web de documents ou GitHub pour les DCVS il faut un endroit où l'on puisse chercher parmi les sources, toujours plus nombreuses. Un service est nécessaire pour indexer le Web des données, informer sur le versionnement et la fraîcheur des données, voire peut-être servir de proxy à une partie de ces données.

Idéalement, dans un Web de données liées, un tel index serait moins utile car il suffirait de suivre les liens mais force est de constater que l'on en est aux données ouvertes et pas très liées. Les données libérées sont brutes et les liens entre jeux de données issus d'une même source sont quasi-inexistants, ce qui limite leur valeur.

Des frameworks d'exploitation

Pour que les développeurs se mettent à jouer avec des données, il va falloir les aider à convertir ces données brutes en données réutilisables dans leur langage de prédilection. J'avais commencé à implémenter une telle solution mais je me suis épuisé faute d'avoir des données exploitables. À la fois en qualité (mais ça peut se nettoyer avec du temps) mais surtout en relations entre les données.

Si on prend la métaphore culinaire, il manque à la fois des ingrédients et le saladier qui va permettre de mélanger tout ça pour obtenir un bon gâteau. Aujourd'hui on se focalise trop sur des outils de visualisation de données brutes qui sont tape à l'œil mais qui ne valorisent pas plus que ça les données, tout au plus 2/3 jeux sont croisés, c'est l'équivalent de souffler dans la farine pour faire un joli nuage. C'est beau mais pas très utile et on reste sur notre faim.

Avoir des frameworks permettant de parcourir le graphe des données liées serait autrement plus séduisant pour un développeur et permettrait également d'aller vers l'enrichissement du graphe, au-delà de la simple exploitation.

Une plateforme de monétisation

Il ne faut pas confondre ouvert et gratuit pour les données ouvertes au même titre que l'opposition libre et gratuite qui a fait beaucoup de mal aux logiciels libres. Bien sûr, je suis le premier à faire la promotion de données ouvertes ET gratuites, surtout lorsqu'elles sont publiques mais il n'y a pas que les données publiques qui vont être libérées et il faut avoir des solutions pour les entreprises qui souhaitent vendre leurs données.

D'un point de vue utilisateur, il faudra que la plateforme permette d'avoir un interlocuteur unique et que les données soient présentées de façon suffisamment granulaire pour permettre de choisir à la carte. Le prix sera fonction de la fraîcheur et de la fréquence de mise à jour de la donnée, ces critères vont devenir capitaux. Une donnée périmée est un mensonge :-).

J'ai bien conscience que la combinaison de ces 3 outils est un cauchemar centralisé qui donnerait un contrôle beaucoup trop important à son implémenteur. Malheureusement, c'est ce qui se profile à l'horizon et je vois peu d'alternatives possibles, autant du côté des libristes que de celui de l'État…

— 28/03/2011

Articles peut-être en rapport

Commentaires

Michael Sokol le 28/03/2011 :

Bonjour,

J'aimerai reprendre certains points énoncés. À commencer par le premier. Un index centralisé, oui, mais pour qui ? Est-ce l'homme qui sera l'utilisateur final de ces données, ou est-ce la machine ?

Si c'est l'homme, alors un système de recherche comme Google fonctionne parfaitement et nous permet de trouver des résultats pour la majorité de nos questions.

Si c'est la machine, la donne est différente. Le web des données, Linked Data, est un réseau lié. Un set de donnée ne fait pas partie du Linked Data s'il n'est pas rattaché à d'autres données. Ceci permet donc, en théorie, aux machines d'obtenir des résultats sur l'ensemble des données disponible, au moyen d'un point d'accès SPARQL, par exemple.

La difficulté est plus profonde que cela. Le problème n'est pas d'obtenir des résultats, mais d'obtenir de bons résultats, et là, comment savoir si la donnée de X sera plus valable que celle d’Y ? Se pose également le problème du vocabulaire employé (le choix ontologique).

http://sindice.com/ est une initiative d'indexation, permettant à l'homme et à la machine d'accéder à des données RDF d'une grande partie du web sémantique.

En ce qui concerne les outils pour développeur nous avons largement de quoi faire. Beaucoup de framework, open-source pour la plupart existent, par exemple JENA.

Le web sémantique existe depuis une dizaine d'années. Je suis d'accord que les outils sont souvent complexes, et qu'ils nécessitent un grand niveau d'expertise, mais ils sont présents. Peut-être que nous nous attendons à voir une révolution avec le web des données, alors que c'est simplement une évolution.

Les standards sont là, les outils sont là, il faut maintenant que les publieur d’information décident de sémantiser leur données.

Yann Kempf le 28/03/2011 :

Je ne suis pas tout à fait d'accord avec le premier point énoncé.
Il commence à exister des réseaux P2P avec des index partagés en quelque sorte. Utilisés pour les réseaux sociaux décentralisés.
Et c'est donc plusieurs "micro webs" qui se forment pour les réseaux d'amis.
Mais reste une intelligence collective pour permettre aux gens de parcourir ces micro webs.

Tous les standards ne sont pas là mais c'est en bonne voie ^^

Martin - Webaaz le 28/03/2011 :

Une donnée périmée est un mensonge ? Je ne suis pas d'accord, si la date est clairement énoncée c'est utile, il n'y a pas que l'instant présent qui est important, l'historique aussi !

Je pense que c'est aussi ton propos, mais ce n'est pas très clair je trouve ;-)

Sinon j'approuve ta vision du partage données gratuites / payantes, sujet sur lequel je n'avais pas pas encore d'avis, tu amènes de la matière à ma réflexion !

Pierre Col - Antidot le 28/03/2011 :

Pour ceux qui chercheraient un outil capable de valoriser et exploiter des données non structurées ou semi-structurées pour les publier dans le web des données, notamment dans un triple store RDF, je signale la solution Antidot Information Factory, qui a été dévoilée en avant-première sur le salon Documation.
Doc ici : http://bit.ly/AIF-v1

Ce logiciel, conjugué au moteur de recherche Antidot Finder Suite, a permis de mener à bien le grand projet ISIDORE du CNRS / TGE Adonis qui donne accès au public le plus large à plus d'un million de publications scientifiques en sciences humaine set sociales, issues de plus de 750 sources différentes, via un portail web - http://rechercheisidore.fr - et aussi via un SparQL endpoint....

Explications techniques très concrètes sur ce premier grand projet web sem / open data français ici : http://bit.ly/CasClientISIDORE

Voilà, vous savez tout, ou presque :-)

SwingMobility le 08/04/2011 :

Un peu en accord avec Yann, pour le sujet des index.

On le voit au niveau des réseaux sociaux : un grand index où tout le monde se retrouve, et des index alternatifs, à côté, beaucoup plus décentralisés.