A place to cache linked articles (think custom and personal wayback machine)
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

index.md 23KB

title: Réflexions et questions autour du Web sémantique url: http://www.lespetitescases.net/reflexions-et-questions-autour-du-web-semantique hash_url: 894f6c79c0

Ce billet fait partie d'une série de quatre billets qui visent à proposer un bilan de plus de 12 ans de travail avec les technologies du Web sémantique, « Les technos du Web sémantique ont-elles tenu leurs promesses ? » :

Au delà des quelques initiatives décrites dans le précédent billet et qui ont réussi à émerger, la réflexion sur les technologies du Web sémantique et le Web de données a indéniablement joué un rôle dans la gestion des données des organisations en particulier patrimoniales.

Que nous a apporté la réflexion autour du Web sémantique ?

Accompagner la réflexion sur la modélisation des données patrimoniales : l’abandon de la notion de “notice”

La notice dite documentaire est l’adaptation au milieu informatique de la fiche cartonnée. Ce mimétisme de pratiques antérieures est caractéristique des phases d’appropriation d’un nouveau média : la notice informatique a reproduit toutes les caractéristiques de la fiche cartonnée tout en exploitant les avantages de l’outil informatique (recherche, ubiquité, échange …). La notice est un méta-document dont l'objectif est la description d’un document. Or, c’est précisément cette forme qui pose problème. D’un objet porteur d’information, elle est devenue peu à peu elle-même objet de modélisation, au point d’en oublier parfois l’objectif initial : l’objet/document qu’elle est censée décrire. De plus, la notice place en son centre l’objet/document alors qu’aujourd’hui, on se rend compte que la description doit s’intéresser plus globalement à tous les aspects qui entourent cet objet/document. Enfin, avec la démultiplication des données suite à la numérisation, l’augmentation de données nativement numériques et maintenant la prise en compte des données d’usages, la notice et son cadre rigide (et par extension le catalogue qui en est le réceptacle) ne suffisent plus pour répondre aux différents besoins.

Si les formats MARC datent de la fin des années 1960, il faut attendre les années 1990 pour que le milieu des bibliothèques se lance dans un travail de modélisation conceptuelle. Les FRBR, dont le nom renvoie à la notion de « notice bibliographique », se caractérisent justement par le fait qu’elles ne modélisent pas la notice mais les informations qu’elle contient sous une forme logique. De fait, ce sont les objets décrits qui sont modélisés. De plus, elles marquent la fin d’une vision unique du document en tentant d’en séparer les différentes appréhensions : de l’entité intellectuelle pensée par un (ou plusieurs) auteur (l’œuvre) à l’objet lui-même au sein d’une collection (l’item). Si les FRBR s’intéressaient essentiellement au document lui-même, le travail s’est prolongé pour ensuite se concentrer sur les données d’autorité avec le modèle FRAD. Ce travail de réflexion a abouti en 2017 à la publication du modèle LRM (Library Relationship Model) issu de la fusion des différents travaux FRBR, FRAD et FRSAD et imprégné par la réflexion sur les technologies du Web sémantique de ces dix dernières années.


Vue d’ensemble des relations dans LRM, IFLA Library Reference Model

Dans le milieu des musées, le même travail a été mené autour du modèle CIDOC-CRM qui se fonde sur un modèle dit objet et est centré sur la notion d’événements. Les deux initiatives se sont rejointes pour donner naissance à FRBRoo qui cherche à créer les conditions d’une interopérabilité entre des domaines patrimoniaux habituellement étanches.

Les technologies du Web sémantique, apparues peu après le début de cet effort de modélisation de la part des professionnels, ont aidé ces derniers à mieux appréhender les problématiques de modélisation en offrant une référence pour le cadre de description et en élargissant leurs horizons pour penser l’interopérabilité entre les différents mondes.
De plus, le modèle de graphe au cœur des technologies du Web sémantique présente la particularité de placer toutes les entités qui le composent au même niveau et d’être potentiellement infini. Convertir les données bibliographiques suivant les technologies du Web sémantique a donc pour conséquence de faire disparaître le primat du document et de mettre au même niveau données bibliographiques et données d’autorités. Le site data.bnf.fr en est une parfaite illustration, dans la mesure où les points d’entrée vers les documents sont des données d’autorités.


Gautier Poupeau, CC-BY

L’idée de dépasser le paradigme de la notice et le glissement vers la notion de « donnée » se sont donc finalement peu à peu imposés. La réflexion autour du Web de données et l’usage des technologies du Web sémantique a joué un rôle essentiel dans cet élan en renforçant et en incarnant le travail de réflexion autour de la modélisation des données patrimoniales qui avait commencé depuis plusieurs années.

La place centrale des référentiels pour assurer l’interopérabilité

La force et l’intérêt principal (unique ?) des technologies du Web sémantique est bien évidemment d’assurer l’interopérabilité des données structurées en offrant un modèle unique (le triplet) pour l’échange et la mise en relation des données. De ce point de vue, la promesse est parfaitement tenue. Si on conçoit l’interopérabilité au niveau des données, les technologies du Web sémantique sont, à l’heure actuelle, les meilleures et ont marqué de leur empreinte notre réflexion à ce sujet.

Même si cela n’a pas suffi à ces technologies pour s’imposer, elles ont accéléré la réflexion sur l’interopérabilité en ouvrant des possibilités techniques alors inexplorées. Elles nous ont permis de mieux comprendre les conditions nécessaires à la mise en relation de données hétérogènes et d’envisager des ponts entre des mondes qui paraissaient éloignés voire impossibles à réconcilier (cf aussi la présentation). Les technologies du Web sémantique ont permis d’envisager de nouvelles manières de concevoir l’interopérabilité :


Les styles d’interopérabilité, Emmanuelle Bermès, CC-BY

Alors que certains annonçaient la mort des référentiels, vaincus par la multitude, le tag et la folksonomie, les référentiels sont au coeur du dispositif de mise en relation des données, car ils font le pont entre des bases aux données hétérogènes. Ainsi, d’un outil au service de la description du document, ils tendent peu à peu à devenir le point central autour duquel s’organise le système d’information documentaire et la navigation dans les contenus. Or, ce rôle central du référentiel va se poursuivre au-delà de cette réflexion sur l’interopérabilité. En effet, ils sont la pierre angulaire des nouveaux bouleversements autour du machine learning et du deep learning. Aucun système de classification automatique, d’identification automatique de personnes, d’annotation automatique ou d’extraction d’entités nommées ne fonctionnera sans un référentiel parfaitement maintenu.


Mise en action des différents ensembles de données, Gautier Poupeau, CC-BY

Dans cette perspective, le travail d’alignement, c’est-à-dire de mise en relation, des référentiels entre eux dans l’objectif de créer du lien (et donc de l’interopérabilité) entre les bases et au-delà entre les institutions, initié dans le cadre de la réflexion autour du Web de données, va se poursuivre pour faciliter le maintien du référentiel et son enrichissement.

Séparer les données des usages

Dans une interview de 2007, Robert Shimp, Vice président d’Oracle, présentait l’intérêt des technologies du Web sémantique en ces termes :

« La tendance est de découpler la donnée de l’application ou du service, l’idée est que vous puissiez écrire votre application ou votre service indépendamment de la source de donnée avec laquelle il interagit. Une couche d’abstraction entre les services et la donnée est ainsi créée et l’application peut ainsi trouver la source de données la plus adaptée. C’est ce qu’apportent les technologies sémantiques à la gestion de l’information d’entreprise. »

J’avais exprimé de manière plus modeste une vision analogue avec le concept de logique informationelle. C’est, pour mon expérience personnelle, l’apport le plus intéressant des technologies du Web sémantique. Elles sont la preuve technique qu’il est possible de renverser la logique de construction du système d’information en le pensant par la donnée et sa logique plutôt que par le processus. En effet, le Web sémantique nous oblige par son fonctionnement intrinsèque à repenser nos modèles, à prendre du recul par rapport à la modélisation de bases de données relationnelles, pensée bien souvent par rapport à l’usage dans un entre deux entre le modèle physique et le modèle logique, et à essayer d’en revenir à la logique même de la donnée, à sa sémantique pour reprendre le vocabulaire des logiciens. Ce faisant, on peut envisager de séparer les données des usages. Or, à l’heure où nous cherchons à faire fructifier la donnée, comme actif de l’entreprise, il est essentiel pour réussir justement à faire émerger de nouveaux usages de décloisonner nos silos de données et de libérer la donnée de l’usage pour lequel elle a initialement été créée.

Disposer d’une vue logique de la donnée, c’est reprendre la main sur cette donnée et ainsi la maîtriser. Cela ouvre la voie à une mise en cohérence transverse de toutes les données d’une organisation et donc à sa gouvernance, point là aussi essentiel au moment de la faire fructifier.

Or, si le retour à la modélisation logique des données (je n’ose dire « ontologie ») est un préalable nécessaire voire indispensable pour utiliser les technologies du Web sémantique, elles n’en ont pas l’apanage et il est tout à fait possible d’envisager de penser une modélisation logique sans l’implémenter avec les technologies du Web sémantique. On peut même l’envisager avec des technologies relationnelles qui sans être parfaites loin de là, présentent au moins l’avantage d’être très connues et robustes.

Ainsi, si je ne devais retenir qu’un apport, ce serait certainement celui-là : le Web sémantique aura eu le mérite de nous obliger à nous interroger sur nos données structurées : leur structure logique, leur vocabulaire, leur cohérence et leurs liens. C’est une compétence rare dans le monde informatique actuel et pourtant, tellement essentielle lorsqu’il s’agit de valoriser le patrimoine informationnel d’une organisation.

En guise de conclusion : l’interopérabilité et la décentralisation en question

A l’issue de ce bilan, force est de constater que les grands perdants sont la décentralisation et, dans une moindre mesure, l’interopérabilité des données.

Interopérabilité des données ou interopérabilité des systèmes ?

Le Web sémantique positionne la question de l’interopérabilité au niveau des données. Pour ce faire, il propose une grammaire commune, le RDF, et des mécanismes de définition de vocabulaires permettant de structurer les données (OWL/RDFS). Mais l’investissement nécessaire pour assurer l’interopérabilité des données à ce niveau en vaut-il la peine ? Et finalement, les organisations ont-elles besoin de ce niveau d’interopérabilité ?

La question mérite d’être posée, même dans un milieu restreint dans lequel les standards sont déjà au coeur du travail et se justifient par l’homogénéité des données échangées : les bibliothèques, certains domaines de recherche comme les sciences du vivant... L’investissement est en effet considérable pour réussir à trouver des accords entre les différents acteurs. Il l’est encore davantage lorsqu’il s’agit d’échanger de la donnée avec d’autres organisations qui n’ont pas les mêmes objectifs, les mêmes perspectives et encore moins les mêmes formes juridiques. Pour prendre l’exemple de l’Institut national de l’audiovisuel que je connais bien, les données sont récupérées ou achetées auprès d’acteurs des médias audiovisuels (TF1, France Télévisions), des spécialistes de la revente de données des médias (Plurimedia, fournisseur de Télérama, Télé7jours et autres), des spécialistes de veille (Kantar Media) ou d’analyse de l’audience (Médiamétrie). Même si ces différents acteurs utilisaient tous du RDF pour échanger les données, il leur serait impossible de se restreindre à employer tous le même vocabulaire. Certes, cela simplifierait l’exploitation des données, mais cela n’éviterait pas d’avoir recours à un ou plusieurs mappings.

Il faut se rendre à l’évidence : face à la multiplication des données, à l’hétérogénéité de leurs modes d’acquisition et à la diversité de leur exploitation, il faut renoncer à l’idée d’une interopérabilité syntaxique ou structurelle par l’utilisation d’un modèle unique, qu’il s’agisse de la production, de stockage ou de l’exploitation au sein même d’un SI

Cela ne veut pas pour autant dire qu’il est impossible d’assurer une certaine forme de mise en relation des différentes informations, entre autres par l’utilisation d’identifiants communs indépendants des systèmes les exploitant à l’ensemble du système d’information. Cela ne signifie pas non plus que l’interopérabilité entre les organisations est une utopie, mais il s’agit plutôt d’interopérabilité des systèmes, point à point et par le traitement des données, que d’une interopérabilité globale au niveau du stockage des données. Et, dans ces conditions, pourquoi les DSI s’embêteraient-elles à utiliser les technologies du Web sémantique qu’elles ne maîtrisent pas, alors que d’autres possibilités existent ?

De plus, il est tout à fait possible d’envisager une cohérence globale des différentes données d’une organisation sans utiliser les technologies du Web sémantique. Elles ont l’avantage d’incarner techniquement cet objectif, mais il est aussi possible de l’atteindre par le déploiement d’une gouvernance de données transverses et en pensant les modèles de données par la logique de la donnée elle-même et non par l’usage. Bref, il s’agit de maîtriser la donnée et la réponse à cette question n’est pas (nécessairement) technique...

La décentralisation est-elle possible ?

Le Web est du strict point de vue technique un système décentralisé : chaque serveur Web expose des pages Web qui sont potentiellement reliées par le principe de l’hypertexte à d’autres pages stockées sur un autre serveur Web. Il n’existe aucun point central nécessaire à son bon fonctionnement et c’est ce qui assure sa robustesse et sa montée en charge infinie.

Pourtant, que serait l’usage du Web sans l’existence de Google ? Or, ce dernier est bien un système qui permet de rechercher par la centralisation des contenus au sein de son index. Même si Google n’est pas intrinsèquement nécessaire au fonctionnement technique du Web, il a indéniablement rendu possible son succès et sa démocratisation.

Au milieu des années 2000, le réseau des blogs a débouché sur la constitution d’espaces de discussions décentralisés qui se répondaient par des liens, des trackbacks, des commentaires. Chaque blog constituait un réseau plus ou moins commun avec d’autres blogs. Si certains blogs résistent encore, peu à peu par l’effet réseau, la démocratisation des discussions en ligne, l’augmentation des utilisateurs et des interactions et la simplicité des fonctionnalités, les discussions et les interactions se sont déplacées au sein de grosses plateformes centralisatrices : Facebook, Twitter, Tumblr… D’abord, lieu de partage du lien hypertexte au sein d’une communauté élargie (à la recherche d’une plus grande audience ?), elles ont peu à peu cannibalisé le contenu lui-même jusqu’à faire disparaître la plupart des blogs. Là aussi, la centralisation s’est avérée nécessaire par simplicité d’usage jusqu’à prendre le pas sur la décentralisation.

Comme on l’a vu avec Wikidata, il en va de même avec le Web de données. D’un hub d’identifiants/un référentiel, Wikidata tend peu à peu par simplicité technique là aussi à devenir la base où sont stockées toutes les données. Pourquoi s’embêter à maintenir une exposition des données en Linked Data sur sa propre infrastructure si toutes les données sont par ailleurs disponibles dans Wikidata ? Nous avons là encore un bel exemple d’une dérive centralisatrice à partir d’une idée initiale décentralisatrice…Et son ouverture (licence CC0) ne doit pas faire oublier qui en est (était ?) le principal mécène : Google. Si Freebase a été la pierre angulaire de la mise au point du Knowledge graph de Google, Wikidata en assure la maintenance régulière.

Et, on retrouve ce même jeu de balancier avec les mashups de données ou le Linked Enterprise Data. Même si chaque application peut de manière décentralisée exposer ses données selon les principes du Linked Data, il faudra à un moment ou un autre les centraliser en une seule base, un nouveau silo, pour les exploiter et les interroger de manière homogène. Il n’y a aucune autre possibilité technique en l’état actuel des choses.

La décentralisation réelle des données est-elle possible ? La question mérite donc d’être posée. Tim Berners-Lee a annoncé récemment la création d’une start-up, Inrupt, pour soutenir le développement et le déploiement de sa réponse à la volonté centralisatrice des grandes plateformes du Web : le framework Solid qui permet de construire des applications décentralisées respectueuses des données de ses utilisateurs. Je leur souhaite de réussir, mais j’ai de très gros doutes, car toute la philosophie de Solid réside dans un framework technique basé sur les principes du Linked Data et de Linked Data Plaform et non dans une proposition de valeurs en termes d’usage précis et concret. Au delà de la complexité des technologies proposées, aux antipodes de la simplicité de HTML qui explique pour une très grande part du succès du Web, c’est la question même de la décentralisation qui se pose.

J’en arrive à me demander si la décentralisation peut se concevoir sans un système centralisateur de plus haut niveau pour l’encadrer d’une manière ou d’une autre. Il en ira de même avec les applications utilisant Solid. Comment rechercher parmi tous les contenus d’un utilisateur qui pourront être éparpillés entre les différents serveurs (“pods”) si ce n’est en centralisant ? Une décentralisation complète est illusoire. Le traitement technique de données demande à un moment ou un autre de recentraliser les données pour en permettre l’exploitation quel que soit l’algorithme.