Repository with sources and generator of https://larlet.fr/david/ https://larlet.fr/david/
Vous ne pouvez pas sélectionner plus de 25 sujets Les noms de sujets doivent commencer par une lettre ou un nombre, peuvent contenir des tirets ('-') et peuvent comporter jusqu'à 35 caractères.

article.md 23KB

title: ★ Open Articles : Libérez votre savoir ! slug: open-articles-liberez-votre-savoir date: 2006-01-19 13:44:46 type: post vignette: images/logos/openarticles.png contextual_title1: ★ Choisissez votre avenir contextual_url1: 20081209-choisissez-votre-avenir contextual_title2: ★ RDF, l'ADN de notre identité numérique ? contextual_url2: 20080811-rdf-adn-de-notre-identite-numerique contextual_title3: Ontologies et biologie : l'espoir du web sémantique ? contextual_url3: 20070419-ontologies-et-biologie-l-espoir-du-web-semantique

Voila le projet de recherche que j'ai présenté mardi, il devait être innovant et ne pas faire plus de 10 pages. Vous pouvez aussi le télécharger au format pdf et/ou consulter la présentation au format odp. Ce rapport est loin d'être complet - 10 pages c'est assez frustrant pour un tel sujet - mais je le publie pour ne pas que ce travail soit réalisé en double. Pour information, la problématique des publications scientifiques payantes a été soulevée lors de mon premier cours de bio-informatique et constitue mon dernier travail « scolaire », on peut dire que la boucle est bouclée :-). J'encourage les personnes qui vont devoir s'occuper de ça un jour ou l'autre à me contacter, si j'ai choisi un tel sujet c'est avant tout pour les valeurs qu'il véhicule : le libre accès à la Science.

Sujet : mise en place d'un service libre et gratuit de dépôt et d'accès aux articles scientifiques

État des lieux

La publication est une composante indispensable du processus de recherche. Elle permet à la fois de partager ses connaissances et d'obtenir la reconnaissance de ses pairs.

Mécanisme de publication traditionnel

Actuellement, le mécanisme de publication se déroule selon trois étapes :

  • L'auteur de l'article envoie celui-ci à un éditeur de revues qu'il détermine en fonction de son audience et de son prestige. L'auteur doit parfois payer en fonction du nombre de page et de figures en couleur.
  • L'éditeur envoie cet article à 2 relecteurs ou davantage (variable selon les revues) qui estiment la qualité de l'article et peuvent demander des précisions supplémentaires. Les relecteurs ne sont pas payés.
  • En fonction de l'appréciation des relecteurs, l'article est approuvé par l'éditeur qui l'imprime et le vend.

Ressources

Plusieurs solutions s'offrent au chercheur de manière à se tenir informé des récentes découvertes scientifiques :

  • L'abonnement aux revues papier.
  • L'abonnement aux revues en ligne.
  • La recherche en ligne des articles qu'il juge intéressant et leur paiement à l'unité.
  • La lecture de journaux gratuits (le plus souvent numériques).

Problèmes posés

Le système actuel soulève plusieurs problèmes :

  • Le libre accès à la science se trouve compromis. De plus, au delà de cet aspect idéologique, une importante proportion de découvertes scientifiques décrites au sein des articles scientifiques sont issues de la recherche académique qui est financée par les impôts des citoyens, il serait donc logique que cette connaissance leur soit accessible.
  • Ce système est aussi à l'origine d'un coût non négligeable. On parle aujourd'hui du « triple coût » de la recherche pour l'État :
    • Financement du projet de recherche.
    • Paiement des salariés qui relisent les publications sans rémunération.
    • Financement des bibliothèques pour l'abonnement aux différentes revues.
  • Enfin, ce système engendre une perte de temps considérable, que ce soit au niveau des délais découverte → publication ou au niveau des multiples authentifications pour accéder à des articles n'appartenant pas aux mêmes revues. De plus, les articles n'étant pas disponibles dans leur intégrité il est difficile d'implémenter des recherches d'articles s'avérant pertinentes.

Initiatives actuelles

De façon à faire évoluer cette situation certaines initiatives ont récemment vu le jour :

  • En France, le CNRS, l'Inserm, l'INRA et l'INRIA ont mis en ligne des archives institutionnelles depuis le 22 mars dernier conformément à leur engagement lors des conférences de Berlin en octobre 2003 et de Southampton en mars 2005.
  • En Angleterre, le rapport du Parlement du 20 juillet 2004 a recommandé que tous les établissements d'enseignement supérieurs du Royaume-Uni mettent en place des archives institutionnelles pour conserver les résultats publiés et les rendre consultables en ligne gratuitement.
  • Aux États-Unis, le NIH a présenté sa politique en faveur du libre accès à l'information scientifique le 3 février dernier, ce qui est déjà mis en application par certaines universités.
  • En amérique du Sud, le projet SciELO (Scientific Electronic Library Online) est développé depuis 1997 dans le but d'améliorer la visibilité et l'accès aux résultats de la recherche scientifique sud-américaine.

D'autre part, depuis 1999 existent des outils développés par l'Open Archive Initiative basés sur des formats ouverts garants de la pérennité des archives qui ont permis par exemple la création de sites comme arXiv constituant des archives ouvertes de pré-publications et de post-publications d'articles.

Projet de recherche

Historiquement, les éditeurs étaient nécessaires pour faire le lien entre ceux qui produisent des informations et ceux qui en cherchent. Avec l'avènement de l'Internet et de la numérisation de ces informations, la chaîne de distribution peut être de longueur nulle. Les éditeurs qui se sont maintenus grâce à un certain prestige voient leur fonction sociale se réduire d'année en année. Les éditeurs vendaient des revues, ces supports physiques disparaissant, le monopôle de ces éditeurs est en train de s'effondrer. C'est une évolution logique et les éditeurs n'ayant pas évolué en ce sens sont contraints à une disparition prochaine.

On peut aisément effectuer le parallèle de la situation actuelle vis à vis des publications et des éditeurs avec celle de la musique et des majors du disque. On assiste à une véritable révolution numérique dans ce domaine avec la création de nombreux sites[1] qui diffusent gratuitement de la musique libre.

Ce projet de recherche va consister à mettre en place un service libre et gratuit de dépôt et d'accès aux articles scientifiques.

Dans ce but, il va être nécessaire, dans un premier temps, de réaliser un site internet permettant :

  • La consultation des articles scientifiques et la possibilité d'effectuer des recherches sur leur intégralité (contrairement à Pudmed qui n'utilise que l'abstract des articles).
  • La notation des articles au moyen d'une fonction de score adaptée de façon à maintenir la qualité actuelle des articles publiés.
  • La création de profils utilisateurs permettant de définir les relecteurs potentiels et de commenter/noter les articles lus.

Il est ensuite envisagé d'ajouter divers services spécifiques permettant le travail collaboratif ou la constitution de ressources communes (agendas par discipline,...) par exemple.

Mise en œuvre

Point de vue humain

Le public visé est clairement scientifique (chercheurs et étudiants principalement). À ce titre, il est nécessaire que celui-ci soit non commercial et qu'il soit dans la mesure du possible indépendant de son pays d'hébergement. L'établissement d'une charte propre au site et à ses engagements permettrait de clarifier cette situation. Ce projet doit recevoir l'approbation de l'ensemble de la communauté scientifique et des organismes de recherches associés.

Dans un premier temps, un énorme investissement des ressources va être consacré à la publicité du service. En effet, celui-ci ne pouvant être connu par la voie habituelle - à savoir la publication dans une revue - il va falloir utiliser tous les moyens possibles (directives gouvernamentales, listes de diffusion, sites « partenaires » ,...) pour faire connaître le service.

Enfin, il est inutile de faire de la publicité si le service proposé n'est pas adapté et stable et donc à l'origine de l'adhésion des visiteurs. Il est nécessaire dans ce but d'opter dès le départ pour une solution pérenne et simple.

Point de vue technique

Architecture globale

Ce service est basé sur la participation active des visiteurs, que ce soit au niveau du dépôt des articles qui devra être fait volontairement par les auteurs ou au niveau de la notation des articles.

Étant illusoire de vouloir stocker l'ensemble des articles sur un serveur ou dans une base de données (on estime qu'1,2 millions d'articles sont publiés chaque année), la solution est le stockage des publications localement à l'échelle universitaire sur différents serveurs. Celui-ci sera réalisé au format XML conformément aux directives plébiscitées par le mouvement Open Archive Initiative permettant un export après traitement au format HTML ou PDF. C'est la méthode actuellement retenue par eprints.

Grâce à ce système, les services proposés vont directement récupérer le contenu des articles sur le serveur distant et seuls les liens vers ces ressources sont stockés sur le site. Les problèmes soulevés concernant la rapidité de la recherche basée sur une telle architecture sont évoqués ci-après.

Architecture informatique du projet

Ils doivent permettre de connaître, en plus des informations usuelles :

  • Le domaine de recherche précis de façon à estimer la capacité du chercheur à être un relecteur ou non pour un article donné.
  • Le laboratoire de recherche pour permettre de localiser l'utilisateur et lui proposer des services associés (conférences proches,...) mais aussi pour éviter que toutes les personnes d'un même laboratoire ne votent pour un article issu de ce même laboratoire.

Attribution d'un score aux articles

C'est la fonction clé du service principal. En effet, les revues sont aujourd'hui associées à un « impact factor » qui est en théorie proportionnel à la qualité des articles publiés (et en pratique malheureusement surtout à son prix). Or cet « impact factor » est très important pour les scientifiques car il est un facteur de recrutement et de reconnaissance. Il est donc nécessaire d'apporter un équivalent à ce chiffre référence.

Compte-tenu des informations disponibles, il sera possible d'inclure dans cette fonction de score :

  • La moyenne des notes des relecteurs et des lecteurs.
  • Le nombre de citations par d'autres articles.
  • Le nombre de téléchargements de l'article.
  • La date de publication de l'article.

Cette fonction reste à définir et nécessitera de nombreux tests utilisateurs. Il serait intéressant de tester aussi les différences de notation lors d'un anonymat des articles de façon à garantir une pertinence optimale de la méthode.

Fonction de recherche

L'utilisation de serveurs distants rend le temps de recherche proportionnel au nombre de serveurs et à l'état du réseau. Il est donc inconcevable, pour un tel projet, de parcourir l'ensemble des articles à chaque requête.

Une solution envisageable pourrait être la sous-traitance par un moteur de recherche comme Google participant déjà à Google Scholar ou Quaero[2] qui adapterait ses critères de recherche à la spécificité de la publication scientifique.

Des solutions de recherche plus pointues sont évoquées dans la partie Perspectives au sujet des Web Services et de l'auto-financement.

Point de vue financier

Il est très difficile d'estimer les besoins nécessaires à la mise en ligne d'un tel services, tout dépend de sa popularité. Le nombre de serveurs devra être déterminé a posteriori, lorsqu'une première estimation de la charge pourra être réalisée. L'hébergement du service pourra être sous-traité et le budget devra alors être recalculé en conséquence.

Le développement de l'application de base est planifié sur 24 mois. Il nécessite 4 développeurs, 1 développeur web/ergonome et 2 administrateurs réseau pour gérer les serveurs. Parallèlement, 1 personne devra être chargée de la communication autour du service. Cette personne devant compter de nombreux contacts, cette tâche peut être assignée au directeur de projet.

Le service une fois lancé devra être maintenu et mis à jour régulièrement pour proposer les diverses fonctionnalités évoquées ensuite. Ce travail pourra être effectué par la même équipe. Le budget annuel pour chaque salarié est d'environ 50000 euros[3] auxquels il faut ajouter le prix des serveurs et des machines de développement soit environ 25000 euros[4] si l'on se base sur 8 machines et 4 serveurs pour commencer. Cela représente donc 425000 euros par an[5], soit 2125000 euros si l'on se base sur un projet de recherche européen de 5 ans.

Perspectives

Auto-financement

L'un des premiers objectifs à atteindre, outre le fait de fournir un service de qualité, est d'essayer de l'auto-financer. Plusieurs options peuvent à ce titre être envisagées :

  • Faire une campagne de dons.
  • Proposer des Web Services spécifiques payants.
  • Demander une participation internationnale.
  • Demander une participation de nature matérielle aux grands groupes susceptibles de concéder des serveurs (IBM, HP,...).
  • Établir un système de partenariat avec d'autres sites.

Les besoins financiers n'étant pas astronomiques, il est probable que de telles mesures permettent un auto-financement du service. Ce site ayant pour but d'être non commercial, il faudra décider de la politique à adopter si le rapport dons/dépenses devient excédentaire.

Ouverture du code

Après lancement, il pourrait être intéressant de placer le code de l'application développée sous licence libre et de proposer aux personnes motivées de participer bénévolement à son évolution. Dans ce but, il sera nécessaire de placer le code source sur un Système de contrôle de Versions Concurrentes (CVS) comme Subversion et son interface courante Trac ainsi qu'un système de triage de bugs comme Bugzilla. Enfin pour favoriser la communication au sein de l'équipe de développement et vis-à-vis de son interaction avec des développeurs « extérieurs », une liste de diffusion sera mise en place. Cette méthode fiable est celle adoptée actuellement pour le développement de Logiciels Libres à l'échelle mondiale.

Extension des services liés aux comptes

L'ajout de fonctionnalités peut sembler futile, voire nuire à la clarté du service si cet ajout n'est pas réalisé de manière non intrusive. Pourtant, certains des services ci-dessous sont très utiles dans un travail de recherche collaboratif entre plusieurs équipes par exemple, que ce soit au niveau du partage des connaissances selon un certain degré de confidentialité ou lors de la rédaction d'articles.

Plusieurs services actuellement en ligne ont déjà atteint un niveau de popularité satisfaisant et seraient intéressants dans le cadre de ce projet de recherche :

  • Writely permet de rédiger des documents collaboratifs en ligne tout en ayant les fonctionnalités d'un traitement de texte usuel.
  • Voo2do permet de tenir deslistes de choses à faire (todo-list) personnelles et collaboratives permettant par exemple dans le cadre de la recherche d'attribuer les différentes tâches à son équipe.
  • CalendarHub permet de tenir un calendrier personnel ou collaboratif, les différents niveaux d'accès permettront de créer un agenda des événements scientifiques par région ou par discipline par exemple.
  • Doodle permet de fixer des dates de rendez-vous lorsqu'il faut rassembler plusieurs personnes dans le cadre d'une réunion ou d'une conférence par exemple.
  • Enfin l'objectif étant de rassembler l'ensemble de ces services sur une même plateforme, il serait intéressant de les rendre intéractifs, à la manière de Basecamp qui permet une gestion de projet collaborative avec l'implémentation d'agendas, de listes de choses à faire, d'assignation des tâches,...

Il n'est pas exclu que cette plateforme héberge des débats thématiques ou des visio-conférences dans un second temps.

Internationalisation

L'un des objectifs à long terme est l'internationalisation de l'interface du site et parallèlement la capacité d'intégrer des articles scientifiques dans des langues différentes de l'anglais. Il faut donc développer ce service en conséquence pour permettre aux visiteurs de traduire l'interface du site dans leur langue maternelle de façon aisée, Rosetta pourrait être utilisée en ce sens.

Conclusion

Comme l'énonçait J. H. Poincaré il y a plus d'un siècle :

La liberté est pour la Science ce que l'air est pour l'animal[6].

J'ai choisi ce sujet car je pense que la Science doit consacrer ses fonds à l'accroissement du savoir collectif. Or, le mécanisme actuel de publication ne permet pas d'avoir accès à ce savoir de façon libre et constitue, pour les chercheurs, une importante perte d'argent et de temps, ce dont ils manquent cruellement.

L'implémentation du service décrit permettrait de bénéficier, en plus d'une interface commune de dépôt et d'accès aux articles, d'une véritable plateforme scientifique de travail améliorant les conditions de collaboration entre les différentes équipes scientifiques.

Néanmoins, ce projet, par son ampleur, sera difficile à mettre en œuvre. Il ne nécessite pas seulement la motivation d'une équipe mais les choix politiques de nombreux pays. De plus, il est basé sur la participation active des chercheurs, aussi bien au niveau du dépôt des articles que de la notation et de la relecture. C'est un risque mais au vu de la popularité grandissante des wikis sur internet[7], la participativité de l'internaute fera bientôt partie intégrante de sa navigation sur la toile ce qui me permet d'être optimiste à ce sujet.

Un autre problème qui n'a pas été abordé dans ce rapport est l'enjeu économique que représente l'industrie de la publication scientifique. Il a été estimé à 18.4 milliards de livres sterling par an (soit 27 milliards d'euros) et à l'origine de 164000 emplois pour le Royaume Uni uniquement. On comprend mieux devant de tels chiffres les pressions qui doivent peser sur le gouvernement dans le choix d'une publication scientifique libre...

Hormis ces contraintes d'ordre politique, ce projet est techniquement tout à fait réalisable et constituerait une réelle avancée vers l'accès des résultats de recherche pour tous.

Erratum

Si vous lisez attentivement le rapport au format pdf, vous constaterez que le budget est beaucoup plus réduit, il s'agit d'une erreur de calcul qui est corrigée sur cette page et dans la présentation.

Remarques des enseignants

  • Que faire pendant la période de transition « Impact Factor » → score par article ? Réfléchir à la pertinence de l’utilisation de ce chiffre pour attribuer les crédits de recherche :-).
  • Pourquoi ne pas créer Publi@home ? Je ne connais pas assez bien le système des @home mais ça me semble impossible ne serait-ce que pour la fonction de recherche.
  • Pourquoi cela n’a pas encore été fait ?! Ce sont bien les choix politiques…

[edit du 12 mars] :ce journal de linuxfr me renvoie sur Publication scientifique:le rôle des États dans l’ère des TIC qui est vraiment lié à ce billet (au passage, ça bouge au CNRS aussi).

Notes

[1] iRate ou Jamendo par exemple.

[2] Futur moteur de recherche européen, plus d’informations sur Wikipédia

[3] Sur la base de 5000 euros par mois et par personnes, toutes charges comprises.

[4] Soit environ 2000 euros par machine.

[5] On considère ici le renouvellement des machines tous les deux ans, le budget leur étant attribué les autres années servant à financer les voyages, conférences,… du chargé de communication.

[6] Jules Henri Poincaré (1854-1912), mathématicien et physicien français.

[7] Dont l’exemple le plus connu est wikipédia