Pérennité et stockage des liens

Je viens de passer des heures à classer, trier, supprimer mes liens favoris (ou bookmarks). Hormis le constat que Firefox peut facilement prendre 2Go de ram, j'ai repris conscience de la nature éphémère du web. Je précise re car j'avais récemment fait un checklink et j'avais été assez surpris de constater le nombre de liens morts après quelques mois/années seulement. Voici quelques idées à chaud en vue d'arriver à une solution pérenne.

Pérennité des liens

Garder une copie du contenu en cache

C'est la base. La grande majorité des pages sont liées pour leur contenu et le poids du html associé n'est pas vraiment limitant donc pourquoi s'en priver ? Lorsqu'un site ferme, c'est la copie en cache qui peut être proposée mais on en vient alors immédiatement au deuxième point :

Passer par des redirections

Je ne vois pas d'autre moyen (relativement simple) pour pouvoir choisir de rediriger vers le site en question ou vers la copie locale en cache si le site a fermé. Cette solution présente quand même un intérêt relativement limité pour le rédacteur qui doit préalablement enregistrer chaque lien qu'il souhaite faire...

Bon ça casse aussi, en partie, le principe du web mais j'ai l'impression que c'est une solution de plus en plus adoptée.

Stockage des liens

Pouvoir les partager

Le partage doit pouvoir être possible à deux niveaux :

public/privé : il y a des liens que je souhaite partager et d'autres non ;
entre différents ordinateurs : j'utilise pour le moment FoxMarks mais je suis sûr qu'il peut y avoir plus simple/accessible (installer firefox + l'extension sur une machine extérieure c'est lourd).

Je ne vois qu'une interface web permettant de cumuler ces deux avantages.

Facilement les alimenter et les classer

Il y a plusieurs types d'enregistrement d'un favori :

il serait intéressant de pouvoir le faire via un petit raccourci JavaScript si c'est en ligne ;
la liste pourrait aussi être alimentée par un flux RSS, par exemple celui des billets favoris de mon compte Google Reader...

Il faudrait pouvoir les classer intelligemment/sémantiquement mais on en vient toujours au même affrontement simplicité d'enregistrement vs. ajout de méta-données long et fastidieux. Les tags sont pour l'instant le compromis accepté par l'utilisateur mais il faudrait peut-être lui en demander plus ?

Des idées ?

Inutile de vous dire que ce que je suis en train de décrire s'inscrit dans mon rêve de geek et j'espère pouvoir le mettre en application sur mon propre site (sinon BlogMarks serait bien sûr une solution toute trouvée).

À ce sujet, le projet Pimlico semble intéressant s'ils mettent en place une possibilité de synchronisation/consultation web.

Bon avec tout ça ma refonte n'avance pas... enfin ça en fait peut-être partie si je décide d'implémenter une telle solution :-).

Commentaires

Eric Daspet le 15/04/2007 :

"""rediriger vers le site en question ou vers la copie locale en cache si le site a fermé. Cette solution présente quand même un intérêt relativement limité pour le rédacteur qui doit préalablement enregistrer chaque lien qu'il souhaite faire..."""

Heureusement tu es informaticien et tu connais javascript. Il t'es donc facile de :

1- Faire un javascript qui va analyser tous les liens au chargement de ta page HTML à toi. Quand les liens sont vers un site externe, tu ajoutes un gestionnaire sur l'événement de clic.
Ce gestionnaire fait un appel Ajax vers une page X à toi avec le lien en paramètre, et reçoit un information qui lui dit si le lien doit être réécrit pour pointer vers la page en cache au lieu de la page d'origine.
Si tu veux être smart tu peux même faire que ça ne réécrit jamais le lien vers la page en cache mais éventuellement vers une page d'erreur qui dit que la cible ne fonctionne plus et qu'on propose (avec un lien) une version en cache

2- Ta page X peut avoir le comportement suivant :
- si le lien demandé n'est pas encore connu, ou qu'il est réputé fonctionnel, on répond qu'il n'y a pas lieu de changer ce lien
- si le lien demandé est réputé en erreur, alors on renvoie l'adresse de la page mise en cache quelque part (chez toi ou sur web.archive.org par exemple)

3- Faire une moulinette qui analyse régulièrement les logs de ton script en (2) pour :
- télécharger un cache des pages que tu n'as toujours pas en cache (ou dont le cache est trop vieux)
- vérifier si les pages cibles mènent vers une 404 ou pas, et mettre à jour l'information en conséquence

Au final :
- Ca doit être réalisable dans un temps assez réduit
- Tout est automatisable, sans intervention manuelle (pas de page à sauvegarder manuellement)
- Ca dégrade très bien si le javascript est désactivé ou si ton script au (2) est injoignable / hors service (puisqu'au pire c'est le lien réel qui reste)
- Ca te permet de basculer vers un cache externe ou unepage d'erreur spécifique si tu le souhaites
- Les liens restent les liens "réels" dans le code HTML, ce qui permet toujours aux gens de copier/coller le lien réel et qui ne t'oblige pas à faire réécrire dynamiquement tous tes liens par ton outil de publication.

David, biologeek le 15/04/2007 :

@Eric Daspet : ta solution est très intéressante et j'avais commencé à l'envisager. Le seul bémol que je pourrais trouver c'est pour les nom de domaine qui se font racheter (souvent par du pr0n) car le lien restant dans la page pour le référencement par exemple est le lien vers ce site là.

Pour le rafraichissement du cache je le déconseille en automatique par contre car ça serait dommage d'écraser la bonne version par quelque chose qui n'a rien à voir (se baser sur les réponses peu prudent à mon avis).

Mais sinon c'est très sexy :-). Il faut encore que j'y réfléchisse.

Mehdi Kabab le 16/04/2007 :

Sur la question du partage des liens entre différents ordinateurs, ainsi que sur la possibilité d'avoir une gestion d'accès privé/public, il existe le navigateur Flock (basé sur Gecko). Ce dernier permet en effet de se conjuguer avec un service de social bookmarking tel que del.icio.us ou encore Shadows. En pratique cela revient à gérer ses bookmarks en ligne via son navigateur, ce qui est assez pratique. Il prendra prochainement en charge le service Ma.gnolia.com.

Petite note sur sa gestion des bookmarks : Flock gère des collections de tags et non pas des signets organisés dans des répertoires. Cela est assez déroutant au début (les habitudes ont la vie dure :-)) mais à l'utilisation se révèle être un choix plutôt judicieux. En effet, lorsque l'on vient à gérer plus de 2 Mo de bookmarks, il est facile de ne plus se souvenir de l'emplacement exact d'un signet et comme on les duplique rarement... Là, il suffit de définir plusieurs tags à un signet puis de chercher à l'atteindre via divers mots-clés. Au final, on est plus productif.

karl le 29/04/2007 :

Pour du contenu pérenne. ;)

impressive.net/people/ger...

David, biologeek le 29/04/2007 :

Merci pour les liens.

@Mehdi : depuis le temps qu'on me parle de Flock il faudra que j'essaye.

@karl : intéressant, ça existe même en python : logicerror.com/archiverPr...

speedyop le 03/05/2007 :

j'utilise firefox + del.icio.us
+ foxylicious = plugin pour synchroniser la barre de bookmark avec le compte del.icio.us
+ del.icio.us extension : ajoute une icone pour facilement ouvrir la pop up d'ajout de lien