larlet-fr-david

Repository with sources and generator of https://larlet.fr/david/ https://larlet.fr/david/

title: Les 100 premiers mots-clés recherchés par les utilisateurs d'AOL slug: les-100-premiers-mots-cles-recherches-par-les-utilisateurs-d-aol date: 2006-08-09 08:49:35 type: post vignette: images/logos/aol_data.png contextual_title1: Réflexions sur les conférences de geeks contextual_url1: 20090327-reflexions-sur-les-conferences-de-geeks contextual_title2: Son propre TinyURL en Python et HTML5 avec webpy contextual_url2: 20090221-son-propre-tinyurl-en-python-et-html5-avec-webpy contextual_title3: Analyse des données utilisateur d'AOL : suite et fin contextual_url3: 20060814-analyse-des-donnees-utilisateur-d-aol-suite-et-fin

Vous n'êtes pas sans savoir que des données reatives aux utilisateurs d'AOL ont été mises en ligne dernièrement (version anglaise, je pense que les serveurs sont plus régulièrement mis à jour si vous voulez récupérer les données). Voici le script et les 100 premiers mots-clés de recherche réalisées par ces utilisateurs. Attention les données n'ont pas été filtrées donc ce post peut contenir des mots heurtant la sensibilité des plus jeunes lecteurs.

Les 100 premiers mots-clés

Un site est déjà en ligne pour fouiller dans toutes ces données mais je voulais connaître les meilleurs mots-clés.

Script Python

freq = {}
for i in range(1, 11):
    if i in range(1, 10): i = '0'+str(i)
    for line in open('user-ct-test-collection-'+str(i)+'.txt'):
        for word in line.split('\t')[1].split():
            if len(word) >= 3:
                try:
                    freq[word] += 1
                except KeyError:
                    freq[word] = 1

total = float(sum(freq.values()))
items = freq.items()
items.sort(lambda a, b: -cmp(a[1], b[1]))
for word, count in items[:100]:
    print count, word, round(count/total*100., 2)

Résultats

Les résultats sont dans l'ordre décroissant, chaque ligne correspond à position. occurences, mot-clé, taux d'apparition

837298 the 1.03
698426 for 0.86
692358 and 0.85
449102 free 0.55
363020 google 0.45
270158 new 0.33
251125 http 0.31
236473 pictures 0.29
231574 county 0.28
217750 yahoo 0.27
208600 how 0.26
188800 lyrics 0.23
182564 school 0.22
176714 myspace 0.22
166225 sex 0.2
160174 ebay 0.2
159871 florida 0.2
155790 com 0.19
145346 sale 0.18
144472 with 0.18
144242 city 0.18
140896 home 0.17
138907 american 0.17
136993 state 0.17
127214 www 0.16
121237 .com 0.15
120478 what 0.15
119897 games 0.15
118366 texas 0.15
117860 music 0.14
115674 york 0.14
110711 yahoo.com 0.14
109857 bank 0.13
108839 black 0.13
108607 beach 0.13
108228 nude 0.13
104911 high 0.13
102669 online 0.13
102016 aol 0.13
101424 news 0.12
101226 map 0.12
101138 pics 0.12
98942 girls 0.12
96254 college 0.12
96063 you 0.12
92866 2006 0.11
92701 car 0.11
91862 real 0.11
89954 mapquest 0.11
89768 from 0.11
88975 university 0.11
87936 jobs 0.11
87283 center 0.11
86572 google.com 0.11
86083 myspace.com 0.11
85265 homes 0.1
85156 porn 0.1
84175 ohio 0.1
82530 california 0.1
80015 women 0.1
79429 white 0.1
78212 photos 0.1
77077 san 0.09
74934 estate 0.09
74360 club 0.09
74161 day 0.09
73791 art 0.09
72760 park 0.09
72728 house 0.09
72437 world 0.09
71346 baby 0.09
70068 big 0.09
69716 parts 0.09
69413 hotel 0.09
68313 weather 0.08
67802 furniture 0.08
67756 airlines 0.08
65458 blue 0.08
65332 credit 0.08
64648 movie 0.08
64619 south 0.08
64333 lottery 0.08
64138 internet 0.08
64137 island 0.08
64003 john 0.08
63017 your 0.08
62882 video 0.08
62866 north 0.08
62574 hot 0.08
62137 air 0.08
62059 wedding 0.08
61841 lake 0.08
61674 best 0.08
61363 used 0.08
61103 dog 0.08
60942 hotels 0.07
60749 america 0.07
60702 love 0.07
59443 department 0.07
59153 pages 0.07

Interprétation

~~Des commentaires sur ces résultats ce soir, faut que j'aille bosser là ;-).~~ La pause déjeuner devrait suffire.

On remarque déjà que les 3 premiers (the, for et and) sont à exclure... ou pas. Le and est probablement utilisé en tant qu'opérateur logique mais le the par exemple est un bon indicateur de l'utilisation des articles dans les moteurs de recherche. Il faut donc peut-être se tourner vers une référencement avec article et non plus par suite de mots-clés (d'où la pertinence d'avoir un contexte).

Ensuite le champ lexical de la pornographie est très présent mais beaucoup moins que ce que je pensais. Hônnetement, je m'attendais à sex dans le top 5. C'est presque rassurant (bon je me suis pas risqué à faire le total pour rester optimiste).

Ce qui est étonnant aussi c'est l'absence du mot mp3 des recherches. Je ne sais pas si c'est par peur de la RIAA, qui sait ? Les personnes utilisant le moteur de recherche d'AOL sont sûrement très respectueuses des lois (ou alors ont compris qu'il existait d'autres outils pour ça).

Les recherches sont un bon indicateur des tendances avec myspace qui a le vent en poupe, par contre il n'y a aucune star qui arrive à entrer dans le top 100 (bon à part John...). On remarque aussi qu'il y a beaucoup de recherches effectuées en utilisant en mot-clé le nom d'un autre moteur de recherche (j'avoue ne pas trop comprendre). De même, les mots-clés http, www ou com montrent l'ignorance de leur signification par les chercheurs.

Je trouve que l'on retrouve aussi beaucoup de localités présentes dans ces recherches, il faudrait pouvoir comparer à des données datant de quelques années mais c'est peut-être un nouvel aspect du web (ce qui m'étonne à moitié sinon personne n'aurait lancé la cartographie en ligne).

Quels liens sont suivis ?

On dit souvent que les 3 premiers liens d'un moteur de recherche sont les seuls suivis. Je voulais vérifier si cela était vrai pour ces données, c'est pas tous les jours qu'on a cette d'aubaine !

Script python :

nofollowed, followed, first_rank, second_rank, third_rank = 0, 0, 0, 0, 0
for i in range(1, 11):
    if i in range(1, 10): i = '0'+str(i)
    for line in open('user-ct-test-collection-'+str(i)+'.txt'):
        #for line in open('user-ct-test-collection-01.txt'):
        rank = line.split('\t')[3]
        if rank:
            followed += 1
            if rank == '1':
                first_rank += 1
            elif rank == '2':
                second_rank += 1
            elif rank == '3':
                third_rank += 1
        else:
            nofollowed += 1
total = float(nofollowed + followed)
print 'Total', total, round(total/total*100., 2), '%'
print 'Non suivi', nofollowed, round(nofollowed/total*100., 2), '%'
print 'Suivi', followed, round(followed/total*100., 2), '%'
print 'Premier suivi', first_rank, round(first_rank/total*100., 2), '% soit', round(first_rank/float(followed)*100., 2), '% des liens suivis'
print 'Deuxieme suivi', second_rank, round(second_rank/total*100., 2), '% soit', round(second_rank/float(followed)*100., 2), '% des liens suivis'
print 'Troisieme suivi', third_rank, round(third_rank/total*100., 2), '% soit', round(third_rank/float(followed)*100., 2), '% des liens suivis'

Résultats

Chaque ligne correspond à : Type, nombre, taux par rapport au total

Total 36389577.0 100.0 %
Non suivi 16946938 46.57 %
Suivi 19442639 53.43 %
Premier suivi 8220278 22.59 % soit 42.28 % des liens suivis
Deuxieme suivi 2316738 6.37 % soit 11.92 % des liens suivis
Troisieme suivi 1640751 4.51 % soit 8.44 % des liens suivis

Interprétation

Sur 36 millions de recherches, seules 54% sont considérées comme étant pertinentes par l'utilisateur. C'est énormément peu (~~il serait très intéressant d'avoir les données de Google pour comparer~~ la recherche est faite par Google, encore plus étonnant !). Et ensuite sur ces 54%, il vaut en effet mieux être placé en tête de peloton mais moins que ce que je pensais, il reste tout de même 40% des liens suivis qui le sont par les résultats inférieurs. Quoiqu'il en soit, la lutte pour la première place est justifiée !

Conclusion générale

Les données sont celles des utilisateurs du moteur de recherche d'AOL et je ne pense pas que les recherches effectuées sur Google par exemple soient de même nature, ~~surtout en ce qui concerne les recherches fructueuses~~. Ces résultats sont bruts et il serait très intéressant de les affiner davantage en fonction d'un secteur d'activité donné. Est-ce que tel type d'utilisateur utilise plusieurs mots-clés ? Et suit-il le premier lien ? etc.

Si vous ne donnez pas dans le p0rn, il peut-être intéressant de référencer un site de « new lyrics for free ». On comprend aussi pourquoi un moteur de recherche a toujours l'avantage sur ses concurrents en analysant ses recherches. Par exemple au sujet du nombre important de localités recherchées, il est évident que Google a fait une étude poussée là-dessus avant de s'investir dans GoogleMap et devant le nombre de recherches ils étaient certains de la future popularité de leur service.

Pour véritablement arriver à des conclusions solides, il faudrait les données de plusieurs moteurs de recherche réparties sur plusieurs dates. C'est impossible à avoir, il n'y a donc actuellement que les moteurs de recherche qui peuvent se précipiter sur ces données pour identifier les différents profils d'utilisateurs ;-).

Conclusion personnelle : je crois que l'aspect scientifique me manque un peu en ce moment... (sans compter le python).

[edit du 15/08] : Suite de l'analyse des données sur ce site.

article.md 11KB Raw Blame History

Les 100 premiers mots-clés

Script Python

Résultats

Interprétation

Quels liens sont suivis ?

Script python :

Résultats

Interprétation

Conclusion générale

article.md 11KB

Raw Blame History