Allo,
je crois que c'est tout à fait vrai pour les mots de types "article"... avec les statistiques de mon site perso, je constater que beaucoup de gens utilisent des phrases dans les moteurs de recherche... rambit.qc.ca/ecv
AOL...
je dois connaitre une seule personne dans mon entourage qui utilise ce FAI (qui ne l'utilise plus pour cause de déménagement)
merci pour cette analyse très interessante.
Il est clair que la bourde d'AOL va beaucoup servir aux marketeurs pour affiner les approches de positionnements, les approches pour les adwords et nombre d'autres petits détails.
Je pense aussi qu'il serait très interessant de pouvoir comparer ce genre d'informations avec d'autres sources, mais malheureusement je doute que cela arrive sous peu.
Il n'y a pas que les moteurs de recherche qui ont interet à regarder leurs logs de près. C'est déjà ce que je fais pour certains de mes clients et parfois les résultats sont prodigieux en terme de retour marketing puis transformation commerciale.
Pour la présence des www, http et autres moteurs de recherche, c'est parce que de très nombreux utilisateurs, non agguéris avec l'usage de web, tapent leur url directement dans la barre de recherche de leur homepage (AOL par défaut)
J'ai eu plusieures fois des clients qui pour visiter leur propre site tapaient dans google (leur homepage) leur www. monsite.fr puis cliquaient sur leur site en résultat. Oui Oui ça existe encore aujourd'hui, la preuve par AOL.
Encore une fois merci pour votre analyse, j'espère que vous aurez un peu de temps pour creuser plus profondement.
Charles Boone
Dans ton analyse, ne perds pas de vue que nous avons affaire a des utilisateurs d'AOL ...
pour ce qui est du faible niveau de satisfaction des recherches, ca montre que le meilleur moteur utilise sommairement (avec les articles, le www,...) ne donne pas de bons resultats.
Statistiques sur les données de recherche AOL - Google
Le scandale qui éclate sur la mise en ligne en grande quantité par AOL de données privées (voir articles de Techcrunch ici, ici, là ou là) a au moins un avantage: pouvoir tirer des conclusions et des statistiques sur les recherches dans les...
Vous n'êtes pas sans savoir que des données reatives aux utilisateurs d'AOL ont été mises en ligne dernièrement (version anglaise, je pense que les serveurs sont plus régulièrement mis à jour si vous voulez récupérer les données). Voici le script et les 100 premiers mots-clés de recherche réalisées par ces utilisateurs. Attention les données n'ont pas été filtrées donc ce post peut contenir des mots heurtant la sensibilité des plus jeunes lecteurs.
Un site est déjà en ligne pour fouiller dans toutes ces données mais je voulais connaître les meilleurs mots-clés.
freq = {}
for i in range(1, 11):
if i in range(1, 10): i = '0'+str(i)
for line in open('user-ct-test-collection-'+str(i)+'.txt'):
for word in line.split('\t')[1].split():
if len(word) >= 3:
try:
freq[word] += 1
except KeyError:
freq[word] = 1
total = float(sum(freq.values()))
items = freq.items()
items.sort(lambda a, b: -cmp(a[1], b[1]))
for word, count in items[:100]:
print count, word, round(count/total*100., 2)
Les résultats sont dans l'ordre décroissant, chaque ligne correspond à position. occurences, mot-clé, taux d'apparition
Des commentaires sur ces résultats ce soir, faut que j'aille bosser là ;-). La pause déjeuner devrait suffire.
On remarque déjà que les 3 premiers (the, for et and) sont à exclure... ou pas. Le and est probablement utilisé en tant qu'opérateur logique mais le the par exemple est un bon indicateur de l'utilisation des articles dans les moteurs de recherche. Il faut donc peut-être se tourner vers une référencement avec article et non plus par suite de mots-clés (d'où la pertinence d'avoir un contexte).
Ensuite le champ lexical de la pornographie est très présent mais beaucoup moins que ce que je pensais. Hônnetement, je m'attendais à sex dans le top 5. C'est presque rassurant (bon je me suis pas risqué à faire le total pour rester optimiste).
Ce qui est étonnant aussi c'est l'absence du mot mp3 des recherches. Je ne sais pas si c'est par peur de la RIAA, qui sait? Les personnes utilisant le moteur de recherche d'AOL sont sûrement très respectueuses des lois (ou alors ont compris qu'il existait d'autres outils pour ça).
Les recherches sont un bon indicateur des tendances avec myspace qui a le vent en poupe, par contre il n'y a aucune star qui arrive à entrer dans le top 100 (bon à part John...). On remarque aussi qu'il y a beaucoup de recherches effectuées en utilisant en mot-clé le nom d'un autre moteur de recherche (j'avoue ne pas trop comprendre). De même, les mots-clés http, www ou com montrent l'ignorance de leur signification par les chercheurs.
Je trouve que l'on retrouve aussi beaucoup de localités présentes dans ces recherches, il faudrait pouvoir comparer à des données datant de quelques années mais c'est peut-être un nouvel aspect du web (ce qui m'étonne à moitié sinon personne n'aurait lancé la cartographie en ligne).
On dit souvent que les 3 premiers liens d'un moteur de recherche sont les seuls suivis. Je voulais vérifier si cela était vrai pour ces données, c'est pas tous les jours qu'on a cette d'aubaine!
nofollowed, followed, first_rank, second_rank, third_rank = 0, 0, 0, 0, 0
for i in range(1, 11):
if i in range(1, 10): i = '0'+str(i)
for line in open('user-ct-test-collection-'+str(i)+'.txt'):
#for line in open('user-ct-test-collection-01.txt'):
rank = line.split('\t')[3]
if rank:
followed += 1
if rank == '1':
first_rank += 1
elif rank == '2':
second_rank += 1
elif rank == '3':
third_rank += 1
else:
nofollowed += 1
total = float(nofollowed + followed)
print 'Total', total, round(total/total*100., 2), '%'
print 'Non suivi', nofollowed, round(nofollowed/total*100., 2), '%'
print 'Suivi', followed, round(followed/total*100., 2), '%'
print 'Premier suivi', first_rank, round(first_rank/total*100., 2), '% soit', round(first_rank/float(followed)*100., 2), '% des liens suivis'
print 'Deuxieme suivi', second_rank, round(second_rank/total*100., 2), '% soit', round(second_rank/float(followed)*100., 2), '% des liens suivis'
print 'Troisieme suivi', third_rank, round(third_rank/total*100., 2), '% soit', round(third_rank/float(followed)*100., 2), '% des liens suivis'
Chaque ligne correspond à: Type, nombre, taux par rapport au total
Sur 36 millions de recherches, seules 54% sont considérées comme étant pertinentes par l'utilisateur. C'est énormément peu (il serait très intéressant d'avoir les données de Google pour comparer la recherche est faite par Google, encore plus étonnant !). Et ensuite sur ces 54%, il vaut en effet mieux être placé en tête de peloton mais moins que ce que je pensais, il reste tout de même 40% des liens suivis qui le sont par les résultats inférieurs. Quoiqu'il en soit, la lutte pour la première place est justifiée!
Les données sont celles des utilisateurs du moteur de recherche d'AOL et je ne pense pas que les recherches effectuées sur Google par exemple soient de même nature, surtout en ce qui concerne les recherches fructueuses. Ces résultats sont bruts et il serait très intéressant de les affiner davantage en fonction d'un secteur d'activité donné. Est-ce que tel type d'utilisateur utilise plusieurs mots-clés? Et suit-il le premier lien? etc.
Si vous ne donnez pas dans le p0rn, il peut-être intéressant de référencer un site de «new lyrics for free ». On comprend aussi pourquoi un moteur de recherche a toujours l'avantage sur ses concurrents en analysant ses recherches. Par exemple au sujet du nombre important de localités recherchées, il est évident que Google a fait une étude poussée là-dessus avant de s'investir dans GoogleMap et devant le nombre de recherches ils étaient certains de la future popularité de leur service.
Pour véritablement arriver à des conclusions solides, il faudrait les données de plusieurs moteurs de recherche réparties sur plusieurs dates. C'est impossible à avoir, il n'y a donc actuellement que les moteurs de recherche qui peuvent se précipiter sur ces données pour identifier les différents profils d'utilisateurs ;-).
Conclusion personnelle: je crois que l'aspect scientifique me manque un peu en ce moment... (sans compter le python).
[edit du 15/08]: Suite de l'analyse des données sur ce site.
Bonsoir,
Je confirme que pas mal de monde continue à taper 'www.blabla.com' dans son moteur de recherche préféré pour aller sur une adresse signalée par ailleurs.
J'ai régulièrement des appels au boulot de clients qui ne trouvent pas l'espace dédié à la récupération de fichiers (dont l'adresse leur est fournie par courrier) parce que rien ne sort quand ils tapent l'adresse sur internet ... qui après vérification s'avère être la barre de recherche du moteur (G***le en règle général d'ailleurs).
L'accès au net se démocratise mais savoir l'utiliser "correctement" est encore au stade de l'étape à franchir pour un certains nombre.
En tout cas, cette affaire avec Aol fait les gorges chaudes sur le net :-D
@+
Gilles.