La recherche d’information sur le Net

Si à cette période, ces recherches ne nous paraissaient pas insurmontables, force est de constater qu’elles nécessitaient malgré tout des efforts. Si la télévision ou la radio nous apportaient l’information à domicile, celle-ci n’était pas forcément diffusée au moment où on en avait besoin et n’était pas forcément celle recherchée non plus. A moins d’avoir une bibliothèque à portée de main, il était donc souvent nécessaire pour trouver une information d’aller la chercher là où elle se trouvait et pour ça de se déplacer (à la bibliothèque, acheter le journal, … ) ou de s’adresser éventuellement à des experts (en les appelant ou en se déplaçant encore une fois). Or, se déplacer prend du temps, coûte de l’argent et la recherche est hasardeuse. Pour minimiser l’échec, il fallait chercher dans la bonne direction et donc se poser les bonnes questions.

Le Minitel, outil de recherche en France dans les années 80

aller en bibliothèque faire ses recherchesDans les années 80, de nouvelles façons de s’informer voient le jour avec – en France – le Minitel dont la diffusion a été largement facilitée par le fait que le terminal était gratuit. Outre l’annuaire téléphonique, le célèbre 3611, d’autres sources d’informations pratiques payantes (via le 3615) étaient disponibles : horaires de transport, météo, accès aux comptes bancaires, titres de presse,… Rapidement, les jeux et surtout le Minitel rose se développent aussi. Désormais, il n’est plus indispensable de se déplacer pour s’informer, c’est l’information qui vient à nous.

La recherche avec Yahoo.

Yahoo arrive en France en 1996 et devient rapidement l’annuaire web le plus populaire. Créé par deux étudiants américains, il rassemble une liste de sites classés par catégories et sous-catégories. Avec leur annuaire, Jerry Yang et David Filo ont en quelque sorte transposé la logique de classification d’une bibliothèque au web.

Le classement dans les catégories se fait par ordre alphabétique. Il était alors intéressant pour un site d’avoir un nom commençant par une lettre du début de l’alphabet pour augmenter ses chances d’être vu. Chaque site répertorié possède sa fiche d’identité qui reprend sa catégorie, son nom, son URL et une description de son contenu.

Si Yahoo était le plus connu des annuaires généralistes, d’autres existaient et parmi eux un petit français : Nomade. On trouvait également de nombreux annuaires thématiques.

Yahoo! lance le ciblage par mots-clés.

Yahoo premier vrai annuaire de recherche internetLe nombre de sites classés devenant de plus en plus important, Yahoo créé un moteur de recherche permettant de retrouver un site par mots-clés. L’annuaire étoffe par ailleurs son offre de services et se transforme petit à petit en portail. On y trouve un service mail, un client de messagerie instantanée, des jeux en ligne, des portails d’information spécifique…

En face des annuaires se développent une autre méthode de recherche au fonctionnement radicalement différent et qui va prendre le pas sur les annuaires : les moteurs de recherche. Premier du genre en 1994, Excite a été rapidement rejoint par Lycos puis, l’année suivante, par Altavista. Le géant Google ne verra le jour qu’en 1997. Il faudra attendre 1998 pour avoir un moteur français avec le lancement par France Télécom de Voilà.

Une recherche de plus en plus performante.

Avec les moteurs de recherche, plus d’intervention humaine, ce sont des robots qui indexent et classent. Plus précisément, ces robots d’indexation, baptisés Spiders, passent le web en revue 7 jours /7, 24h /24 en suivant les liens hypertextes des pages web. Le code source de ces pages est alors stocké dans un data center. Un site est visité plus ou moins régulièrement selon la technologie employée par le moteur. Cependant, les visites sont plus régulières si les mises à jour du site sont fréquentes (ex : site d’actualités). Les sites illégaux ou au contenu douteux sont blacklistés.

Des spiders parcourant la toile.

Dans un deuxième temps, les informations des pages collectées sont indexées. En règle générale, seules les informations textuelles sont indexées et parmi elles, seuls les mots significatifs. Les stop words ou “mots vides”, typiquement « le », « de », « un », …. qui ne sont pas pertinents dans une recherche, ne sont pas conservés.

Enfin, le moteur de recherche traite les requêtes soumises par les internautes pour leur fournir une réponse. C’est un algorithme qui va se charger d’identifier dans la base de données (en utilisant l’index) les documents qui correspondent le mieux à la demande et de les présenter par ordre de pertinence. Pour certaines requêtes très populaires (« facebook », « jeux »,…), les moteurs peuvent préparer à l’avance leurs pages de résultats.

Si dans les années 90, bien remplir les balises méta de son site étaient la clé d’un bon référencement, il n’en est plus tout à fait de même aujourd’hui et les algorithmes se sont rapidement complexifiés. A la pertinence du résultat (le mot recherché est-il présent dans le titre du site ? Dans son URL? Dans le contenu ? Des synonymes sont-ils présents ? ….) est venue se rajouter la popularité (PageRank), estimée par le nombre de liens pointant vers une page. Et c’est avec ce nouveau critère que Google a creusé la tombe de ces concurrents.

Une guerre virtuelle

A ce critère, d’autres se sont ajoutés ensuite. Ainsi l’algorithme peut désormais tenir compte de la localisation de l’internaute qui fait la requête ou encore des dernières visites effectuées pour affiner sa réponse. L’algorithme de Google utilise plus de 200 paramètres pour affiner les résultats d’une recherche.Google détient aujourd’hui 90% des parts de marché en France et est également leader dans de nombreux autres pays. Deux exceptions notables : la Russie avec Yandex et la Chine avec Baidu.

D’autres types de moteurs existent comme les moteurs de recherche collaboratifs dont les résultats sont le fruit de la collaboration entre des utilisateurs humains. Chacun peut ainsi modifier les résultats de la recherche effectuée par une autre personne. On peut citer également les méta-moteurs qui interrogent plusieurs moteurs de recherche simultanément et affichent à l’internaute une synthèse pertinente ou encore les multi-moteurs, page web où plusieurs formulaires permettent d’interroger en même temps plusieurs moteurs.

On peut bien sûr se poser des questions sur ces critères et notamment la popularité. Est-ce qu’un site est de qualité parce qu’il est populaire ? Est-ce qu’il va mieux répondre à ma question ? Un site aussi qualitatif soit-il, n’a aucune chance d’apparaître dans les résultats d’une requête si aucun lien ne pointe vers lui. Mieux encore, si l’objet de la recherche est commercial, les premiers résultats sont les annonces payantes commercialisées par Google. Moralité : pour être visible sur le web, populaire et riche tu seras. La loi du plus fort version web.

Même si un site figure dans les résultats ce n’est pas encore suffisant, il faut encore qu’il y figure en bonne place : 85% des visiteurs ne dépassent pas la première page de résultats. L’internaute n’est guère patient et pas plus persévérant. D’où la nécessité pour un site de travailler à améliorer son référencement.

Pour s’assurer une meilleure position, certains cherchent à exploiter les failles des algorithmes. Ces techniques, peu appréciées par les moteurs de recherche, sont connues sous le nom de Black Hat (cloaking, spamdexing, sites miroirs, …).

la recherche internet sur google moteur de recherchesLes évolutions récentes

Le web sémantique

Les notions de web sémantique et d’intelligence artificielle sont au cœur des évolutions récentes et futures du web. Tout l’enjeu du web sémantique est là : que la machine « comprenne » votre requête et interprète les résultats trouvés pour fournir une réponse plus adaptée.

À la recherche de La Recherche

Rester à la pointe de la technologie

Google continue de faire évoluer son moteur de recherche. Les dernières améliorations visent à mieux prendre en compte des caractères tels que “+” ou “=”, caractères essentiels pour les recherches liées à la programmation informatique. En 2016, l’entreprise a également proposé et soutenu une technologie open source. Accelerated Mobile Pages (AMP) a été conçue pour accélérer le chargement des pages web lourdes sur mobile, en les optimisant ou en affichant des versions plus légères de la page. Une initiative qui a été plus ou moins bien accueillie.

Si le temps de chargement d’une page AMP est divisé par 4, il ne semble pas optimal pour autant, des contenus étant accidentellement exclus de l’affichage. D’autre part, lorsque Google affiche une page AMP, c’est dans sa page de recherche, avec une URL google. Lorsqu’un éditeur de sites n’adopte pas AMP et bien que google s’en défende, son affichage en sera forcément affecté ; les sites AMP passeront en priorité. Bref, si l’objectif de départ est louable, beaucoup pointent du doigt la dépendance dans laquelle peuvent se retrouver les éditeurs de sites vis-à-vis de Google. D’autant que le moteur de recherche ne se contente pas ici d’indexer le contenu du site mais aussi de l’héberger sur ses serveurs. Faire des recherches sur le net : quelles conséquences sur l’être humain ?

Et si les droits à la vie privée et au respect de la vie privé faisaient leur retour en force ces années qui arrivent ? C’est un courant en pleine émergence. Par exemple le moteur de recherche Qwant qui monte fortement en France et en Europe.