This is the "Les moteurs de recherche du web" page of the "Rechercher" guide.
Alternate Page for Screenreader Users
Skip to Page Navigation
Skip to Page Content
mis à jour le: Jul 5, 2013 URL: http://methodoc.univ-rennes2.fr/rechercher Imprimer le guide Mises à jour du flux RSS

Les moteurs de recherche du web Imprimer la page
  Rechercher: 
 
 

Lexique

moteur de recherche : outil automatisé d'indexation et de recherche des ressources du web visible (exemple : Google, Exalead)

métamoteur : outil de recherche qui va interroger simultanément les index d'autres moteurs de recherche, des annuaires et sites spécialisés. Ensuite il réparti ces résultats dans son interface en éliminant les doublons des résultats pour en fournir une présentation structurée à l'utilisateur (exemple: Ixquick, Copernic)

web visible ou surfacique :  ensemble des pages web indexées par les moteurs de recherche

web invisible ou caché : ensemble des pages web qui ne sont pas indexées par les moteurs de recherche (exemple : bases de données demandant une authentification)

annuaire thématique (ou répertoire) : présente l'information sous forme de hérarchie  (exemple: les signets de la BNF)

liens naturels : liens qui apparaissent sur la page de résultat du moteur de recherche. Il sont issus de la collecte des données par le robot collecteur (indexation automatique)

liens commerciaux (ou payant ou promotionnel) :  liens qui apparaissent sur la page de résultat du moteur de recherche, bien souvent en première position. Il sont issus de l’achat des mots clefs aux enchères par des entreprises. L’effet pervers de l’achat de mots clés aux enchères est de générer de la désinformation

requête : recherche formulée à partir de mots clés dans un moteur se recherche sous forme déquation de recherche plus ou moins construite afin d'obtenir des résultats

lien hypertexte : système de renvois permettant de passer directement d'une partie d'un document électronique à une autre ou d'un document à d'autres documents

limitation : catégorie ou critère permettant d'affiner les résultats de recherche

pertinence : est un des critères d'affichage des résultats de recherche : il s'agit de l'adéquation des résultats au critère de recherche (place du mot dans le document, fréquence d'occurrence, correspondance d'expression, proximité des termes)

popularité: est un des critères d'affichage des résultats de recherche. C'est une méthode basée sur la co-citation. Elle s'appuie sur le nombre de liens pointant sur les pages, et l'importance des sites pointant vers les résultats de recherche.


 

Comment trouver des résultats pertinents sur Google

Contrairement aux catalogues de bibliothèques, il est très rare qu'une requête aussi mal formulée soit-elle génère du silence. Les résultats liés à cette requête se comptent par milliers, voire centaines de milliers de pages, ce qui explique qu'au premier abord Google ne déçoit jamais. Il en va autrement quand on lit les résultats classés en tête : si la requête à la base a été mal formulée, il est rare que ceux-ci soient pertinents.

1.Savoir que  de nombreux outils remplacent l'espace entre les  mots saisis dans le moteur de recherche par un ET (opérateur par défaut). Lorsque des mots clés sont saisis les uns à la suite des autres, ils sont implicitement reliés de manière automatique par un « et » et les moteurs recherchent les 2 termes ensemble dans les documents

2. Eviter les "mots vides" et utiliser la recherche sur des expressions entre guillemets ("").

Essayez sur Google les requêtes suivantes :

  • opinion américaine guerre du vietnam : 2 480 000
  • opinion américaine devant la guerre du vietnam : 431 000

Moralité : les mots vides [devant la] font un écrémage important mais peu pertinent. On appelle mot-vide tout mot remplissant une fonction grammaticale (article, préposition) mais dont le contenu sémantique est faible, voire nul.

essayez maintenant :

  • "opinion américaine devant la guerre du vietnam" : 334 résultats dont plusieurs (Google books - Amazon...) font référence à un livre qui porte ce titre.

-> Les mots vides et les "" sont pertinents quand on cherche un titre

La recherche sur les expressions est aussi fréquemment utilisée par les enseignants pour détecter les plagiat

3. Passer d'une requête sur le web à une requête sur un site en particulier (recherche sur le nom de domaine ou url)

Essayez sur Google la requête : exécutions homosexuels

On obtient 132 000 résultats, sources de qualité variable

Essayez maintenant sur la recherche en mode avancée de Google : exécution homosexuels    site ou domaine :gouv.fr 

On obtient 1410 résultats renvoyant à des documents officiels

Ainsi, si l'on veut obtenir des documents officiels, d'institutions ou de sites ressources dans nos résultats il est possible de le spécifier au moteur de recherche en lui indiquant le nom de domaine utilisé par ces institutions pour qu'il cible sa recherche.

Exemple : Rechercher des pages du site de l'université de Rennes 2 préciser : univ-rennes2.fr , des pages du site d'un Ministère, indiquer : .gouv.fr ou encore des pages d'un site ressource tel que  Hypothèses, spécifier : hypotheses.org

4. Utiliser les parenthèses pour structure la requêter  que vous construisez (cf. exemple 5.)

5. Elargir une requête en utilisant le booléen OR

Internet ne reposant pas sur un vocabulaire contrôlé, Il est necessaire de prendre en compte plusieurs mots pour un concept

ex (Google) : ( jeunes OR adolescents ) ( travail OR emplois ) ; noter que le AND est toujours implicite

autres exemples : web OR Internet : techniquement, ce n'est pas la même chose, mais pour les journalistes ça revient souvent au même.

6. Spécifier une requête par langue (pour des recherches terminologiques sur des mots étrangers par exemple)

Si l'on veut faire une étude sur le mot "litost", intraduisible en français, sans spécifier de langue, on va se retrouver avec des résultats en tchèque surtout. Pour obtenir des résultats en français, il faut sélectionner "français" dans la liste des langues de la recherche avancée.

Cette option concerne la langue des documents quel que soit leur pays d'origine

7. Spécifier l'origine des pages

Pour préciser le pays de publication de la page, compléter le champ "region" de la recherche avancée

8. Chercher des images libres de droit (pour les réemployer dans un blog, par exemple)

ex : Google recherche avancée [images] : afficher toutes les images : réutilisation autorisée

Aurige : 16 résultats

Il devient courant que des auteurs demandent aux Internautes de retirer de leurs sites les photos qui leur appartiennent, demandes

parfois assorties de menaces de procédures juridiques. Ce type de recherche accessible en mode avancé vous évitera ces désagréments.

Si une photo n'est pas libre de droit et qu'il vous faut néanmoins l'utiliser, demandez par mail l'autorisation à son auteur en précisant que vous citerez son nom et renverrez le lecteur, par un lien sous l'image, vers son site, son blog ou son compte Flickr. Ces démarches ne sont pas vaines, et les personnes privées y répondent favorablement la plupart du temps.

9. Faire une requête pertinente sur le titre de la page

Les mots apparaissant dans le titre d'une page web (zone "title" dans le code source du document web, affichés au sommet de la fenêtre du navigateur) sont ceux que l'auteur a retenus comme pertinents pour qualifier le contenu de la page. Une recherche portant sur cette zone de titre (ex : Google, interface avancée, zone Emplacement : « dans le titre de la page »), a donc de bonnes chances d'augmenter la pertinence des résultats. Si au contraire, on recherche le mot « n'importe où dans la page », il suffira que le mot soit présent quelque part dans la page pour être repéré, même s'il en est question de façon tout à fait annexe.

En effet, une recherche portant sur le texte de la page ne garantit pas que le mot corresponde au sujet principal du document, il est simplement présent dans le texte.

Cette option concerne la langue des documents quel que soit leur pays d'origine

En effet, une recherche portant sur le texte de la page ne garantit pas que le mot corresponde au sujet principal du document, il est simplement présent dans le texte.

 

 

 

Méthode de classement des résultats

Pour comprendre les enjeux du classement des résultats (ranking) il faut savoir qu’il existe deux grandes méthodes de classement des résultats par els moteurs de recherhce. Ils sont bien souvent combinés par les outils :

• le tri par indice de pertinence : calculs statistiques sur la fréquence d’apparition et la localisation des termes de la requête dans une page web)

• le tri par popularité : indice de popularité, indice de clic. Ce système utilise la nature hypertextuelle du web, c'est-à-dire la prise en compte des liens entre sites, considérés comme des liens de parenté sémantique (modèle de Google dès 1998). Ce critère n’est pas académique, universitaire, ni scientifique.

La présentation des résultats est également soumise à de forts enjeux.

Il existe deux types de liens :

• Les liens naturels : issus de la collecte des données par le robot collecteur

• Les liens commerciaux (payants ou promotionnels) : issus de l’achat des mots clefs par des entreprises, souvent aux enchères (principale source de financement de Google)

L’effet pervers de l’achat de mots clés aux enchères est de généré de la désinformation. En effet, dans certaines situations (marée noire, émeutes de 2005) des sites « non alarmistes » arrivaient dans les 1er résultats à cause de l’achat de mots cléfs alors que les usagers du moteur de recherchent voulaient obtenir de l’information factuelle que les évènements.. « Oil spill » (marée noire) => en 2010 redirigeait vers une vidéo diffusée par la firme sur YouTube « émeutes banlieues » => en 2005 ramenait vers le site UMP « perquisition » => en 2010 (pendant l’affaire Bettencourt) ramenait vers le site UMP

 

Fonctionnement d'un moteur de recherche

Un moteur de recherche est composé de 3 modules autonomes :

  • un robot collecteur : qui collecte des données. Le robot collecteur parcourt les sites, en naviguant de liens hypertextes  en liens hypertexte, sur le web visible et indexe les pages web ou les documents en texte intégral (il ne passe pas tout les jours sur toutes les pages web ce qui ne garantit pas la fraicheur de l'information ramenée par les moteurs de recherche)
  • un module d’indexation : qui alimente l'index, autrement dit la base de données du moteur (mémoire)
  • un module de requête : qui gère les requêtes (recherches) et les résultats

Possibilité de filtrage des résultats (variables selon les outils) :

  • géographique : mondial, francophone
  • linguistique : choix de la langue des ressources
  • types de ressources : images, audio…
  • ressources internet : web, forum, messagerie, weblogs
  • formats : HTML, PDF, DOC, PPT, XLS, RTF…
  • dates (plusieurs options cœxistent dans le panorama des outils)
  • champs  particuliers :
    • titre de la page:
    • domaine ou URL : (ex : univ-rennes2.fr,  gouv.fr, edu.fr)
  • thématique : choix du domaine de recherche

Tous les moteurs de recherche ne présentent pas les résultats selon la même logique. Les résultats sont affichés soit par critère de pertinence, soit par critère de popularité.

La recherche sur Google Scholar

Google scholar est le moteur de recherche scientifique de Google. Il vous permet de limiter votre recherche à des documents qui sont hébergés sur des serveurs d'institutions scientifiques (universités, instituts, laboratoires) en tant qu'archives ouvertes (accessibles gratuitement à n'importe quel internaute). Cet outil vous permet de résoudre en partie le problème de l'évaluation des sources qui se pose dès que vous faites une recherche sur Internet.



Langues 
Description

Loading  Chargement...

Tip