|
François
Bourdoncle
"Le
chercheur des techniques de recherche"
(suite)
|
La
diversité, en la matière, est-elle souhaitable ?
AltaVista,
aujourd'hui, c'est une vingtaine de serveurs Alpha (Digital).
Chaque machine possède 10 Go de mémoire centrale (RAM) et une dizaine
de processeurs Alpha. Cela fait 200 Go de RAM. Une start-up comme
Excite peut faire un tel effort technologique pendant quelque temps,
avec l'aide d'un capital-risqueur. Une société comme Digital peut
se permettre cet effort sur le long terme : elle en a les moyens
et cela lui coûte moins cher qu'une campagne de publicité à l'échelle
mondiale. Aujourd'hui, la marque AltaVista est d'ailleurs plus connue
que la marque Digital.
La concurrence est toujours saine, mais une grande zoologie des
moteurs n'est pas forcément utile. Il faut avoir 2 ou 3 leaders
qui se tirent la bourre et provoquent une émulation technologique.
A l'inverse, la multiplication des moteurs n'a aucun sens. Aller
chercher des infos sur le Web consomme beaucoup de bande passante
et requiert beaucoup de moyens. Le paramètre critique, pour un moteur,
n'est pas la taille de la base de données ni le nombre de requêtes
par jour mais le produit des deux. Si vous avez deux fois moins
d'utilisateurs, vous pouvez avoir une base deux fois plus grande,
et vice-versa. Ceux qui se flattent de référencer plus de documents
qu'AltaVista oublient de dire qu'ils servent beaucoup moins d'utilisateurs.
A
priori, les moteurs de recherche sont neutres et transparents. Des
dérives sont-elles possibles ?
Les
moteurs de recherche sont neutres et transparents pour une raison
simple : faire des moteurs non transparents, c'est très difficile.
Il faut mettre de l'intelligence derrière la bêtise informatique.
Faire sortir des pages en bonne position, c'est une question que
tous les marketers de la planète se posent depuis que les moteurs
de recherche existent. A chaque fois qu'ils trouvent une solution,
Digital développe des contre-mesures. La société limite par exemple
l'impact de la répétition de mots au sein d'une page. Il est vrai
que si vous mettez certains termes dans le titre, la page sera plus
visible. Heureusement, il n'est pas possible de mettre tout le dictionnaire
dans vos titres. De la même façon, la taille des méta-balises est
limitée.
Ceci étant, il est vrai que Digital reçoit beaucoup d'appels de
personnes désirant connaître le prix à payer pour sortir les premiers
sur AltaVista. La discussion ne s'éternise pas : ils ne seraient
pas longtemps crédibles en nous livrant à ce genre de jeux. Le fait
d'être leader impose beaucoup de contraintes. AltaVista n'utilise
par exemple jamais les cookies.
Comment
faire, alors, pour apparaître en bonne position sur AltaVista ?
Aujourd'hui,
pour bien sortir dans AltaVista, il est juste possible de recourir
aux recommandations du manuel. Il n'y a pas de recette miracle.
Le moteur
essaie de ne pas laisser de côté des sites. Il effectue un parcours
en largeur dans un premier temps, et non un parcours en profondeur.
Le moteur effleure donc les sites et ne descend pas dans toutes
les arborescences. Cela est d'ailleurs devenu impossible : les sites
sont devenus infinis puisque beaucoup produisent des pages à la
volée à partir de base de données. C'est peut-être ce qui sauvera
les moteurs de recherche de la surcharge.
Peut-on
imaginer que les moteurs renseignent les utilisateurs sur le contenu
des bases de données autour desquelles se constituent désormais
la majorité des sites Web ?
L'avenir
des moteurs de recherche est ouvert. On peut envisager un moteur
qui fouille également les bases de données, par exemple à partir
de balises indiquant leur contenu de façon synthétique, via des
termes de référence par exemple. On peut également imaginer que
les moteurs demandent aux producteurs d'informations de payer pour
être référencés. Il y aura tellement de données disponibles que
cela pourrait s'avérer nécessaire. Un tel système apporterait d'ailleurs
une solution à la pollution des moteurs par des documents non pertinents.
Ce nest pourtant pas lévolution que jappelle de
mes voeux.
Les
moteurs de recherche sont à la pointe du micromarketing comme en
témoignent les publicités personnalisées. Une telle évolution vous
paraît-elle dangereuse ?
Non,
le micro-marketing n'est pas dangereux tant qu'on ne garde pas en
mémoire le profil et les goûts d'un utilisateur. Cela ne me gêne
pas de recevoir une publicité personnalisée puisqu'elle répond au
besoin que j'exprime dans ma requête. AltaVista le fait au travers
de la société DoubleClick. C'est une régie publicitaire qui affiche
à la volée un bandeau approprié à la requête de l'utilisateur, simultanément
à la recherche effectuée par le moteur.
Aujourd'hui,
les navigateurs permettent de sélectionner l'option "pas de
cookie" (menu Edit/Preferences/Advanced sur Communicator par
exemple). Les cookies sont donc morts, et ce n'est pas plus mal.
Il faudra inventer d'autres solutions de marketing personnalisé.
Aux Etats-Unis,
les marketers parviendront peut-être à trouver des services qui
inciteront les gens à accepter les cookies ou, plus largement, à
laisser connaître leur profil de consommation. En Europe, je crois
que les utilisateurs s'y opposeront. Les Américains n'ont pas conscience
du degré de fichage dont ils font l'objet, y compris en ce qui concerne
les éléments touchant leur vie privée, entièrement disponibles pour
ceux que ça intéresse.
Certaines
entreprises décernent un label aux sites qui s'engagent à ne pas
revendre le profil de leurs utilisateurs, qu'elles conservent afin
de délivrer un service personnalisé. L'auto-régulation du marché
peut-elle permettre une utilisation déontologique des bases de données
marketing ?
Je
ne crois pas. L'histoire récente en matière de bases de données
marketing a montré que les dérives surviennent toujours, sous la
pression des intérêts commerciaux. Des épisodes sordides ont même
été observés, certains pédophiles ayant recours à des bases d'utilisateurs
pour obtenir des informations sur des enfants. Aux Etats-Unis, il
commence juste à y avoir une prise de conscience des problèmes que
posent ces dérives.
AltaVista
vend des moteurs de recherche aux entreprises : de quelle façon
peuvent-ils améliorer leur productivité ? Comment l'entreprise gagne-t-elle
en cohérence de savoir ?
AltaVista
permet de valoriser de gigantesques fonds documentaires, peu ou
mal utilisés par les entreprises. Je crois que l'utilisateur final
se rapproche de plus en plus de l'information, notamment pour les
activités de veille. Pour ma part, je n'envisage pas de déléguer
mes activités de veille à quelqu'un d'autre. Je passerais plus de
temps à expliquer ce qu'il faut faire qu'à le faire moi-même. Dans
les entreprises, les gens feront une veille en direct, pourvu qu'ils
disposent d'outils simples et conviviaux. Les documentalistes évolueront
donc vers des fonctions à plus forte valeur ajoutée : rédaction
de synthèse, recherche et analyse de sites, préparation de dossiers.
De même que le rôle de la secrétaire a été profondément modifié
avec l'arrivée des ordinateurs, de même le rôle des documentalistes
est aujourd'hui appelé à évoluer.
La
privatisation des moteurs de recherche est-elle une bonne chose
?
Je
crois qu'il faut se réjouir du fait que le grand public dispose
de services performants et gratuits. Ce modèle économique est bénéfique
pour tout le monde puisque les entreprises peuvent acheter des produits
performants éprouvés par les internautes.
Aviez-vous
prévu ce mouvement en tant que chercheur ?
On
ne prévoit jamais rien. Initialement, ce qui m'amusait, c'était
surtout de proposer ce système sur le Web.
Comment
évoluent les techniques de recherche ? Que pensez-vous des moteurs
de recherche sémantique, a priori plus intelligents que les
moteurs d'analyse statistique ?
L'avantage
de l'analyse statistique, c'est que ça marche. L'analyse sémantique
produit encore des résultats inégaux et aléatoires. Avec des documents
littéraires bien construits, l'analyse sémantique est possible.
Avec des documents de qualité très hétérogène, comme c'est le cas
sur le Web, ce type d'analyse est beaucoup moins aisé.
Dans Cow
9, les relations statistiques décrivent souvent des liens sémantiques.
Certes, on peut imaginer avoir des bases de données plus homogènes
et apporter une valeur ajoutée humaine sur les relations entre les
thèmes. Mais je crois que ce sont les recherches linguistiques qui
vont se développer, davantage que les recherches sémantiques. AltaVista
permet déjà de n'effectuer des recherches que dans certaines langues.
L'analyse
sémantique ne peut-elle pas se développer sur des thèmes précis,
comme la santé, où le volume d'informations à traiter est moindre
et pour lequel il existe une syntaxte et un vocabulaire spécifiques
?
Certainement.
Ce qu'il faut, c'est donner à l'utilisateur des moyens simples et
peu coûteux pour faire entrer dans la tête du moteur une certaine
compréhension de son domaine. C'est une tendance qui se généralisera
mais on en est assez loin. Les investissements nécessaires sont
très importants et le travail préparatoire des linguistes est colossal.
Il faut en effet qu'ils développent des tables de références comportant
des liens logiques entre les termes.
Croyez-vous
que le développement de la réalité virtuelle puisse faire évoluer
la recherche d'informations sur l'Internet?
Oui.
J'aimerais d'ailleurs participer au développement des technologies
de datascape (représentation spatiale de l'information). Beaucoup
de gens travaillent sur ces modèles, dont les chercheurs du Xerox
Parc. Les solutions commencent à mûrir.
A court
terme, les applications VRML permettront ce genre de navigation
visuelle. On peut imaginer des projections 3D plus fines, des représentations
sphériques. Les gens ont une compréhension intuitive des liens graphiques.
Ceci dit, on est toujours surpris du décalage entre la façon dont
nous prévoyons qu'une application sera utilisée et la façon dont
elle est réellement utilisée.
Qu'est-ce
qui vous a surpris dans l'utilisation de Cow 9 ?
En bon
chercheurs, nous pensions que les gens voudraient faire des recherches
très fines. Nous voulions donc leur donner la possibilité de sélectionner
des mots un par un. Or, les utilisateurs n'utilisent pas cette possibilité.
Dans la nouvelle version de Cow 9, nous avons donc introduit
la possibilité de sélectionner plusieurs termes à la fois en choisissant
un thème principal.
En moyenne,
les gens ne mettent dans leurs requêtes que 1,5 mots. C'est très
peu par rapport aux possibilités qu'offre le moteur. Etre chercheur,
ça consiste à inventer des technologies. Après, il y a la vraie
vie, qui consiste à adapter les technologies aux usages des utilisateurs.
[Suite
de l'interview]
Octobre 1997
|