Le 23 septembre 1999,
la sonde de la NASA Mars Climate Orbitera fondu
en sapprochant trop près de la planète rouge, dont elle devait
permettre lobservation.
Les circonstances de
laccident ont pu être analysées, et mettre à jour une erreur
humaine tout à fait surprenante. Deux équipes différentes ont participé
au développement du logiciel grâce auquel les déplacements de la
sonde étaient commandés. La première équipe travaillait à Pasadena
(Jet Propulsion Laboratory) et la seconde à lUniversité du
Colorado (Lockheed Martin). Or, les deux équipes ont effectué leurs
calculs dans deux systèmes différents. La première utilisait le
système métrique international, qui constitue désormais la norme
pour tous les travaux scientifiques. La seconde utilisait le système
de mesure anglais, à base de feet, inches et pounds.
Les deux équipes nont jamais pris la peine de préciser entre
elles les unités de mesure quelles utilisaient pour calculer
la trajectoire de la sonde, chacune pensant sincèrement que son
choix était le seul possible (le système anglais est dominant en
aéronautique).
Du coup, lordre
donné au moteur, au lieu de mettre la sonde en orbite martienne
à près de 200 kilomètres daltitude, la envoyé beaucoup
trop près, à environ soixante kilomètres, provoquant sa destruction.
Cette erreur coûte
125 millions de dollars et provoque un retard de plusieurs mois,
voire plusieurs années, dans la conduite des projets dexploration
spatiale. Comment une telle chose a-t-elle pu arriver ? Pour
John Logsdon, Directeur du George Washington University's
Space Policy Institute, lépisode discrédite les projets
dans le domaine :
"That is
so dumb. There seems to have emerged over the past couple of years
a systematic problem in the space community of insufficient attention
to detail."
Ce sont toujours les
détails qui posent problème, et les erreurs semblent toujours idiotes
a posteriori. Mais, sil fallait faire la liste des bugs susceptibles
dapparaître, la liste serait interminable, et on en oublierait
beaucoup. Pour les observateurs comme John Pike, Directeur de la
recherche spatiale de la Federation of American Scientists,
ce nest dailleurs pas lerreur elle-même qui doit
être blâmée, mais le fait quaucune procédure de contrôle nait
permis de la détecter, et de la corriger :
"It is
very difficult for me to imagine how such a fundamental, basic discrepancy
could have remained in the system for so long. I can't think of
another example of this kind of large loss due to English-versus-metric
confusion. It is going to be the cautionary tale until the end of
time."
Unanime, la presse
américaine est à la fois abasourdie, moqueuse et en colère. Les
journaux pressent maintenant en faveur dune révolution
métrique, afin dempêcher que ce type de drames absurdes
ne se renouvelle.
Ça arrive même aux plus grands : la difficulté
dêtre hébergeur
Microsoft (Hotmail),
Excite, Amazon,
eBay, LaTribune,
Cybercable,
Autovantage,
Virgin, E*Trade,
America Online,
Charles Schwab :
on ne compte plus les grands opérateurs du Web ayant essuyé des
ennuis techniques retentissants ces derniers mois. Encombrement,
pannes, failles de sécurité, etc. : la non-qualité de service
peut prendre de multiples visages. Elle est encore plus dangereuse
et inacceptable lorsquelle menace la confidentialité
des internautes. Lexplosion du Web et du commerce électronique
conduit tous les observateurs à prédire une aggravation des problèmes
dhébergement et de connexion dans les trois prochaines années.
Le rythme de croissance imposée aux entreprises du monde Internet
(modèle "get big fast") les empêche de stabiliser leur
plate-forme. Dès lors, les efforts consentis pour améliorer la qualité
de leur service ne sont que partiellement perceptibles par les internautes.
Les exemples suivants donnent la mesure des difficultés rencontrées
par les hébergeurs.
eBay a connu de multiples
interruptions de service cet été, les serveurs chutant même deux
nuits consécutives pendant plusieurs heures, le 11 puis le 12 juin.
En mai 1999 (le 3 puis le 21), eBay avait déjà connu des interruptions
de plus de sept heures. Confus, le porte-parole de la société ne
put que reconnaître que de tels échecs remettait en cause lattractivité
et le rôle deBay dans la communauté des amateurs denchères
virtuelles. La société a dû en plus faire face à des critiques devant
son incapacité fonctionnelle et technique dempêcher les transactions
illégales. [lire à ce sujet notre article
sur la mise aux enchères dun rein humain]
Les sauts technologiques
réintroduisent du bug dans lunivers du Web. La Lyonnaise la
appris à ses dépens avec son offre Cybercable,
dont elle a dû arrêter la commercialisation, linsatisfaction
des abonnés mettant en danger son image et ses projets industriels.
" Nirvana
du surf, accès rapide et permanent, Cybercable avait de quoi faire
rêver les internautes lors de son lancement. Pourtant l'opération
s'est transformée en déroute technico-commerciale : lenteurs, impossibilité
de relever son courrier et autres incidents se sont multipliés.
La déception a été telle chez les 30.000 abonnés parisiens et les
3.000 strasbourgeois que la commercialisation a dû être stoppée
au printemps dernier. "
Dans le domaine des
supports de transmission, lhomologue américain de la Lyonnaise,
Excite@Home,
a essuyé les mêmes plaintes, preuve que les difficultés de lopérateur
français ne peuvent pas être mises sur le compte dune méconnaissance
de ces métiers. Pour les câblo-opérateurs, le principal problème
réside aujourdhui dans le fait que le câble est un système
partagé par les internautes, où un jeu non-coopératif se met rapidement
en place : il suffit que 10 % des utilisateurs du réseau se
livrent à des pratiques originales (hébergement dun serveur
depuis leur PC, téléchargement à répétition de fichiers lourds)
pour que toute la communauté des utilisateurs rencontrent de sérieux
problèmes de connexion. Chez Cybercable, les 10 principaux utilisateurs
du service occupaient 20 % de la bande passante. Evidemment, ce
type de système ne peut pas être déployé à large échelle.
En matière de hauts
débits, les difficultés rencontrées par Cybercacle ou @Home ne sont
quun avant-goût des problèmes à venir dans les prochaines
années, où la multiplication des supports de diffusion (satellite
et ADSL notamment) et la recherche forcenée de large bande conduiront
forcément à des couacs denvergure, du côté des utilisateurs
(connexion) et des opérateurs (diffusion). Lisa Pelgrim, analyste
chez Dataquest,
résumait ainsi le sentiment partagé par les spécialistes du secteur :
"I think
that we'll see more service problems as more and more users sign
up and as the applications change and as users become more accustomed
to the speeds and demand more from it."
Hotmail :
quand les atteintes à la confidentialité sajoutent aux pannes
Le service dhébergement
gratuit de boîtes aux lettres Hotmail,
filiale de Microsoft depuis près dun an, est sujet à des interruptions
de service fréquentes, à des ralentissements des débits et autres
bugs aléatoires dans lutilisation du site (un exemple :
les
pannes de juin 99).
Dans le domaine de
lhébergement gratuit, le phénomène nest pas isolé. En
septembre 1999, le concurrent principal dHotmail, Excite
Mail, a subi une interruption de service de 48 heures, privant
du même coup ses abonnés de leur courrier électronique. [lire
lhistoire]
Plus grave, il est
apparu à lété 1998 que des failles de sécurité existaient
sur Hotmail. Laffaire fut révélée sur le
site dun étudiant en informatique de Kuala Lumpur, Chee
Mun Kean, avant dêtre reprise par les grands journaux, dont
Cnet.
La faille permettait daccéder aux comptes de tous les abonnés
du service, soit près de 40 millions de personnes. Il était possible
de lire leur correspondance, de changer les paramètres de leur compte
et denvoyer des messages en leur nom. Latteinte à la
confidentialité se doublait ainsi de possibles manipulations. [cliquez
ici pour en savoir +]
Depuis, des problèmes
de sécurité se sont reposés en diverses occasions. En septembre
1999, de nouveaux
problèmes de sécurité se posaient sur Hotmail, obligeant Microsoft
à mettre en uvre un vaste programme daudit et dévolution
de ses systèmes sur plusieurs semaines. Au début du mois doctobre,
lopérateur assurait que les problèmes rencontrés ne se poseraient
plus. [cliquez
ici pour en savoir +]
Microsoft, na
pas réussi à se démarquer des autres opérateurs du Web en matière
de qualité de service. Malgré les énormes moyens financiers et lexpertise
technique dont il dispose, il doit lui aussi composer avec la dure
réalité du métier dhébergeur. Microsoft a dailleurs
dû faire face à de graves difficultés techniques avec un autre de
ses services, Jump,
acquis
en avril 1999. Le site propose aux internautes de gérer sur
le Web leur agenda et leur carnet dadresses. En juin 99, le
service a été interrompu pendant plusieurs jours, à cause dun
crash de base de données. [lire
toute lhistoire]
Il serait fastidieux
de tenir la chronique exhaustive des interruptions de services des
grands sites Web. Elles ne sont pas toutes aussi visibles (selon
les heures où interviennent les pannes), ni aussi graves (certaines
pannes peuvent être cantonnées à des parties de site). Elles sont
pourtant régulières, et touchent tous les opérateurs. Il nexiste
pas dexemple de site Web nayant connu aucun problème
dans les six derniers mois.
En moyenne, le temps
dinterruption mensuel par site Web est denviron huit
heures, toutes raisons confondues (pannes, arrêts programmés pour
maintenance, etc.). Dans le cas deBay, les interruptions ont
représenté un total de 100 heures depuis le début de lannée,
soit plus de 10 heures par mois.
Une étude récente du
cabinet Newport Group révèle que les performances
des serveurs Web sont décevantes dans la réalité. Sur 172 directeurs
informatiques interrogés, 52 % déclarent que les applications ne
répondent pas correctement à la demande sur le Web. En moyenne,
les serveurs ne traitent que 72% du trafic quils devaient
théoriquement gérer.
La qualité de service
dun site se mesure par ses débits (vitesse à laquelle il délivre
les pages) et par sa disponibilité : un service peut être ouvert
(uptime) ou fermé (downtime). Les périodes où le site nest
pas fonctionnel peuvent être programmées (pour une opération de
maintenance par exemple) ou accidentelles. On parle alors de chute,
de bug, de crash ou de plantage. La nature et les causes des interruptions
de service sont potentiellement nombreuses, comme lindique
une synthèse publiée par Zdnet sous le titre "Outing
the outages" ("Révéler les plantages").
Souvent, ce sont les
modules middleware qui lâchent. Ces systèmes (asp, liens CGI, ISAPI,
etc.) sont des passerelles entre le serveur Web (http) et la base
de données qui alimentent en contenu les sites. Les applications
middleware permettent ainsi de publier " à la volée "
des pages produites dynamiquement (dans le cas deBay, il sagit
des pages du catalogue des objets mis aux enchères sur le site).
Lorsque le site est fortement consulté, les applications middleware
ne fonctionnent plus assez vite pour satisfaire la demande. Les
serveurs tombent.
Dautres fois,
ce peut être la bande passante, insuffisante, qui provoque des délais
de chargement rédhibitoire. La liaison spécialisée peut également
subir une coupure, pour de multiples raisons (panne de routeurs,
intervention sur le réseau télécom, etc.). Le plus souvent, lhébergeur
est impuissant face à ce type de problèmes, puisquil ne maîtrise
pas le réseau ni linfrastructure par laquelle un opérateur
télécom lui donne accès à lInternet. Les systèmes de sécurité
(double ligne spécialisée, back-up numéris, mirroring de sites,
etc.) permettent une redondance des installations et, partant, une
sécurisation du service et une amélioration de ses performances.
Malheureusement, ces techniques sont encore complexes et coûteuses
à mettre en uvre. Dans ce domaine, leffet ciseau joue
à plein : alors que les hébergeurs doivent sur-investir pour
améliorer la qualité de service (et financer des isntallations qui,
la plupart du temps, restent inactives), les revenus tirés de lhébergement
ne permettent pas de procéder aux investissements requis (doublement
des salles dhébergement, des infrastructures informatiques
et télécoms, recrutement de personnels supplémentaires, etc.).
Contrairement à une
idée répandue, les services qui connaissent le plus dinterruptions
de services ne sont pas les petites applications, sites amateurs
et autres adresses peu fréquentées du Web. Ce sont au contraire
les grands sites, les services les plus populaires qui rencontrent
le plus de problèmes de qualité.
Les blockbusters
du Web font face à un paradoxe désormais bien connu : leur
popularité provoque une hausse rapide et continue de leur audience,
induisant des sollicitations exponentielles de leur infrastructure
(bande passante, serveurs, bases de données, modules middleware).
Sils ne parviennent pas à adapter en continu leur plate-forme
en fonction de la demande, ils subissent un crash technique, sur
le maillon le plus faible de la chaîne de transmission de linformation.
Les hébergeurs entretiennent
lidée que la qualité de service peut désormais sapprocher
de la perfection, pour des raisons commerciales. Ils tendent à utiliser
les pannes de leurs concurrents comme des arguments de vente, jetant
un voile pudique sur leurs propres défauts. Il ny a pas de
discours collectif sur ces phénomènes. Pourtant, les prestataires
de services dhébergement gagneraient à sadresser collectivement
au marché pour expliquer que le zéro défaut nest pas possible
aujourdhui sur le Web, et que des interruptions de services
régulières restent à prévoir dans les trois prochaines années, qui
marqueront la montée en puissance de laudience et des applications
de commerce électronique.
Quelques
témoignages sur des pannes restées célèbres
" Here's
the bad news: More crashes will undoubtedly happen. High-traffic
e-commerce sites are pushing the technology envelope well
beyond its means, sometimes inventing and relying on unproven
systems in an effort to stay ahead of traffic demands. "
PC
week, juin 1999
Tous les jours,
des pannes surviennent sur les grands sites vedettes du Web.
Le journal Cnet
recense 148
épisodes sur ce thème. Nous avons retenu pour notre part
les interruptions de service (outages) les plus marquantes
de ces derniers mois :