Medcost : Une utopie technologique : le Zéro défaut

Actus santé
Guide des maternités
Guide conso
Chiffre
Rencontres
Internet medical
E-Droit
Médicament
Dossier médical
Réseaux
Télémédecine
SI hospitaliers
Essais cliniques
Economie de la santé
Etude de cas
Annuaire des sites
Annuaire des réseaux
Index
Glossaire
Dossiers
Cartes de voeux
Tchatche

33, rue Raffet
75 016 Paris
Tél : 01 42 15 08 08

Une utopie technologique :
le Zéro défaut

11 octobre 1999
Suite (2/2)

Mars attacks

Le 23 septembre 1999, la sonde de la NASA Mars Climate Orbiter a fondu en s’approchant trop près de la planète rouge, dont elle devait permettre l’observation.

Les circonstances de l’accident ont pu être analysées, et mettre à jour une erreur humaine tout à fait surprenante. Deux équipes différentes ont participé au développement du logiciel grâce auquel les déplacements de la sonde étaient commandés. La première équipe travaillait à Pasadena (Jet Propulsion Laboratory) et la seconde à l’Université du Colorado (Lockheed Martin). Or, les deux équipes ont effectué leurs calculs dans deux systèmes différents. La première utilisait le système métrique international, qui constitue désormais la norme pour tous les travaux scientifiques. La seconde utilisait le système de mesure anglais, à base de feet, inches et pounds. Les deux équipes n’ont jamais pris la peine de préciser entre elles les unités de mesure qu’elles utilisaient pour calculer la trajectoire de la sonde, chacune pensant sincèrement que son choix était le seul possible (le système anglais est dominant en aéronautique).

Du coup, l’ordre donné au moteur, au lieu de mettre la sonde en orbite martienne à près de 200 kilomètres d’altitude, l’a envoyé beaucoup trop près, à environ soixante kilomètres, provoquant sa destruction.

Cette erreur coûte 125 millions de dollars et provoque un retard de plusieurs mois, voire plusieurs années, dans la conduite des projets d’exploration spatiale. Comment une telle chose a-t-elle pu arriver ? Pour John Logsdon, Directeur du George Washington University's Space Policy Institute, l’épisode discrédite les projets dans le domaine :

"That is so dumb. There seems to have emerged over the past couple of years a systematic problem in the space community of insufficient attention to detail."

Ce sont toujours les détails qui posent problème, et les erreurs semblent toujours idiotes a posteriori. Mais, s’il fallait faire la liste des bugs susceptibles d’apparaître, la liste serait interminable, et on en oublierait beaucoup. Pour les observateurs comme John Pike, Directeur de la recherche spatiale de la Federation of American Scientists, ce n’est d’ailleurs pas l’erreur elle-même qui doit être blâmée, mais le fait qu’aucune procédure de contrôle n’ait permis de la détecter, et de la corriger :

"It is very difficult for me to imagine how such a fundamental, basic discrepancy could have remained in the system for so long. I can't think of another example of this kind of large loss due to English-versus-metric confusion. It is going to be the cautionary tale until the end of time."

Unanime, la presse américaine est à la fois abasourdie, moqueuse et en colère. Les journaux pressent maintenant en faveur d’une ‘révolution métrique’, afin d’empêcher que ce type de drames absurdes ne se renouvelle.

Ça arrive même aux plus grands : la difficulté d’être hébergeur

Microsoft (Hotmail), Excite, Amazon, eBay, LaTribune, Cybercable, Autovantage, Virgin, E*Trade, America Online, Charles Schwab : on ne compte plus les grands opérateurs du Web ayant essuyé des ennuis techniques retentissants ces derniers mois. Encombrement, pannes, failles de sécurité, etc. : la non-qualité de service peut prendre de multiples visages. Elle est encore plus dangereuse – et inacceptable – lorsqu’elle menace la confidentialité des internautes. L’explosion du Web et du commerce électronique conduit tous les observateurs à prédire une aggravation des problèmes d’hébergement et de connexion dans les trois prochaines années. Le rythme de croissance imposée aux entreprises du monde Internet (modèle "get big fast") les empêche de stabiliser leur plate-forme. Dès lors, les efforts consentis pour améliorer la qualité de leur service ne sont que partiellement perceptibles par les internautes. Les exemples suivants donnent la mesure des difficultés rencontrées par les hébergeurs.

eBay : le succès provoque les échecs

eBay a connu de multiples interruptions de service cet été, les serveurs chutant même deux nuits consécutives pendant plusieurs heures, le 11 puis le 12 juin. En mai 1999 (le 3 puis le 21), eBay avait déjà connu des interruptions de plus de sept heures. Confus, le porte-parole de la société ne put que reconnaître que de tels échecs remettait en cause l’attractivité et le rôle d’eBay dans la communauté des amateurs d’enchères virtuelles. La société a dû en plus faire face à des critiques devant son incapacité fonctionnelle et technique d’empêcher les transactions illégales. [lire à ce sujet notre article sur la mise aux enchères d’un rein humain]

Cybercable : l’innovation produit du bug

Les sauts technologiques réintroduisent du bug dans l’univers du Web. La Lyonnaise l’a appris à ses dépens avec son offre Cybercable, dont elle a dû arrêter la commercialisation, l’insatisfaction des abonnés mettant en danger son image et ses projets industriels.

" Nirvana du surf, accès rapide et permanent, Cybercable avait de quoi faire rêver les internautes lors de son lancement. Pourtant l'opération s'est transformée en déroute technico-commerciale : lenteurs, impossibilité de relever son courrier et autres incidents se sont multipliés. La déception a été telle chez les 30.000 abonnés parisiens et les 3.000 strasbourgeois que la commercialisation a dû être stoppée au printemps dernier. "

Interview de Jean Viellart, Directeur technique de Cybercable, JDN, 6 septembre 1999

Dans le domaine des supports de transmission, l’homologue américain de la Lyonnaise, Excite@Home, a essuyé les mêmes plaintes, preuve que les difficultés de l’opérateur français ne peuvent pas être mises sur le compte d’une méconnaissance de ces métiers. Pour les câblo-opérateurs, le principal problème réside aujourd’hui dans le fait que le câble est un système partagé par les internautes, où un jeu non-coopératif se met rapidement en place : il suffit que 10 % des utilisateurs du réseau se livrent à des pratiques originales (hébergement d’un serveur depuis leur PC, téléchargement à répétition de fichiers lourds) pour que toute la communauté des utilisateurs rencontrent de sérieux problèmes de connexion. Chez Cybercable, les 10 principaux utilisateurs du service occupaient 20 % de la bande passante. Evidemment, ce type de système ne peut pas être déployé à large échelle.

En matière de hauts débits, les difficultés rencontrées par Cybercacle ou @Home ne sont qu’un avant-goût des problèmes à venir dans les prochaines années, où la multiplication des supports de diffusion (satellite et ADSL notamment) et la recherche forcenée de large bande conduiront forcément à des couacs d’envergure, du côté des utilisateurs (connexion) et des opérateurs (diffusion). Lisa Pelgrim, analyste chez Dataquest, résumait ainsi le sentiment partagé par les spécialistes du secteur :

"I think that we'll see more service problems as more and more users sign up and as the applications change and as users become more accustomed to the speeds and demand more from it."

Hotmail : quand les atteintes à la confidentialité s’ajoutent aux pannes

Le service d’hébergement gratuit de boîtes aux lettres Hotmail, filiale de Microsoft depuis près d’un an, est sujet à des interruptions de service fréquentes, à des ralentissements des débits et autres bugs aléatoires dans l’utilisation du site (un exemple : les pannes de juin 99).

Dans le domaine de l’hébergement gratuit, le phénomène n’est pas isolé. En septembre 1999, le concurrent principal d’Hotmail, Excite Mail, a subi une interruption de service de 48 heures, privant du même coup ses abonnés de leur courrier électronique. [lire l’histoire]

Plus grave, il est apparu à l’été 1998 que des failles de sécurité existaient sur Hotmail. L’affaire fut révélée sur le site d’un étudiant en informatique de Kuala Lumpur, Chee Mun Kean, avant d’être reprise par les grands journaux, dont Cnet. La faille permettait d’accéder aux comptes de tous les abonnés du service, soit près de 40 millions de personnes. Il était possible de lire leur correspondance, de changer les paramètres de leur compte et d’envoyer des messages en leur nom. L’atteinte à la confidentialité se doublait ainsi de possibles manipulations. [cliquez ici pour en savoir +]

Depuis, des problèmes de sécurité se sont reposés en diverses occasions. En septembre 1999, de nouveaux problèmes de sécurité se posaient sur Hotmail, obligeant Microsoft à mettre en œuvre un vaste programme d’audit et d’évolution de ses systèmes sur plusieurs semaines. Au début du mois d’octobre, l’opérateur assurait que les problèmes rencontrés ne se poseraient plus. [cliquez ici pour en savoir +]

Microsoft, n’a pas réussi à se démarquer des autres opérateurs du Web en matière de qualité de service. Malgré les énormes moyens financiers et l’expertise technique dont il dispose, il doit lui aussi composer avec la dure réalité du métier d’hébergeur. Microsoft a d’ailleurs dû faire face à de graves difficultés techniques avec un autre de ses services, Jump, acquis en avril 1999. Le site propose aux internautes de gérer sur le Web leur agenda et leur carnet d’adresses. En juin 99, le service a été interrompu pendant plusieurs jours, à cause d’un crash de base de données. [lire toute l’histoire]

Il serait fastidieux de tenir la chronique exhaustive des interruptions de services des grands sites Web. Elles ne sont pas toutes aussi visibles (selon les heures où interviennent les pannes), ni aussi graves (certaines pannes peuvent être cantonnées à des parties de site). Elles sont pourtant régulières, et touchent tous les opérateurs. Il n’existe pas d’exemple de site Web n’ayant connu aucun problème dans les six derniers mois.

En moyenne, le temps d’interruption mensuel par site Web est d’environ huit heures, toutes raisons confondues (pannes, arrêts programmés pour maintenance, etc.). Dans le cas d’eBay, les interruptions ont représenté un total de 100 heures depuis le début de l’année, soit plus de 10 heures par mois.

Une étude récente du cabinet Newport Group révèle que les performances des serveurs Web sont décevantes dans la réalité. Sur 172 directeurs informatiques interrogés, 52 % déclarent que les applications ne répondent pas correctement à la demande sur le Web. En moyenne, les serveurs ne traitent que 72% du trafic qu’ils devaient théoriquement gérer.

Uptime/Downtime : les deux états du Web

La qualité de service d’un site se mesure par ses débits (vitesse à laquelle il délivre les pages) et par sa disponibilité : un service peut être ouvert (uptime) ou fermé (downtime). Les périodes où le site n’est pas fonctionnel peuvent être programmées (pour une opération de maintenance par exemple) ou accidentelles. On parle alors de chute, de bug, de crash ou de plantage. La nature et les causes des interruptions de service sont potentiellement nombreuses, comme l’indique une synthèse publiée par Zdnet sous le titre "Outing the outages" ("Révéler les plantages").

Souvent, ce sont les modules middleware qui lâchent. Ces systèmes (asp, liens CGI, ISAPI, etc.) sont des passerelles entre le serveur Web (http) et la base de données qui alimentent en contenu les sites. Les applications middleware permettent ainsi de publier " à la volée " des pages produites dynamiquement (dans le cas d’eBay, il s’agit des pages du catalogue des objets mis aux enchères sur le site). Lorsque le site est fortement consulté, les applications middleware ne fonctionnent plus assez vite pour satisfaire la demande. Les serveurs tombent.

D’autres fois, ce peut être la bande passante, insuffisante, qui provoque des délais de chargement rédhibitoire. La liaison spécialisée peut également subir une coupure, pour de multiples raisons (panne de routeurs, intervention sur le réseau télécom, etc.). Le plus souvent, l’hébergeur est impuissant face à ce type de problèmes, puisqu’il ne maîtrise pas le réseau ni l’infrastructure par laquelle un opérateur télécom lui donne accès à l’Internet. Les systèmes de sécurité (double ligne spécialisée, back-up numéris, mirroring de sites, etc.) permettent une redondance des installations et, partant, une sécurisation du service et une amélioration de ses performances. Malheureusement, ces techniques sont encore complexes et coûteuses à mettre en œuvre. Dans ce domaine, l’effet ciseau joue à plein : alors que les hébergeurs doivent sur-investir pour améliorer la qualité de service (et financer des isntallations qui, la plupart du temps, restent inactives), les revenus tirés de l’hébergement ne permettent pas de procéder aux investissements requis (doublement des salles d’hébergement, des infrastructures informatiques et télécoms, recrutement de personnels supplémentaires, etc.).

Contrairement à une idée répandue, les services qui connaissent le plus d’interruptions de services ne sont pas les petites applications, sites amateurs et autres adresses peu fréquentées du Web. Ce sont au contraire les grands sites, les services les plus populaires qui rencontrent le plus de problèmes de qualité.

Les ‘blockbusters’ du Web font face à un paradoxe désormais bien connu : leur popularité provoque une hausse rapide et continue de leur audience, induisant des sollicitations exponentielles de leur infrastructure (bande passante, serveurs, bases de données, modules middleware). S’ils ne parviennent pas à adapter en continu leur plate-forme en fonction de la demande, ils subissent un crash technique, sur le maillon le plus faible de la chaîne de transmission de l’information.

Les hébergeurs entretiennent l’idée que la qualité de service peut désormais s’approcher de la perfection, pour des raisons commerciales. Ils tendent à utiliser les pannes de leurs concurrents comme des arguments de vente, jetant un voile pudique sur leurs propres défauts. Il n’y a pas de discours collectif sur ces phénomènes. Pourtant, les prestataires de services d’hébergement gagneraient à s’adresser collectivement au marché pour expliquer que le zéro défaut n’est pas possible aujourd’hui sur le Web, et que des interruptions de services régulières restent à prévoir dans les trois prochaines années, qui marqueront la montée en puissance de l’audience et des applications de commerce électronique.

Suite et fin (3/3)

11 octobre 1999

Les nouvelles épidémies

LA GRIPPE AVIAIRE

Visitez Doctissimo, notre site santé et
bien-être

Santé
Médicaments
Nutrition
Grossesse bébés
Beauté
Forme
Psychologie
Sexualité
Hommes

Suivez toute
l'actualité
du Foot

DOSSIER START-UP

La croisière ne s'amuse plus.
A vos dés.

CHIFFRES EN SANTE

Informatisation
& Internet

Pour en savoir plus

Le site Mars surveyor programm (NASA)

La couverture complète du sujet sur Yahoo : Mars on the Web

Quelques témoignages sur des pannes restées célèbres …

" Here's the bad news: More crashes will undoubtedly happen. High-traffic e-commerce sites are pushing the technology envelope well beyond its means, sometimes inventing and relying on unproven systems in an effort to stay ahead of traffic demands. " PC week, juin 1999

Tous les jours, des pannes surviennent sur les grands sites vedettes du Web. Le journal Cnet recense 148 épisodes sur ce thème. Nous avons retenu pour notre part les interruptions de service (outages) les plus marquantes de ces derniers mois :

Cnet, 4 octobre 1999
Outage strikes AOL home page area

Cnet, 4 octobre 1999
Outages threaten Pacific Bell contract

Cnet, 13 septembre 1999
Hotmail bug bites again

Cnet, 10 septembre 1999
Excite Mail problems persist for 48 hours

6 septembre 1999
L’échec de Cybercable : Interview de Jean Viellart, Directeur technique, JDN,

Cnet, 28 juillet 1999
Amazon's site is temporarily closed

Cnet, 15 juillet 1999 Amazon's site is temporarily shut down

Cnet, 29 juin 1999
Outages plague eBay again

Cnet, 29 juin 1999

Hotmail hit by new round of problems

Cnet, 28 juin 1999

Excite@Home speed caps draw fire, prompt new plans