L'année bissextile a causé une panne de Windows Azure de plus de 12h
Trivial, vous avez dit trivial ?
Windows Azure est le nom de l’offre de cloud computing que propose Microsoft à ses clients. Plusieurs briques essentielles permettent le déploiement de sites, de services, d’applications et autres. Mais l’infrastructure a rencontré un problème important qui a provoqué une coupure de service pendant plus de douze heures d’affilée, engendrant la colère de certains clients.
Un seul composant en panne pour déclencher finalement des problèmes en pagaille. Le Service Management permet en effet aux clients de gérer les déploiements, les comptes de stockage ou encore les services hébergés dans la partie PaaS (Platform as a Service) de Windows Azure. Sans ce composant, toutes ces opérations étaient bloquées.
Malheureusement pour Microsoft, les choses ont empiré par la suite. L’éditeur a trouvé assez rapidement la racine du problème, mais le déploiement d’une solution a propagé les difficultés à d’autres centres de données et services. Ce fut notamment le cas du composant Compute qui se charge des calculs, aussi bien aux États-Unis qu’en Europe. À ce moment, même des sites, services et applications qui n’avaient pas besoin du Service Management ont commencé à rencontrer des problèmes puis à lâcher. Pourtant, tous les clients n’étaient pas concernés.
À 14h30 hier, Microsoft que « la gestion des services est rétablie pour la majorité des clients. Nous avons encore besoin de travailler sur certains points avant de restaurer complètement ce service ».
Comme l’explique ZDnet UK, une dégradation d’autres services a été en fait observée pendant que Microsoft s’occupait de Windows Azure Compute. Cette fois, les pannes sont apparues un peu partout dans le monde et ont concerné par exemple le Marketplace Datamarket dans le centre des États-Unis, l’Access Control & Caching Portal à l’échelle mondiale ou encore l’Access Control 2.0 en Europe du Nord.
Aujourd’hui, tous les services sont revenus au vert, excepté le Windows Azure Compute du sud-est des États-Unis :
Cette importante panne rappelle que même si les offres de type Amazon EC2 et Windows Azure sont taillées pour la haute disponibilité (garantie de 99,9 %), ce type de problème peut survenir. Elle rappelle également qu’il s’agit de la principale faiblesse du cloud : la concentration des données les met à la merci d’un problème capable d’affecter des milliers de clients d’une seule traite. En revanche, si l’accès a bien été coupé, aucune perte d’information ne semble être à déplorer.
De la panne unique à la propagation
La panne est survenue dans la nuit d’avant-hier à hier. Les problèmes ont ainsi commencé vers 3h00 du matin, heure française. À midi hier, certains soucis avaient été corrigés tandis que d’autres étaient apparus. D’après une capture réalisée à ce moment par ZDnet, c’est le composant « Windows Azure Service Management » qui a causé problème :Un seul composant en panne pour déclencher finalement des problèmes en pagaille. Le Service Management permet en effet aux clients de gérer les déploiements, les comptes de stockage ou encore les services hébergés dans la partie PaaS (Platform as a Service) de Windows Azure. Sans ce composant, toutes ces opérations étaient bloquées.
Malheureusement pour Microsoft, les choses ont empiré par la suite. L’éditeur a trouvé assez rapidement la racine du problème, mais le déploiement d’une solution a propagé les difficultés à d’autres centres de données et services. Ce fut notamment le cas du composant Compute qui se charge des calculs, aussi bien aux États-Unis qu’en Europe. À ce moment, même des sites, services et applications qui n’avaient pas besoin du Service Management ont commencé à rencontrer des problèmes puis à lâcher. Pourtant, tous les clients n’étaient pas concernés.
À 14h30 hier, Microsoft que « la gestion des services est rétablie pour la majorité des clients. Nous avons encore besoin de travailler sur certains points avant de restaurer complètement ce service ».
Comme l’explique ZDnet UK, une dégradation d’autres services a été en fait observée pendant que Microsoft s’occupait de Windows Azure Compute. Cette fois, les pannes sont apparues un peu partout dans le monde et ont concerné par exemple le Marketplace Datamarket dans le centre des États-Unis, l’Access Control & Caching Portal à l’échelle mondiale ou encore l’Access Control 2.0 en Europe du Nord.
L'année bissextile responsable
Hier, Microsoft s’est également excusé de la gêne occasionnée par une telle panne. Dans un billet sur le blog de Windows Azure, le responsable Bill Laing a indiqué qu’il s’agissait à l’origine d’un bug logiciel. La firme souhaitait rassurer également en précisant que moins de 3,8 % des clients avaient été touchés. Le souci est que cette panne a été causée par les calculs horaires qui n’ont pas été capables de prendre en charge le cas particulier du 29 février 2012, année bissextile.Aujourd’hui, tous les services sont revenus au vert, excepté le Windows Azure Compute du sud-est des États-Unis :
Cette importante panne rappelle que même si les offres de type Amazon EC2 et Windows Azure sont taillées pour la haute disponibilité (garantie de 99,9 %), ce type de problème peut survenir. Elle rappelle également qu’il s’agit de la principale faiblesse du cloud : la concentration des données les met à la merci d’un problème capable d’affecter des milliers de clients d’une seule traite. En revanche, si l’accès a bien été coupé, aucune perte d’information ne semble être à déplorer.
Vincent Hermann
Rédacteur/journaliste spécialisé dans le logiciel et en particulier les systèmes d'exploitation. Ne se déplace jamais sans son épée.
Le 1 mars 2012 à 16:19
(28 973
lectures)
Il y a 111 commentaires
J'aurais plus vu ça comme ST :
Un nuage dans l'azur ?
/me attends maintenant le 1er janvier 2013, nanmého !
Un nuage dans l'azur ?
/me attends maintenant le 1er janvier 2013, nanmého !
C'est hallucinant que TOUS les 29 Février il y ait des problèmes informatiques! Depuis le temps que l'année bissextile existe (...), on arrive encore a avoir des programmes ou autres qui ne le gèrent pas !
Gnin hin hin... vais continuer paisiblement à me passer des produits ms
Incroyable
mais le déploiement d’une solution a propagé les difficultés à d’autres centres de données et services
Oh, déçue, je croyais que le FBI tentait de fermer une solution d'hébergement manifestement piratable.
J'aurais plus vu ça comme ST :
Un nuage dans l'azur ?
/me attends maintenant le 1er janvier 2013, nanmého !
Un nuage dans l'azur ?
/me attends maintenant le 1er janvier 2013, nanmého !

Attendons déjà de savoir si il y aura un 22 décembre 2012.
Il n'est plus possible de commenter cette actualité
Vous devez être connecté ou vous inscrire en haut pour pouvoir participer aux commentaires.
















