Les fondamentaux de la Haute Disponibilité

La haute Disponibilité concerne de plus en plus d’entreprises comme de particuliers, par la dépendance que créent Internet et les nouvelles technologies, qui ne sont pas disponibles en permanence. Il n’y a pas de norme en ce qui concerne la durée d’une interruption de service. Cela dépend du contexte et de la criticité de l’application.

Par exemple un système de navigation embarqué dans un avion sera conçu pour avoir une période d’indisponibilité de 5 minutes par an, alors que l’application de facturation d’une entreprise sera conçue pour une période d’indisponibilité d’une journée par an.

Définition

haute-dispoOn définit la haute disponibilité comme un système permettant d’assurer une continuité opérationnelle d’un service sur une période donnée. Pour mesurer la disponibilité, on utilise une échelle qui est composée de 9 échelons. Un service Hautement Disponible est 99% disponible soit moins de 3,65 jours par an.

Afin de calculer la disponibilité, les métriques suivantes sont utilisées:

1.MTBF (Mean Time Between Failure) : mesure du temps estimé entre 2 défaillances d’un système.

2.MTTR (Mean Time to Resolution) : mesure du temps estimé pour restaurer la fonctionnalité.

La formule de calcul de disponibilité est : Disponibilité = MTBF / (MTBF + MTTR)

Internet et la Haute Disponibilité

Dans de plus en plus d’entreprises, Internet ce situe au cœur de l’activité et le besoin de disponibilité est donc constant. En effet, ce média est utilisé tout autant pour communiquer vers l’extérieur que pour supporter de nombreuses applications de l’entreprise (CRM, ERP, etc.) ou encore la téléphonie.

Il convient donc de distinguer le besoin de l’entreprise sur les deux niveaux : services disponibles pour les clients  versus services nécessaires au fonctionnement interne. L’un des exemples le plus parlant est celui des sites web des entreprises, qui sont aujourd’hui au centre de la communication et de la plupart des métiers des entreprises.

La haute disponibilité des sites web est organisée autour de différents axes qui peuvent être primordiaux:

• la redondance des matériels,

• les localisations des matériels,

• l’application des mises de sécurité des applications serveurs,

• la sécurisation du réseau de l’entreprise,

• la disponibilité permanente de solution de sauvegarde/secours/reprise sur incident,

• le dimensionnement en puissance des matériels.

Redondance des matériels

La redondance est le mécanisme qui permet de dupliquer un ou plusieurs composants d’une architecture par un ou plusieurs éléments identiques.

Avoir n serveur(s) sur x site(s) permettra une redondance de l’information, avec un risque de panne divisé par x+n…

Toutefois il faut des systèmes qui permettent de basculer automatiquement d’un site à l’autre. Les systèmes les plus couramment mis en œuvre afin d’assurer cette redondance sont les clusters.

Les clusters peuvent être actif/passif ou actif/actif. Le premier cas représente un groupe de machines de secours sur lequel on basculera l’infrastructure, alors qu’un système actif/actif permettra d’avoir les deux systèmes en fonctionnement en parallèle; dans ce cas,  un seul des deux matériels peut fonctionner en solo.

Maintien des applications et mises à jour des logiciels

Les applications peuvent présenter des bugs, la résolution par les mises à jour permet de corriger ces défauts. Ainsi on peut éviter que des personnes malveillantes explorent une faille qui permettrait l’accès aux informations de l’entreprise. Disposer de service de maintenance s’avère donc important et parfois compte-tenu des compétences techniques nécessaires, il s’avère judicieux d’externaliser les opérations de maintenance.

Reprise sur incident au coeur du dispositif

Il s’agit d’un plan qui permet de reprendre une activité totale ou partielle suite à un sinistre survenu sur le système d’information. Le but de ce plan est de minimiser l’impact du sinistre sur l’activité de l’entreprise.

Les points essentiels dans un plan de reprise sont:

• la sauvegarde des équipements

• la disponibilité de machines de secours

• des solutions de secours, avec mode dégradé (en qualité de service) ex.: un lien de backup avec un débit plus petit

Mise en application : la disponibilité d’internet pour l’entreprise

De plus en plus d’applications demandent une haute disponibilité d’Internet pour fonctionner… Le fonctionnement d’internet (voir article sur le lab CELESTE) mais surtout des connections spécifiques à Internet permettent d’assurer la pleine disponibilité de celui-ci « naturellement ».

Des solutions avancées permettent de limiter fortement le risque de panne ou de dégradation de services :

1. Disposer de plusieurs connections internet passant par des points terrestres différents

2. S’assurer de la disponibilité permanente d’une solution de sauvegarde/secours/reprise sur incident (mode transparent)

3. Opter pour des connexions avec Garantie de Temps de Rétablissement

4. Choisir des connexions avec un débit garanti

Avoir n connections internet

Avoir deux connections internet passant par deux localisations terrestres différentes peut permettre de sécuriser la solution d’accès à Internet. En cas de panne d’une des lignes, le trafic est routé c’est-à-dire redirigé automatiquement sur la seconde. La présence de deux routeurs en mode actif/passif permet de renforcer la redondance du système. Dans ce cas, il est préférable d’opter pour un système automatique de back-up, transparent pour les utilisateurs.

Avoir un plan de secours

En cas de panne du matériel, le matériel peut être redondé dans  l’infrastructure de l’opérateur : le matériel fonctionne alors de manière transparente en cas de panne, et comme précédemment la mise en place de deux routeurs renforce la redondance du système.

Opter pour une Garantie de Temps de Rétablissement

La GTR est la garantie du temps de rétablissement sur une connexion dans le cas d’une interruption de service. Cette GTR doit garantir que l’interruption de service soit la moins pénalisante pour l’entreprise.

Une GTR de 4 heures sur les connexions Internet sera l’option idéale pour les solutions de téléphonie sur IP ou dans le cadre d’un VPN IP d’entreprise , notamment quand il permet l’utilisation d’un ERP/CRM centralisé.

Choisir des connexions avec un débit garanti

Même si le service Internet n’est pas totalement interrompu, il peut être très fortement altéré. Dans ce cas, il faut s’assurer auprès de son fournisseur de service d’avoir un débit garanti. Cela est d’autant plus important dans le cas de téléphonie sur IP. En effet, une altération de la qualité du lien aura comme conséquence directe une baisse de la qualité de la communication téléphonique.

Pour tous les liens, SDSL, fibre optique mais aussi  ADSL, pour disposer d’un débit garanti, on configure un canal prioritaire afin de s’assurer d’avoir un minimum de bande passante pour chaque application ou usage spécifique de l’entreprise (téléphonie, internet…).

Afin de fournir un service hautement disponible, il faut s’assurer que l’infrastructure permettant la fourniture de ce service soit fonctionnelle 100% du temps. Dans cet article nous nous sommes essentiellement concentré sur les liens internet, mais il ne faut pas oublier l’énergie, la climatisation, les serveurs, etc.

La criticité ou le taux de disponibilité nécessaire d’une application ou d’un service guide  donc le choix des connexions Internet à mettre en œuvre pour une solution haute disponibilité. Et toutes les connexions se ne valent pas !

Service R&D