Les fondamentaux de la Haute Disponibilité

La haute Disponibilité concerne de plus en plus d’entreprises comme de particuliers, par la dépendance que créent Internet et les nouvelles technologies, qui ne sont pas disponibles en permanence. Il n’y a pas de norme en ce qui concerne la durée d’une interruption de service. Cela dépend du contexte et de la criticité de l’application.

Par exemple un système de navigation embarqué dans un avion sera conçu pour avoir une période d’indisponibilité de 5 minutes par an, alors que l’application de facturation d’une entreprise sera conçue pour une période d’indisponibilité d’une journée par an.

Définition

haute-dispoOn définit la haute disponibilité comme un système permettant d’assurer une continuité opérationnelle d’un service sur une période donnée. Pour mesurer la disponibilité, on utilise une échelle qui est composée de 9 échelons. Un service Hautement Disponible est 99% disponible soit moins de 3,65 jours par an.

Afin de calculer la disponibilité, les métriques suivantes sont utilisées:

1.MTBF (Mean Time Between Failure) : mesure du temps estimé entre 2 défaillances d’un système.

2.MTTR (Mean Time to Resolution) : mesure du temps estimé pour restaurer la fonctionnalité.

La formule de calcul de disponibilité est : Disponibilité = MTBF / (MTBF + MTTR)

Internet et la Haute Disponibilité

Dans de plus en plus d’entreprises, Internet ce situe au cœur de l’activité et le besoin de disponibilité est donc constant. En effet, ce média est utilisé tout autant pour communiquer vers l’extérieur que pour supporter de nombreuses applications de l’entreprise (CRM, ERP, etc.) ou encore la téléphonie.

Il convient donc de distinguer le besoin de l’entreprise sur les deux niveaux : services disponibles pour les clients  versus services nécessaires au fonctionnement interne. L’un des exemples le plus parlant est celui des sites web des entreprises, qui sont aujourd’hui au centre de la communication et de la plupart des métiers des entreprises.

La haute disponibilité des sites web est organisée autour de différents axes qui peuvent être primordiaux:

• la redondance des matériels,

• les localisations des matériels,

• l’application des mises de sécurité des applications serveurs,

• la sécurisation du réseau de l’entreprise,

• la disponibilité permanente de solution de sauvegarde/secours/reprise sur incident,

• le dimensionnement en puissance des matériels.

Redondance des matériels

La redondance est le mécanisme qui permet de dupliquer un ou plusieurs composants d’une architecture par un ou plusieurs éléments identiques.

Avoir n serveur(s) sur x site(s) permettra une redondance de l’information, avec un risque de panne divisé par x+n…

Toutefois il faut des systèmes qui permettent de basculer automatiquement d’un site à l’autre. Les systèmes les plus couramment mis en œuvre afin d’assurer cette redondance sont les clusters.

Les clusters peuvent être actif/passif ou actif/actif. Le premier cas représente un groupe de machines de secours sur lequel on basculera l’infrastructure, alors qu’un système actif/actif permettra d’avoir les deux systèmes en fonctionnement en parallèle; dans ce cas,  un seul des deux matériels peut fonctionner en solo.

Maintien des applications et mises à jour des logiciels

Les applications peuvent présenter des bugs, la résolution par les mises à jour permet de corriger ces défauts. Ainsi on peut éviter que des personnes malveillantes explorent une faille qui permettrait l’accès aux informations de l’entreprise. Disposer de service de maintenance s’avère donc important et parfois compte-tenu des compétences techniques nécessaires, il s’avère judicieux d’externaliser les opérations de maintenance.

Reprise sur incident au coeur du dispositif

Il s’agit d’un plan qui permet de reprendre une activité totale ou partielle suite à un sinistre survenu sur le système d’information. Le but de ce plan est de minimiser l’impact du sinistre sur l’activité de l’entreprise.

Les points essentiels dans un plan de reprise sont:

• la sauvegarde des équipements

• la disponibilité de machines de secours

• des solutions de secours, avec mode dégradé (en qualité de service) ex.: un lien de backup avec un débit plus petit

Mise en application : la disponibilité d’internet pour l’entreprise

De plus en plus d’applications demandent une haute disponibilité d’Internet pour fonctionner… Le fonctionnement d’internet (voir article sur le lab CELESTE) mais surtout des connections spécifiques à Internet permettent d’assurer la pleine disponibilité de celui-ci « naturellement ».

Des solutions avancées permettent de limiter fortement le risque de panne ou de dégradation de services :

1. Disposer de plusieurs connections internet passant par des points terrestres différents

2. S’assurer de la disponibilité permanente d’une solution de sauvegarde/secours/reprise sur incident (mode transparent)

3. Opter pour des connexions avec Garantie de Temps de Rétablissement

4. Choisir des connexions avec un débit garanti

Avoir n connections internet

Avoir deux connections internet passant par deux localisations terrestres différentes peut permettre de sécuriser la solution d’accès à Internet. En cas de panne d’une des lignes, le trafic est routé c’est-à-dire redirigé automatiquement sur la seconde. La présence de deux routeurs en mode actif/passif permet de renforcer la redondance du système. Dans ce cas, il est préférable d’opter pour un système automatique de back-up, transparent pour les utilisateurs.

Avoir un plan de secours

En cas de panne du matériel, le matériel peut être redondé dans  l’infrastructure de l’opérateur : le matériel fonctionne alors de manière transparente en cas de panne, et comme précédemment la mise en place de deux routeurs renforce la redondance du système.

Opter pour une Garantie de Temps de Rétablissement

La GTR est la garantie du temps de rétablissement sur une connexion dans le cas d’une interruption de service. Cette GTR doit garantir que l’interruption de service soit la moins pénalisante pour l’entreprise.

Une GTR de 4 heures sur les connexions Internet sera l’option idéale pour les solutions de téléphonie sur IP ou dans le cadre d’un VPN IP d’entreprise , notamment quand il permet l’utilisation d’un ERP/CRM centralisé.

Choisir des connexions avec un débit garanti

Même si le service Internet n’est pas totalement interrompu, il peut être très fortement altéré. Dans ce cas, il faut s’assurer auprès de son fournisseur de service d’avoir un débit garanti. Cela est d’autant plus important dans le cas de téléphonie sur IP. En effet, une altération de la qualité du lien aura comme conséquence directe une baisse de la qualité de la communication téléphonique.

Pour tous les liens, SDSL, fibre optique mais aussi  ADSL, pour disposer d’un débit garanti, on configure un canal prioritaire afin de s’assurer d’avoir un minimum de bande passante pour chaque application ou usage spécifique de l’entreprise (téléphonie, internet…).

Afin de fournir un service hautement disponible, il faut s’assurer que l’infrastructure permettant la fourniture de ce service soit fonctionnelle 100% du temps. Dans cet article nous nous sommes essentiellement concentré sur les liens internet, mais il ne faut pas oublier l’énergie, la climatisation, les serveurs, etc.

La criticité ou le taux de disponibilité nécessaire d’une application ou d’un service guide  donc le choix des connexions Internet à mettre en œuvre pour une solution haute disponibilité. Et toutes les connexions se ne valent pas !

Service R&D

Fundamentals of High Availability

High Availability concerns more and more companies as individuals, by dependence that create the Internet and new technologies, which are not always available. There is no standard regarding the duration of service interruption. It depends on the context and the criticality of the application.

For example, a navigation system in an aircraft is designed to have a lockup period 5 minutes per year, while the application billing company will be designed to a lockup period of one day per year.

Definition

haute-dispoHigh availability is defined as a system to ensure operational continuity of service over a given period. To measure the availability, a scale is used which is composed of 9 levels. A Highly Available Service is 99% available less than 3,65 days per year.

Calculer affinity to Availability, the following metrics are used:

1.MTBF (Mean Time Between Failure) : measure the estimated time between 2 failure of a system.

2.MTTR (Mean Time to Resolution) : measure the estimated time to restore functionality.

At East formulas availability : Availibility MTBF = / (MTBF + MTTR)

Internet and High Availability

As more and more businesses, Internet is at the heart of the business and the need for availability is constant. Indeed, This media is used to communicate as much outward support for many business applications (CRM, ERP, etc.) or telephony.

It is therefore necessary to distinguish between the needs of the company on two levels : services available to customers versus services necessary for the internal functioning. One of the most telling examples is the websites of companies, which are now at the center of communication and most business enterprises.

High availability websites is organized around different axes which can be crucial:

• redundant hardware,

• Location of equipment,

• Application updates server security applications,

• securing the corporate network,

• the continued availability of backup solution / emergency / disaster recovery,

• sizing power equipment.

Hardware redundancy

Redundancy is the mechanism to replicate one or more components of an architecture with one or more identical elements.

Have n server(s) sur x site(s) allow redundancy of information, with a risk of failure divided by n x…

However we need systems that can automatically switch from one site to another. Systems most commonly implemented to ensure this redundancy are clusters.

Clusters can be active / passive or active / active. The first case represents a group of machines on which relief toggle infrastructure, while an active / active system will have both systems in parallel operation; in that event, one of the two materials can work solo.

Maintenance of applications and software updates

Applications can submit bugs, the resolution updates can correct these defects. Thus we can avoid malicious people explore a loophole that would allow access to company information. Have maintenance service therefore is important and sometimes taking into account the technical skills, it makes sense to outsource maintenance.

Failover in the heart of the device

It is a plan that allows you to resume full or partial activity after a disaster occurs in the information system. The purpose of this plan is to minimize the impact of the disaster on the activities of the company.

The key points in a recovery plan are:

• backup equipment

• the availability of emergency equipment

• backup solutions, with degraded mode (service quality) ex.: backup link with a smaller flow

Enforcement : the availability of internet for business

More and more applications require high availability of the Internet to function… The functioning of the Internet (see article on lab CELESTE) but also specific Internet connections help ensure full availability of it « naturally ».

Advanced solutions can greatly reduce the risk of failure or degradation of services :

1. Have multiple internet connections through different land issues

2. Ensure the permanent availability of a backup solution / emergency / disaster recovery (mode transparent)

3. Opting for connections with Recovery Time Warranty

4. Choose connections with guaranteed bandwidth

Have no internet connections

Have two internet connections via two different land locations may allow secure Internet access solution. In case of failure of one of the lines, This traffic is routed to say is automatically redirected to the second. The presence of two routers in active / passive mode strengthens the redundancy of the system. In that event, it is better to opt for an automatic backup, transparent to users.

Have a backup plan

In case of hardware failure, the material can be redundant infrastructure operator : while the equipment works seamlessly in case of failure, and as before the implementation of two routers system redundancy reinforces.

Opt for a warranty Restoration Time

The GTR is the guarantee of recovery time on a connection in the case of a service interruption. The GTR must ensure that the service interruption is the least detrimental to the company.

A GTR 4 hour internet connections will be the ideal option for IP telephony solutions or as part of a corporate IP VPN , especially when it allows the use of an ERP / centralized CRM.

Choose connections with guaranteed bandwidth

Even if the Internet service is not completely interrupted, it could be greatly altered. In that event, should check with their service provider to have a guaranteed rate. This is particularly important in the case of IP telephony. Indeed, an alteration of the quality of the link will direct consequence a decrease in the quality of the telephone communication.

For all links, SDSL, optical fiber but also ADSL, to have a guaranteed rate, a priority channel to ensure a minimum bandwidth for each specific application or use of the company is configured (telephony, internet…).

To provide a highly available service, must ensure that the infrastructure for the provision of this service is functional 100% time. In this article we are mainly focused on internet links, but do not forget the energy, air conditioning, servers, etc..

Criticality or availability rate necessary for an application or service thus guide the choice of Internet connections to implement a high availability solution. And all connections are not worth !

The R&D service