Numéro 4 - décembre 2008

IT Recovery News

The Business Continuity & Virtualisation Newsletter


Dix étapes clés pour le PRA-PCA

Si aucun permis de conduire ne peut se garantir du succès d’un plan de reprise d’activités informatiques, en revanche une méthode de conduite de projet s’avère néanmoins essentielle. Les administrateurs systèmes, réseaux et applications ont beau anticiper plusieurs scénarios, les pannes et incidents surviennent toujours là où on ne les attend pas. Chargés de l’exploitation des outils informatiques, ils mesurent des seuils pour être prévenus à temps, c’est à dire avant que les disques durs ou les segments de réseau n’atteignent leur limite de capacité ou encore avant que les batteries des onduleurs soient périmées. Mais, si la plupart des risques sont évalués, une partie d’entre eux seulement est atténuée à grand renfort de procédures et avec quelques astuces en guise de trousse de secours.

La plupart des méthodes d’exploitation (ITIL) suggèrent de consigner le moindre changement et de procéder à des examens et tests réguliers. On progresse ainsi par boucles d’améliorations, une approche qui a déjà fait ses preuves dans les démarches qualité ainsi que dans la sécurité physique des accès.

Efficace, mais pas imparable. Or, les PRA-PCA (plans de reprise ou de continuité d’activités) doivent prévoir toutes les bascules nécessaires en cas d’incident ou de catastrophe naturelle. Ils aident l’exploitation à s’engager sur un délai de reprise d’activités. Ce faisant, ils redonnent confiance à l’ensemble des utilisateurs, du client final jusqu’à la direction générale.

On distingue généralement une dizaine d’étape dans la mise en oeuvre d’un tel plan. Trois des dix étapes résumées dans le tableau ci-dessous méritent une attention particulière.

A chaque changement organisationnel majeur, (phase 3 du tableau), il convient de déterminer les applications critiques et les données cruciales pour l’entreprise. Les pannes applicatives et leurs conséquences pour l’entreprise doivent être parfaitement connues, c’est à dire identifiées et classées par sévérité et par probabilité du risque. Cet effort permet de cibler les serveurs - physiques ou virtuels - à basculer en priorité.

A chaque changement technique majeur (phase 7 du tableau), le site principal et le site de repli doivent reconsidérer l’infrastructure en place - régler les paramètrages d’administration le plus souvent - afin de délivrer des bascules adaptées.

Le budget consacré aux outils de surveillance informatique s’avère déterminant, même si des logiciels gratuits ou Open Source tel Nagios contribuent de plus en plus à bâtir une solution sur-mesure et à moindre frais. Il n’est pas rare de rencontrer, dans les plus vastes infrastructures, une grande diversité de plate-formes de supervision afin de gérer l’héritage des problèmes rencontrés. Dans ce cas, attention à l’interopérabilité des outils d’administration au moment du crash. A ce stade, une solution de bascule par réplication complète des serveurs critiques s’avère préférable.

Dernier point, une à deux fois par an, l’équipe IT doit tester ses mécanismes et procédures de rétablissement de la production. Cette simulation concerne aussi les mouvements du personnel qui peut être amené à travailler dans un autre local, provisoirement.

#

Etape clé

Site de repli impliqué

Fréquence

Observations

1

Se poser les bonnes questions pour la reprise d’activités IT

Non

une ou deux fois par an

lister les risques, leur sévérité, leur probabilité

2

Définir les priorités selon la probabilité et la sévérité des risques rencontrés

Eventuellement

une ou deux fois par an

faire le tri des risques

3

Déterminer les applications critiques et les données cruciales pour l’entreprise

Non

à chaque changement organisationnel majeur

atténuer les risques majeurs en pesant leurs conséquences

4

Quelle tolérance pour les données perdues (1 h, 1 j) ?

Non

une ou deux foispar an

préciser ses objectifs de sauvegarde

5

Quelle tolérance d’inactivité ?

Eventuellement

une ou deux fois par an

préciser ses objectifs de reprise

6

Rédiger un cahier des charges PRA-PCA

Oui

une ou deux fois par an

lister les avancées attendues

7

Choisir les outils de l’infrastructure et d’administration des bascules adaptés

Oui

à chaque changement organisationnel ou technique majeur

gérer l’héritage et documenter les rôles de chacun (personnes à contacter en cas d’incident...)

8

Préparer et entraîner les équipes à la reprise d’activités

Eventuellement

une ou deux fois par an

impliquer les utilisateurs

9

Tester les mécanismes de bascule et de rétablissement de la production IT

Oui

une ou deux fois
par an

simuler l’incident

10

Mettre à jour le PRA-PCA

Oui

à chaque changement organisationnel ou technique majeur

reprendre le processus à l’étape #1 le cas échéant

 

L’incontournable automatisation

Le facteur clé de succès du PRA consiste à l’éprouver pour de bon. Un “split brain” test vérifie le bon redémarrage des serveurs, maître et esclave, en examinant l’absence de perte d’informations, au niveau des gestionnaires de données. Pour le réaliser, il suffit de couper le lien entre les deux serveurs. Autre procédure indispensable, la coupure d’alimentation d’un serveur critique au business de l’entreprise permet de vérifier que la fenêtre de maintenance ne dépasse pas ce qui est prévu dans le plan ou dans le contrat de service d’externalisation. Ce laps de temps - il s’éternise alors pour l’administrateur - ne devrait pas dépasser quelques minutes avec les solutions de bascule automatisée, par réplication complète des serveurs. Faute d’avoir investi dans un tel logiciel de sauvegarde pour les serveurs critiques, l’entreprise doit s’attendre à plusieurs heures d’interruption par plate-forme. En effet, les opérations de secours consistent à connecter un serveur de repli, puis à le configurer avant de remonter la dernière sauvegarde de données. Lorsqu’on doit redémarrer l’ensemble des services applicatifs, cela représente souvent plus d’une journée d’inactivité.

 

Dernière minute

Ne manquez pas le webinar consacré au Plan de Reprise d’Activité et à la Protection des Environnements Virtuels. Deux dates vous sont proposés, au choix, lundi 15 décembre ou mardi 16 décembre à 10h30. Gabriel Chadeau, Directeur Commercial France de Double-Take Software détaillera, en une heure, la technologie de réplication pour Windows, la bascule de serveur en moins de 5 minutes et la reprise d'activités de serveurs Windows physique et virtuel, avec retour en arrière. Pour vous inscrire à ce webinar en Français, cliquez ici.

Toutes les marques et produits cités dans cette lettre sont la propriété de leur détenteur respectif.

Une eletter sponsorisée par Double Take et réalisée par speedfire