Fault management


Fault management

Dans le cadre de la supervision de réseaux, le Fault management est l'ensemble des fonctions qui permettent de détecter, isoler et corriger les erreurs dans un réseau de télécommunication et de réagir aux changements environnementaux.

Cela inclut la maintenance et l'analyse des historiques d'erreurs, l'acceptation et la gestion d'évènements de notification d'erreurs, le suivi et l'identification de celles-ci, la menée de tests de diagnostic, la correction des erreurs et la publication d'informations pertinentes les concernant, la localisation et le suivi des erreurs par l'examen et la manipulation d'informations contenues dans des bases de données.

Description

Lorsqu'une erreur ou un évènement se produit, un équipement réseau enverra souvent une notification à l'opérateur réseau en utilisant un protocole tel que le SNMP. Une alarme est une indication persistante d'une faute, qui ne disparait que lorsque les conditions qui l'ont produites ont été résolues. La liste courante des problèmes liés à l'équipement réseau est souvent conservée sous la forme d'une liste d'alarmes actives telles que définies dans la RFC 3877, la MIB d'alarmes. Une liste des erreurs réparées est aussi maintenue par la plupart des équipements réseau.

Les systèmes de fault management peuvent utiliser des systèmes de filtrage complexes pour assigner aux alarmes des degrés de sévérité. Ils peuvent aller de mineurs à urgents, comme dans le protocol sylog. De manière alternative, ils peuvent utiliser les champs de sévérité perçus des fonctions de report d'alarme suivant l'ITU X.733. Les valeurs possibles sont alors réparées, indéterminées, critiques, majeures, mineures ou avertissements.

Notez que la dernière version du protocole syslog, encore actuellement en développement à l'IETF, inclut des correspondances entre les différentes échelles de sévérité. Il est considéré comme une bonne pratique d'envoyer une notification non seulement lorsqu'un problème est apparu, mais également lorsque celui-ci a été résolu. Dans ce dernier cas, la sévérité serait "réparée".

Une interface de fault management permet à un administrateur réseau ou à un opérateur système de superviser des évènements de systèmes multiples et d'effectuer des actions basées sur ces informations. Idéalement, un système de fault management devrait permettre d'identifier correctement les évènements et de prendre automatiquement les décisions qui s'imposent, comme le lancement d'un programme ou d'un script correctif, ou l'activation d'un logiciel de notification qui va permettre à un opérateur humain d'effectuer les actions appropriées (par exemple, en lui envoyant un SMS ou un courriel). Certains systèmes de notification ont également des règles de préemption qui permettent d'avertir plusieurs personnes en fonction de leur disponibilité et de la sévérité des alarmes.

Il y a deux manières premières de faire du fault management : une active et une passive.

  • Le fault management passif est réalisé en collectant les alarmes des équipements (usuellement via SNMP) lorsque quelque chose s'y produit. Dans ce mode, le système de fault management sera averti uniquement si l'équipement qu'il supervise est suffisamment intelligent pour générer une erreur et la lui envoyer. Cependant, dans le cas où l'équipement supervisé tombe totalement en panne, aucune alarme ne sera envoyée et le problème ne sera pas détecté.
  • Le fault management actif évite cet écueil en utilisant des outils comme PING pour vérifier que l'équipement répond bien et si tel n'est pas le cas, une alarme est générée pour avertir de ce problème et en permettre la correction.

Note

Traduction littérale de l'article Fault Management en version anglophone.

Référence

  • Modèle:FS1037C MS188

Wikimedia Foundation. 2010.

Contenu soumis à la licence CC-BY-SA. Source : Article Fault management de Wikipédia en français (auteurs)

Regardez d'autres dictionnaires:

  • Fault management — In network management, fault management is the set of functions that detect, isolate, and correct malfunctions in a telecommunications network, compensate for environmental changes, and include maintaining and examining error logs, accepting and… …   Wikipedia

  • fault management —    One of the five basic types of network management defined by the International Organization for Standardization (ISO) and CCITT. Fault management is used in detecting, isolating, and correcting faults on the network …   Dictionary of networking

  • fault management —    Detects, isolates, and corrects network faults. One of five categories of network management defined by the ISO …   IT glossary of terms, acronyms and abbreviations

  • Fault tree analysis — (FTA) is a failure analysis in which an undesired state of a system is analyzed using boolean logic to combine a series of lower level events. This analysis method is mainly used in the field of safety engineering to quantitatively determine the… …   Wikipedia

  • Avaya Unified Communications Management — Developer(s) Nortel (now Avaya) Operating system MS Windows, and Linux Type Unified Communications Configuration and Management Avaya Unified Communications Management in computer networking is the name of a collection o …   Wikipedia

  • Network management model — The ISO under the direction of the OSI group has created a network management model as the primary means for understanding the major functions of network management systems. The model in question is interchangeably called either the OSI network… …   Wikipedia

  • Operations, administration and management — or operations, administration and maintenance (OA M or OAM) is a general term used to describe the processes, activities, tools, standards, etc involved with operating, administering, managing and maintaining any system. It is more commonly used… …   Wikipedia

  • Systems management — refers to enterprise wide administration of distributed systems including (and commonly in practice) computer systems.[citation needed] Systems management is strongly influenced by network management initiatives in telecommunications. Centralized …   Wikipedia

  • Network management — refers to the activities, methods, procedures, and tools that pertain to the operation, administration, maintenance, and provisioning of networked systems.[1] Operation deals with keeping the network (and the services that the network provides)… …   Wikipedia

  • Avaya Proactive Voice Quality Management — Avaya PVQM Proactive real time voice quality management continuously and passively monitors the user voice experience without user knowledge, and conducts real time problem resolution while calls are on going without user interference. Avaya… …   Wikipedia


Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”

We are using cookies for the best presentation of our site. Continuing to use this site, you agree with this.