Анализ Дерева Неисправностей (FTA) за Шесть Шагов

Его часто недопонимают, но, на самом деле, для того, чтобы провести анализ дерева неисправностей, надо иметь лист бумаги, карандаш и… понимание сервиса, рассказывает обозреватель ITSM Watch Ханк Маркус из компании itSM Solutions.

Если у вас есть сертификат по ITIL, то вы, без сомнения, слышали об анализе дерева неисправностей, или FTA (Fault Tree Analysis), как о средстве управления доступностью. Без специального программного обеспечения FTA может вскрыть корневые причины ошибки или определить, где потенциально может случиться такая ошибка.

Звучит FTA замысловато, но, на самом деле, им достаточно легко пользоваться. Если сбой уже произошел, то анализ начинают проводить сверху, от услуги, корневую причину сбоя которой вы хотите выяснить. При проведении прогноза, FTA начинают с события, которого хотят избежать, например, сбой сервера, и анализ помогает понять, как предотвратить неприятное событие.

В любом случае, диаграмма дерева неисправностей используется для определения контрмер для исключения причин ошибки. FTA делает это через структурный анализ способствующих ошибок и причин, которые ведут к сбоям.

Для FTA не требуется ничего более сложного, чем бумага, карандаш и понимание сути услуги. Для максимально эффективного FTA поможет аккуратная контекстуальная информация о CI (конфигурационных единицах). Следующие 6 простых шагов помогут быстро и легко решить вопросы построения дизайна и соответствующие проблемы.

1. Выберите для проведения анализа событие высшего уровня (сбой конкретной услуги). Старайтесь быть как можно более конкретнее, например: “Почтовый сервер не работает более 4-х часов”. Источниками событий высшего уровня могут быть записи о проблемах/известных ошибках; анализы сбоя сервисов; потенциальные ошибки, выявленные в результате “мозгового штурма”; а также сценарии типа “а что если” на основе соглашений об уровне сервиса и т.п.

2. Определите ошибки, которые могут вести к событию высшего уровня. Продолжая пример с аварией почтового сервера, продолжающейся уже более четырех часов, к проблемам, из-за которых возникло нарушение, можно отнести “перерыв в электропитании” или, например, “отказ оборудования”. Поместите все ошибки в прямоугольники ниже события верхнего уровня, и соедините с ним линиями.

3. Запишите как можно больше возможных причин под каждой ошибкой. В рассматренном примере, причинами для “перерыва в электропитании” могут быть “аварийное отключение источника бесперебойного питания”, “сбой электроснабжения”, и т.п. Соедините все возможные причины с ошибкой.

4. Начертите диаграмму “дерева неисправностей”. Два логических оператора – “и” и “или” – используются для показа ошибок и причин.

Например, сбой типа “почтовый сервер не работает больше 4-х часов” мог быть вызван “отсутствием электричества” или “неисправностью оборудования”. С другой стороны, могли быть “недостатки установки” и “истощение запасной батареи”.

Перегруппируйте логически соотносящиеся ошибки или причины, используя “и” или “или” между ошибками и событиями, между ошибками и причинами..

5. Продолжайте определение причин для каждой ошибки, пока вы не обнаружите корневую причину (reactive FTA), или ту, которую вы можете изменить (proactive FTA). Например, корневой причиной “отключения электроэнергии” может быть “ошибка технического персонала, проводившего работы на электрощитке”; корневой причиной «истощения запасной батареи” может стать ее “изначально малая емкость”.

6. Рассмотрите возможные контрмеры. Корневая причина – это та, на которую вы можете повлиять, поэтому теперь вам надо подумать о мерах, которые вы можете предпринять для устранения причины. Впишите в диаграмму контрмеры для каждой корневой причины. Например, для “ошибки персонала” контрмерой будет “создание процедуры обслуживания электрощитка и обучение персонала”. Соедините линией контрмеру с корневой причиной.

FTA полезно выполнять как в одиночку на листе бумаги, так и в группе на доске. Когда диаграмма закончена, у вас должно получиться дерево неисправностей. Деревья неисправностей показывают, какое событие может произойти, и что вы можете сделать при планировании изменений. Для решения Проблем у вас также найдется корневая причина и решение по ее устранению.

FTA на самом деле очень прост, но не позволяйте этой простоте обмануть вас. Если вы хотите получить удовольствие, то можете поиграть с вероятностной статистикой и определить вероятность того или иного сбоя. Используя показатели, полученные при изменении конфигурационных единиц, такие как среднее время до восстановления и среднее время бесперебойной работы, можно получить очень точные расчеты.

Даже если вы не собираетесь увлекаться FTA, то вы все равно сделаете решительный шаг вперед на пути предотвращения проблем, или на пути решения сложных проблем. Часто сам факт создания дерева неисправностей в группе становится источником прекрасных идей и возможных решений там, где раньше ничего не могли придумать.

FTA могут использовать группы технического контроля, менеджеры по проблемам и доступности, и даже группы ИТ по обеспечению непрерывности процесса с минимумом обучения. Графическая природа FTA делает процесс управления изменениями легким и доступным для понимания.

>Ханк Макус [Hank Marquis] является управляющим и главным техническим директором (CTO) в компании itSM Solutions. С Ханком есть возможность связаться по почте mailto:hank.marquis@itsmsolutions.com.

Hank Marquis, 21 декабря 2006. Перевод Виталия Фролова.
URL: http://www.itsmwatch.com/itil/article.php/3650536

Комментирование на данный момент запрещено, но Вы можете оставить ссылку на Ваш сайт.

Комментарии закрыты.

про европейскую примею в 2013 г можете погдробно узнать