Заказчиком были озвучены следующие проблемы:
- Существующая служба технической поддержки ИТ инфраструктуры работает в режиме «после аварии», то есть исправляя аварийные ситуации. Как следствие – вынужденные простои большого количества сотрудников на время недоступности сервиса, высокие затраты на обеспечение требуемого SLA, сокрытие фактов предаварийного состояния критически важных объектов.
Цели проекта:
· Контроль и прозрачность соблюдения SLA
· Сокращение затрат на поддержку
· Увеличение среднего показателя доступности оборудования и сервисов до 95% суммарного времени за счет своевременного предсказания аварийных ситуаций.
Задачи проекта:
· Непрерывный мониторинг работоспособности всех объектов IT инфраструктуры
· Сбор ретроспективных данных параметров оборудования в аналитическом хранилище
· Анализ данных и выявление связей факторов и событий, создающих аварийные ситуации
· Настройка уведомлений службы техподдержки о возникновении нежелательного тренда, вызывающего аварию (настройка триггеров)
· Сбор аналитического отчета за период по наиболее критичным ситуациям, корректировка триггеров, подготовка итоговых отчетов на вышестоящий уровень.
Результаты проекта:
В течение первых двух месяцев работы системы было произведено накопление данных параметров оборудования для исследования. Кроме этого, в аналитическое хранилище были загружены ретроспективные данные за год.
По итогам были сформированы триггеры предупреждений трех уровней критичности. Предупреждения критичного уровня были настроены на немедленную отправку ответственным сотрудникам службы поддержки.
Это позволило службе поддержки перейти на качественно новый уровень – работать не устраняя аварии, а предупреждая их.
За последующие два месяца количество критических событий сократилось в 4 раза, за следующие два месяца – еще в 2 раза. Количество непредвиденных аварий оборудования снизилось до уровня, соответствующего SLA: 95% среднего времени работоспособности.
Затраты на техподдержку сократились в 4 раза!
Используемые решения и технологии:
· Модуль мониторинга: Zabbix, Java, Glassfish, Postgresql, Grafana.
· Модуль аналитики: QlikSense, QlikNPrinting.
Продолжаем совместно с заказчиком успешно развивать еще один проект на базе решения - NMonitor Анализ мониторинга оборудования, сети передачи данных и сервисов