#ITПроект: Мониторинг и анализ ITинфраструктуры крупной компании.

#ITПроект: Мониторинг и анализ ITинфраструктуры крупной компании.

Заказчиком были озвучены следующие проблемы:
· Существующая служба технической поддержки ИТ инфраструктуры работает в режиме «после аварии», то есть исправляя аварийные ситуации. Как следствие – вынужденные простои большого количества сотрудников на время недоступности сервиса, высокие затраты на обеспечение требуемого #SLA, сокрытие фактов предаварийного состояния критически важных объектов.

Цели проекта:
· Контроль и прозрачность соблюдения SLA
· Сокращение затрат на поддержку
· Увеличение среднего показателя доступности оборудования и сервисов до 95% суммарного времени за счет своевременного предсказания аварийных ситуаций.

Задачи проекта:
· Непрерывный мониторинг работоспособности всех объектов ITинфраструктуры
· Сбор ретроспективных данных параметров оборудования в аналитическом хранилище
· Анализ данных и выявление связей факторов и событий, создающих авариные ситуации
· Настройка уведомлений службы техподдержки о возникновении нежелательного тренда, вызывающего аварию (настройка триггеров)
· Сбор аналитического отчета за период по наиболее критичным ситуациям, корректировка триггеров, подготовка итоговых отчетов на вышестоящий уровень.

Результаты проекта:
✅ В течение первых двух месяцев работы системы было произведено накопление данных параметров оборудования для исследования. Кроме этого, в аналитическое хранилище были загружены ретроспективные данные за год.
✅ По итогам были сформированы триггеры предупреждений трех уровней критичности. Предупреждения критичного уровня были настроены на немедленную отправку ответственным сотрудникам службы поддержки.
✅ Это позволило службе поддержки перейти на качественно новый уровень – работать не устраняя аварии, а предупреждая их.
✅ За последующие два месяца количество критических событий сократилось в 4 раза, за следующие два месяца – еще в 2 раза. Количество непредвиденных аварий оборудования снизилось до уровня, соответствующего SLA: 95% среднего времени работоспособности.
✅Затраты на техподдержку сократились в 4 раза!

Используемые решения и технологии:
· Модуль мониторинга: #Zabbix, Java, Glassfish, Postgresql, Grafana.
· Модуль аналитики: #QlikSense#QlikNPrinting.

Продолжаем совместно с заказчиком успешно развивать еще один проект на базе решения #NMonitor - Анализ мониторинга оборудования, сети передачи данных и сервисов