Система управления инцидентами в крупных ритейле работает следующим образом:
- Разбор текущих и предыдущих инцидентов. habr.com Нужно собрать и проанализировать все артефакты инцидентов, проработать план действий на случай повтора. habr.com
- Определение типов инцидентов. habr.com Выделяют внешние (от пользователей), внутренние (от коллег) и технические (выявляемые на основе мониторингов). habr.com Для всех типов определяют SLA (Service level agreement), за какое время нужно решить обращение на основании принятых приоритетов. habr.com
- Проактивная реакция на технические инциденты. habr.com Если фиксируется нарушение, автоматически формируется технический инцидент с определённой классификацией и передаётся в систему управления инцидентами, далее с ним работает команда поддержки или продукта. habr.com
- Анализ первопричин (RCA). habr.com По ним оценивают, можно ли полностью убрать или минимизировать потери с помощью организационных, технических, технологических, процессных изменений. habr.com
Также в крупных ритейле для управления инцидентами могут использоваться системы мониторинга, которые позволяют отслеживать работу ИТ-инфраструктуры и приложений и давать возможность проактивного реагирования в случаях замедления тех или иных транзакций. retail.cnews.ru