ИИ в разборе инцидентов: документ без понимания

Современные инструменты искусственного интеллекта способны по transcript-у Slack-канала и нескольким подсказкам создать вполне приличный с виду документ разбора инцидента. На выходе получится аккуратно оформленный текст с хронологией, списком факторов, способствовавших инциденту, и набором задач. Читается связно, готов раньше, чем успел бы написать человек, и требует меньше инженерного времени. Для руководителя, который смотрит на процесс разбора инцидентов и видит, как инженеры морщатся от объёма работы, это выглядит заманчиво.

Загвоздка в том, что документ никогда не был целью разбора. Настоящее обучение происходит в процессе анализа инцидента — в момент написания, а не при чтении готового текста; сам документ — это лишь осадок от проделанной работы. Как с задачниками: решая задачи самостоятельно, учишься несравнимо больше, чем перечитывая чужой конспект.

Три уровня обучения

Обучение происходит на трёх уровнях: читатели опубликованного документа, каждый из авторов в отдельности и авторы как команда.

Читательский уровень — самый заметный; он расширяется по мере того, как документ становится доступен. Коллеги по всей компании читают разбор, видят, как там описано поведение системы и как команда якобы справлялась с инцидентом, и, возможно, корректируют собственное понимание происходящего. Большинство из них в самом инциденте не участвовало, поэтому для них документ и есть инцидент. Их обучение — это следствие анализа, который провели авторы; слабый анализ даёт мелкие выводы, читатели получают меньше, чем могли бы, а часть того, что они получают, может оказаться откровенно неверной.

Каждый из авторов по итогу разбирается в инциденте куда глубже, чем в начале работы. Он начинает писать «деплой вызвал сбой» — и по ходу изложения последовательности событий понимает, что деплой лишь обнажил проблему, которая уже давно таилась внутри. Описывает дашборд как «недоступный» — и останавливается, потому что дашборд на самом деле работал; просто он показывал данные не того кластера, и именно поэтому первые восемнадцать минут ничего не имело смысла для участников инцидента. Пишет «команда решила…» — и снова останавливается: команда ничего не решала; один человек принял звонок, остальные просто согласились, а разница между этими двумя вещами оказывается принципиальной.

Авторы также учатся друг у друга. Участники ликвидации восстанавливают свои фрагменты хронологии, архитектор расставляет пометки к факторам влияния, команда по работе с клиентами описывает масштаб последствий. В процессе кто-то замечает пробел, кто-то исправляет неточно вспомненный момент, в комментариях всплывает разногласие, которое перерастает в полезное обсуждение. К моменту, когда текст готов, группа в целом понимает произошедшее так, как не понимал ни один участник поодиночке. Это понимание сложилось из сопоставления того, что каждый знал по отдельности.

Что делает ИИ с каждым из уровней

Когда документ пишет ИИ, каждый из уровней получает свой ущерб — и ни один из них не выигрывает.

Читатели по-прежнему остаются читателями. Они открывают документ, воспринимают его и, возможно, обновляют своё понимание. Но теперь они усваивают синтез, сделанный ИИ, за которым нет никакой человеческой проверки. Документ может оказаться правильным, а может не добраться до тех глубинных проблем, которые вскрыла бы группа авторов. Документ выглядит как настоящий разбор, и читатели воспринимают его соответственно. Узнают ли они что-то истинное и полезное — теперь зависит исключительно от того, насколько удачно сработал ИИ, причём снаружи это никак не определить.

Когда ИИ делает работу, авторов нет — а значит, нет и индивидуального обучения в процессе написания. Никто не останавливается на полуслове, чтобы обнаружить, что деплой лишь обнажил давно скрытую проблему; никто не замечает, что дашборд работал, но показывал данные не того кластера; никто не пишет «команда решила» и не делает паузу, чтобы переосмыслить. Тот вид обучения, который возникает при прохождении по доказательствам предложение за предложением, попросту не происходит, если этим никто не занимается.

А без авторов очевидно не может быть и «авторов, учащихся друг у друга». ИИ выстраивает правдоподобную на слух историю из того, что ему дали. Никто не замечает пробела, никто не исправляет неточно вспомненный момент, никакое разногласие не всплывает в комментариях и не ведёт к полезному обсуждению. Любое напряжение между тем, что разные люди на самом деле думали, исчезает ещё до того, как кто-то мог бы его обнаружить.

В итоге вы получаете красиво оформленный артефакт. Ваши факторы влияния — это предположение ИИ о том, что выглядит правдоподобно, а не выстраданное понимание вашей команды. Ваша хронология — перекомпоновка переписки, а не реконструкция событий. Ваши «извлечённые уроки» — результат того, как ИИ сопоставил произошедшее с инцидентами из обучающих данных, а не с теми, что реально случались в вашей компании. Документ выглядит как разбор, но это иллюзия.

Производство документа можно автоматизировать. Понимание, которое должен был породить процесс, — нельзя. Автоматизируя написание, вы автоматизируете исчезновение обучения.

Где ИИ действительно помогает

Это не призыв полностью исключить ИИ из процесса разбора инцидентов. Речь о том, чтобы чётко различать: в одних случаях ИИ помогает инженерам делать работу, в других — делает работу вместо них. Механическая поддержка действительно полезна. Подмена человеческого мышления — нет.

Конкретные места, где ИИ оправдывает себя:

Сбор исходного материала. Стянуть содержимое нескольких Slack-каналов и веток в единый вид, транскрибировать голосовые каналы (в реальном времени или из записи), собрать скриншоты и графики, которые постились в канал во время инцидента. Черновая работа, дающая авторам чистую отправную точку.
Форматирование и редактура черновика, написанного человеком. Подтянуть стиль, предложить более ясные формулировки, поймать несоответствия, пережившие правку. ИИ справляется с этим хорошо, и использование его здесь экономит время, ничего не отнимая у вовлечённости автора в материал.
Обнаружение пробелов. «В хронологии нет ни одной записи между 14:46 и 15:12. Что происходило в этот период?» Это полезная подсказка для авторов-людей, а не замена им.
Перекрёстные ссылки на прошлые инциденты. «За последние полгода ещё три инцидента затрагивали тот же сервис; вот ссылки.» Поиск паттернов по библиотеке прошлых разборов — именно такая механическая работа, для которой ИИ хорошо подходит. (Это требует, чтобы библиотека прошлых разборов реально существовала и была структурирована так, что инструмент может по ней искать, — отдельная проблема, достойная решения ради неё самой.)

ИИ берёт на себя механическую работу, которая поддерживает авторов. Мышление — задача авторов. Как только вы позволяете инструменту думать самому — генерировать факторы влияния, составлять извлечённые уроки, писать нарративную часть — вы автоматизируете большую часть обучения, и, пожалуй, самую ценную его часть.

Правильный вопрос для руководителя

Если вы инженерный руководитель и оцениваете ИИ-инструмент, который обещает помочь с разбором инцидентов, вопрос не в том, «производит ли этот инструмент хорошо выглядящий документ быстрее». Все они это делают, но внешний вид не должен быть вашим критерием. Гораздо более точный вопрос: «Поддерживает ли этот инструмент моих инженеров в процессе написания — или заменяет их в нём?»

Инструменты первой категории экономят реальное время на тех частях работы, которые не производят обучения. Инструменты второй категории избавляют ваших инженеров от той самой деятельности, ради которой разбор инцидентов существует. Они дают вам красивый артефакт и пустой опыт. Одни и те же инциденты продолжают происходить, но зато у вас теперь быстрый конвейер для галочки «Разбор инцидента написан».

Вот полезный способ это осмыслить: можно выбросить документ разбора инцидента сразу после написания — и всё равно получить подавляющую часть ценности процесса. Документ похож на записи на доске после продуктивной рабочей сессии: интересные, да, и, пожалуй, стоит сфотографировать, — но настоящая ценность уходит из комнаты в головах тех, кто там был. Выбрасывать его на самом деле не нужно (документ выполняет реальную работу — сразу и со временем, как часть библиотеки прошлых разборов), но понимание того, что вы могли бы это сделать, — правильная точка отсчёта для размышления о том, какие инструменты по-настоящему помогают процессу, а какие тихо выхолащивают его изнутри.

ИИ может создать красиво выглядящий документ разбора инцидента, но только ваши инженеры способны создать понимание, стоящее за по-настоящему хорошим разбором. Берите инструменты, которые поддерживают это различие; те, что его игнорируют, оставят вас с кипой отполированных артефактов — и без какого-либо реального обучения.

ИИ в разборе инцидентов: документ без понимания

Три уровня обучения

Что делает ИИ с каждым из уровней

Где ИИ действительно помогает

Правильный вопрос для руководителя

Похожее