OpenSRE: open-source AI-агент для расследования инцидентов

Почему OpenSRE?

Когда в продакшне что-то ломается, следы инцидента разбросаны по логам, метрикам, трейсам, рунбукам и тредам в Slack. OpenSRE — это open-source-фреймворк для AI SRE-агентов, расследующих инциденты в продакшне и работающих на вашей собственной инфраструктуре.

Идея возникла из наблюдения: SWE-bench¹ дал агентам для написания кода масштабируемые обучающие данные и чёткую обратную связь, тогда как реагирование на производственные инциденты до сих пор лишено аналогичного эквивалента.

Распределённые сбои медленнее, «шумнее» и куда сложнее симулировать и оценивать, чем локальные задачи с кодом, — именно поэтому AI SRE и применение искусственного интеллекта для отладки в продакшне в целом остаются нерешёнными задачами.

OpenSRE строит этот недостающий слой:

среда обучения с подкреплением (reinforcement learning) с открытым исходным кодом для агентного реагирования на инфраструктурные инциденты — с end-to-end-тестами и синтетическими симуляциями инцидентов для реалистичного воспроизведения сбоев в продакшне.

Для этого мы:

создаём простые в развёртывании и настраиваемые AI SRE-агенты для расследования инцидентов в продакшне и реагирования на них;
запускаем оцениваемые синтетические RCA-сценарии (root cause analysis, анализ первопричин), проверяющие точность определения корневой причины, полноту собранных доказательств и устойчивость к намеренно ложным следам tests/synthetic;
проводим реальные end-to-end-тесты в облачных сценариях, включая Kubernetes, EC2, CloudWatch, Lambda, ECS Fargate и Flink tests/e2e;
используем семантическое именование тест-каталогов, чтобы границы между e2e и синтетическими тестами, а также локальными и облачными сценариями оставались очевидными tests/README.md.

Наша миссия — построить на этой основе AI SRE-агентов, масштабировать среду до тысяч реалистичных сценариев инфраструктурных сбоев и утвердить OpenSRE как эталонный бенчмарк и полигон для обучения AI SRE.

¹ https://arxiv.org/abs/2310.06770

Установка

Корневой URL установщика автоматически определяет оболочку — Unix shell или PowerShell. Добавьте флаг --main, если нужна последняя сборка из ветки main, а не последний стабильный релиз.

Последний стабильный релиз:

curl -fsSL https://install.opensre.com | bash

Последняя сборка из main:

curl -fsSL https://install.opensre.com | bash -s -- --main

Homebrew:

brew tap tracer-cloud/tap
brew install tracer-cloud/tap/opensre

Windows (PowerShell):

irm https://install.opensre.com | iex

Быстрый старт

Настройте окружение один раз, а затем выбирайте удобный способ запуска расследований:

opensre onboard

Интерактивная оболочка — если не указать подкоманду, opensre запускает REPL (требуется TTY). Описывайте инциденты на естественном языке, наблюдайте за ходом расследования в потоковом режиме и пользуйтесь slash-командами: /help, /status, /clear, /reset, /trust, /effort, /exit. Команда /effort задаёт глубину рассуждений для провайдеров OpenAI и Codex (low, medium, high, xhigh или max; остальные провайдеры игнорируют этот параметр). Ctrl+C отменяет текущее расследование, не теряя состояние сессии.

opensre

Одиночное расследование — запустить агента однократно для анализа файла с алертом:

opensre investigate -i tests/e2e/kubernetes/fixtures/datadog_k8s_alert.json

Другие полезные команды:

opensre update
opensre uninstall   # удалить opensre и все локальные данные

Развёртывание

Разверните OpenSRE как стандартную Python/FastAPI-службу, используя Dockerfile из репозитория или управляемый хостинг — Railway, EC2, ECS или Vercel. Задайте переменную LLM_PROVIDER и соответствующий API-ключ (см. .env.example); при размещении на хостинге с постоянным хранилищем также укажите DATABASE_URI и REDIS_URI.

Полные инструкции по развёртыванию, заметки по Railway и opensre remote ops → docs/DEVELOPMENT.md

Как работает OpenSRE

Когда срабатывает алерт, OpenSRE автоматически:

Собирает контекст алерта и связанные логи, метрики и трейсы.
Анализирует данные из всех подключённых систем для выявления аномалий.
Формирует структурированный отчёт о расследовании с указанием вероятной корневой причины.
Предлагает следующие шаги и при необходимости выполняет действия по устранению проблемы.
Публикует сводку прямо в Slack или PagerDuty — без необходимости переключаться между инструментами.

Актуальная архитектура агента на уровне кода (после удаления старых слоёв на основе графов и цепочек) описана в AGENT_ARCHITECTURE.md.

Бенчмарк

Пересчитайте результаты командой make benchmark; обновите таблицу из кэшированных результатов командой make benchmark-update-readme. Подробности — в docs/DEVELOPMENT.md.

Результаты бенчмарка пока отсутствуют.

Возможности и интеграции

🔍 Структурированное расследование инцидентов

Коррелированный анализ первопричин по всем вашим сигналам

📋 Учёт рунбуков при анализе

OpenSRE читает ваши рунбуки и автоматически применяет их

🔮 Предиктивное обнаружение сбоев

Выявляет нарастающие проблемы до того, как они вас разбудят

🔗 Корневая причина с подтверждёнными доказательствами

Каждый вывод подкреплён ссылкой на данные

🤖 Полная гибкость в выборе LLM

Используйте свою модель — Anthropic, OpenAI, Ollama, Gemini, OpenRouter, NVIDIA NIM

OpenSRE подключается к 60+ инструментам: LLM-провайдерам, платформам наблюдаемости (observability), облачной инфраструктуре, дата-платформам, системам управления инцидентами и MCP. Полная матрица (со ссылками на дорожную карту) размещена в документации продукта; детальный каталог также ведётся в репозитории по мере роста проекта.

Интеграции

OpenSRE подключается к 60+ инструментам и сервисам современного облачного стека — от LLM-провайдеров и платформ наблюдаемости до инфраструктуры, баз данных и систем управления инцидентами.

Категория	Интеграции	В планах
AI / LLM-провайдеры	Anthropic · OpenAI · Ollama · Google Gemini · OpenRouter · NVIDIA NIM · Bedrock
Наблюдаемость	Grafana (Loki · Mimir · Tempo) · Datadog · Honeycomb · Coralogix · CloudWatch · Sentry · Elasticsearch · Better Stack Telemetry	Splunk · New Relic · Victoria Logs
Инфраструктура	Kubernetes · AWS (S3 · Lambda · EKS · EC2 · Bedrock) · GCP · Azure	Helm · ArgoCD
Базы данных	MongoDB · ClickHouse · PostgreSQL · MySQL · MariaDB · MongoDB Atlas · Azure SQL · Snowflake	RDS
Дата-платформы	Apache Airflow · Apache Kafka · Apache Spark · Prefect · RabbitMQ
Инструменты разработки	GitHub · GitHub MCP · Bitbucket · GitLab
Управление инцидентами	PagerDuty · Opsgenie · Jira · Alertmanager	Trello · ServiceNow · incident.io · Linear
Коммуникации	Slack · Google Docs · Discord · Telegram	Notion · Teams · WhatsApp · Confluence
Развёртывание агентов	Vercel · EC2 · ECS · Railway
Протоколы	MCP · ACP · OpenClaw

Категория

Интеграции

В планах

AI / LLM-провайдеры

Anthropic · OpenAI · Ollama · Google Gemini · OpenRouter · NVIDIA NIM · Bedrock

Наблюдаемость

Grafana (Loki · Mimir · Tempo) · Datadog · Honeycomb · Coralogix · CloudWatch · Sentry · Elasticsearch · Better Stack Telemetry

Splunk · New Relic · Victoria Logs

Инфраструктура

Kubernetes · AWS (S3 · Lambda · EKS · EC2 · Bedrock) · GCP · Azure

Helm · ArgoCD

Базы данных

MongoDB · ClickHouse · PostgreSQL · MySQL · MariaDB · MongoDB Atlas · Azure SQL · Snowflake

RDS

Дата-платформы

Apache Airflow · Apache Kafka · Apache Spark · Prefect · RabbitMQ

Инструменты разработки

GitHub · GitHub MCP · Bitbucket · GitLab

Управление инцидентами

PagerDuty · Opsgenie · Jira · Alertmanager

Trello · ServiceNow · incident.io · Linear

Коммуникации

Slack · Google Docs · Discord · Telegram

Notion · Teams · WhatsApp · Confluence

Развёртывание агентов

Vercel · EC2 · ECS · Railway

Протоколы

MCP · ACP · OpenClaw

OpenSRE создаётся усилиями сообщества. Ищете хорошую первую задачу? Загляните в тикеты с меткой good first issue или прочтите руководство по первым задачам. Полный рабочий процесс описан в CONTRIBUTING.md.

Локальное окружение: SETUP.md (все платформы, Windows, MCP/OpenClaw).

Разработка в этом репозитории: docs/DEVELOPMENT.md (установка из исходников, проверки соответствия CI, dev-контейнер, бенчмарк, детали развёртывания, справочник по телеметрии).

Безопасность

OpenSRE разработан с учётом требований продакшн-окружений: структурированные и аудируемые LLM-промпты, обработка транскриптов локально по умолчанию, никакой скрытой массовой выгрузки сырых логов. Порядок ответственного раскрытия уязвимостей описан в SECURITY.md.

Телеметрия

PostHog (продуктовая аналитика) и Sentry (ошибки) подключены по умолчанию и отключаются вручную. Быстрое отключение:

export OPENSRE_NO_TELEMETRY=1

Полная матрица, переопределение DSN и локальное логирование событий → docs/DEVELOPMENT.md

Лицензия

Apache 2.0 — см. LICENSE.

Ссылки

¹ https://arxiv.org/abs/2310.06770

OpenSRE: open-source AI-агент для расследования инцидентов

Почему OpenSRE?

Установка

Быстрый старт

Развёртывание

Как работает OpenSRE

Бенчмарк

Возможности и интеграции

Интеграции

Безопасность

Телеметрия

Лицензия

Ссылки

Похожее