OpenSRE: open-source AI-агент для расследования инцидентов

Почему OpenSRE?

Когда в продакшне что-то ломается, следы инцидента разбросаны по логам, метрикам, трейсам, рунбукам и тредам в Slack. OpenSRE — это open-source-фреймворк для AI SRE-агентов, расследующих инциденты в продакшне и работающих на вашей собственной инфраструктуре.

Идея возникла из наблюдения: SWE-bench<sup>1</sup> дал агентам для написания кода масштабируемые обучающие данные и чёткую обратную связь, тогда как реагирование на производственные инциденты до сих пор лишено аналогичного эквивалента.

Распределённые сбои медленнее, «шумнее» и куда сложнее симулировать и оценивать, чем локальные задачи с кодом, — именно поэтому AI SRE и применение искусственного интеллекта для отладки в продакшне в целом остаются нерешёнными задачами.

OpenSRE строит этот недостающий слой:

среда обучения с подкреплением (reinforcement learning) с открытым исходным кодом для агентного реагирования на инфраструктурные инциденты — с end-to-end-тестами и синтетическими симуляциями инцидентов для реалистичного воспроизведения сбоев в продакшне.

Для этого мы:

  • создаём простые в развёртывании и настраиваемые AI SRE-агенты для расследования инцидентов в продакшне и реагирования на них;

  • запускаем оцениваемые синтетические RCA-сценарии (root cause analysis, анализ первопричин), проверяющие точность определения корневой причины, полноту собранных доказательств и устойчивость к намеренно ложным следам tests/synthetic;

  • проводим реальные end-to-end-тесты в облачных сценариях, включая Kubernetes, EC2, CloudWatch, Lambda, ECS Fargate и Flink tests/e2e;

  • используем семантическое именование тест-каталогов, чтобы границы между e2e и синтетическими тестами, а также локальными и облачными сценариями оставались очевидными tests/README.md.

Наша миссия — построить на этой основе AI SRE-агентов, масштабировать среду до тысяч реалистичных сценариев инфраструктурных сбоев и утвердить OpenSRE как эталонный бенчмарк и полигон для обучения AI SRE.


Установка

Корневой URL установщика автоматически определяет оболочку — Unix shell или PowerShell. Добавьте флаг --main, если нужна последняя сборка из ветки main, а не последний стабильный релиз.

Последний стабильный релиз:

curl -fsSL https://install.opensre.com | bash

Последняя сборка из main:

curl -fsSL https://install.opensre.com | bash -s -- --main

Homebrew:

brew tap tracer-cloud/tap
brew install tracer-cloud/tap/opensre

Windows (PowerShell):

irm https://install.opensre.com | iex

Быстрый старт

Настройте окружение один раз, а затем выбирайте удобный способ запуска расследований:

opensre onboard

Интерактивная оболочка — если не указать подкоманду, opensre запускает REPL (требуется TTY). Описывайте инциденты на естественном языке, наблюдайте за ходом расследования в потоковом режиме и пользуйтесь slash-командами: /help, /status, /clear, /reset, /trust, /effort, /exit. Команда /effort задаёт глубину рассуждений для провайдеров OpenAI и Codex (low, medium, high, xhigh или max; остальные провайдеры игнорируют этот параметр). Ctrl+C отменяет текущее расследование, не теряя состояние сессии.

opensre

Одиночное расследование — запустить агента однократно для анализа файла с алертом:

opensre investigate -i tests/e2e/kubernetes/fixtures/datadog_k8s_alert.json

Другие полезные команды:

opensre update
opensre uninstall   # удалить opensre и все локальные данные

Развёртывание

Разверните OpenSRE как стандартную Python/FastAPI-службу, используя Dockerfile из репозитория или управляемый хостинг — Railway, EC2, ECS или Vercel. Задайте переменную LLM_PROVIDER и соответствующий API-ключ (см. .env.example); при размещении на хостинге с постоянным хранилищем также укажите DATABASE_URI и REDIS_URI.


Как работает OpenSRE

Когда срабатывает алерт, OpenSRE автоматически:

  1. Собирает контекст алерта и связанные логи, метрики и трейсы.

  2. Анализирует данные из всех подключённых систем для выявления аномалий.

  3. Формирует структурированный отчёт о расследовании с указанием вероятной корневой причины.

  4. Предлагает следующие шаги и при необходимости выполняет действия по устранению проблемы.

  5. Публикует сводку прямо в Slack или PagerDuty — без необходимости переключаться между инструментами.

Актуальная архитектура агента на уровне кода (после удаления старых слоёв на основе графов и цепочек) описана в AGENT_ARCHITECTURE.md.


Бенчмарк

Пересчитайте результаты командой make benchmark; обновите таблицу из кэшированных результатов командой make benchmark-update-readme. Подробности — в docs/DEVELOPMENT.md.

Результаты бенчмарка пока отсутствуют.


Возможности и интеграции

🔍 Структурированное расследование инцидентов

Коррелированный анализ первопричин по всем вашим сигналам

📋 Учёт рунбуков при анализе

OpenSRE читает ваши рунбуки и автоматически применяет их

🔮 Предиктивное обнаружение сбоев

Выявляет нарастающие проблемы до того, как они вас разбудят

🔗 Корневая причина с подтверждёнными доказательствами

Каждый вывод подкреплён ссылкой на данные

🤖 Полная гибкость в выборе LLM

Используйте свою модель — Anthropic, OpenAI, Ollama, Gemini, OpenRouter, NVIDIA NIM

OpenSRE подключается к 60+ инструментам: LLM-провайдерам, платформам наблюдаемости (observability), облачной инфраструктуре, дата-платформам, системам управления инцидентами и MCP. Полная матрица (со ссылками на дорожную карту) размещена в документации продукта; детальный каталог также ведётся в репозитории по мере роста проекта.


Интеграции

OpenSRE подключается к 60+ инструментам и сервисам современного облачного стека — от LLM-провайдеров и платформ наблюдаемости до инфраструктуры, баз данных и систем управления инцидентами.

Категория Интеграции В планах

AI / LLM-провайдеры

Anthropic · OpenAI · Ollama · Google Gemini · OpenRouter · NVIDIA NIM · Bedrock

Наблюдаемость

Grafana (Loki · Mimir · Tempo) · Datadog · Honeycomb · Coralogix · CloudWatch · Sentry · Elasticsearch · Better Stack Telemetry

Splunk · New Relic · Victoria Logs

Инфраструктура

Kubernetes · AWS (S3 · Lambda · EKS · EC2 · Bedrock) · GCP · Azure

Helm · ArgoCD

Базы данных

MongoDB · ClickHouse · PostgreSQL · MySQL · MariaDB · MongoDB Atlas · Azure SQL · Snowflake

RDS

Дата-платформы

Apache Airflow · Apache Kafka · Apache Spark · Prefect · RabbitMQ

Инструменты разработки

GitHub · GitHub MCP · Bitbucket · GitLab

Управление инцидентами

PagerDuty · Opsgenie · Jira · Alertmanager

Trello · ServiceNow · incident.io · Linear

Коммуникации

Slack · Google Docs · Discord · Telegram

Notion · Teams · WhatsApp · Confluence

Развёртывание агентов

Vercel · EC2 · ECS · Railway

Протоколы

MCP · ACP · OpenClaw

OpenSRE создаётся усилиями сообщества. Ищете хорошую первую задачу? Загляните в тикеты с меткой good first issue или прочтите руководство по первым задачам. Полный рабочий процесс описан в CONTRIBUTING.md.

Локальное окружение: SETUP.md (все платформы, Windows, MCP/OpenClaw).

Разработка в этом репозитории: docs/DEVELOPMENT.md (установка из исходников, проверки соответствия CI, dev-контейнер, бенчмарк, детали развёртывания, справочник по телеметрии).


Безопасность

OpenSRE разработан с учётом требований продакшн-окружений: структурированные и аудируемые LLM-промпты, обработка транскриптов локально по умолчанию, никакой скрытой массовой выгрузки сырых логов. Порядок ответственного раскрытия уязвимостей описан в SECURITY.md.


Телеметрия

PostHog (продуктовая аналитика) и Sentry (ошибки) подключены по умолчанию и отключаются вручную. Быстрое отключение:

export OPENSRE_NO_TELEMETRY=1

Лицензия

Apache 2.0 — см. LICENSE.

Ссылки

© 2026 meganuke