Почему OpenSRE?
Когда в продакшне что-то ломается, следы инцидента разбросаны по логам, метрикам, трейсам, рунбукам и тредам в Slack. OpenSRE — это open-source-фреймворк для AI SRE-агентов, расследующих инциденты в продакшне и работающих на вашей собственной инфраструктуре.
Идея возникла из наблюдения: SWE-bench<sup>1</sup> дал агентам для написания кода масштабируемые обучающие данные и чёткую обратную связь, тогда как реагирование на производственные инциденты до сих пор лишено аналогичного эквивалента.
Распределённые сбои медленнее, «шумнее» и куда сложнее симулировать и оценивать, чем локальные задачи с кодом, — именно поэтому AI SRE и применение искусственного интеллекта для отладки в продакшне в целом остаются нерешёнными задачами.
OpenSRE строит этот недостающий слой:
среда обучения с подкреплением (reinforcement learning) с открытым исходным кодом для агентного реагирования на инфраструктурные инциденты — с end-to-end-тестами и синтетическими симуляциями инцидентов для реалистичного воспроизведения сбоев в продакшне.
Для этого мы:
-
создаём простые в развёртывании и настраиваемые AI SRE-агенты для расследования инцидентов в продакшне и реагирования на них;
-
запускаем оцениваемые синтетические RCA-сценарии (root cause analysis, анализ первопричин), проверяющие точность определения корневой причины, полноту собранных доказательств и устойчивость к намеренно ложным следам tests/synthetic;
-
проводим реальные end-to-end-тесты в облачных сценариях, включая Kubernetes, EC2, CloudWatch, Lambda, ECS Fargate и Flink tests/e2e;
-
используем семантическое именование тест-каталогов, чтобы границы между e2e и синтетическими тестами, а также локальными и облачными сценариями оставались очевидными tests/README.md.
Наша миссия — построить на этой основе AI SRE-агентов, масштабировать среду до тысяч реалистичных сценариев инфраструктурных сбоев и утвердить OpenSRE как эталонный бенчмарк и полигон для обучения AI SRE.
<sup>1</sup> https://arxiv.org/abs/2310.06770
Установка
Корневой URL установщика автоматически определяет оболочку — Unix shell или PowerShell. Добавьте флаг --main, если нужна последняя сборка из ветки main, а не последний стабильный релиз.
Последний стабильный релиз:
curl -fsSL https://install.opensre.com | bash
Последняя сборка из main:
curl -fsSL https://install.opensre.com | bash -s -- --main
Homebrew:
brew tap tracer-cloud/tap
brew install tracer-cloud/tap/opensre
Windows (PowerShell):
irm https://install.opensre.com | iex
Быстрый старт
Настройте окружение один раз, а затем выбирайте удобный способ запуска расследований:
opensre onboard
Интерактивная оболочка — если не указать подкоманду, opensre запускает REPL (требуется TTY). Описывайте инциденты на естественном языке, наблюдайте за ходом расследования в потоковом режиме и пользуйтесь slash-командами: /help, /status, /clear, /reset, /trust, /effort, /exit. Команда /effort задаёт глубину рассуждений для провайдеров OpenAI и Codex (low, medium, high, xhigh или max; остальные провайдеры игнорируют этот параметр). Ctrl+C отменяет текущее расследование, не теряя состояние сессии.
opensre
Одиночное расследование — запустить агента однократно для анализа файла с алертом:
opensre investigate -i tests/e2e/kubernetes/fixtures/datadog_k8s_alert.json
Другие полезные команды:
opensre update
opensre uninstall # удалить opensre и все локальные данные
Развёртывание
Разверните OpenSRE как стандартную Python/FastAPI-службу, используя Dockerfile из репозитория или управляемый хостинг — Railway, EC2, ECS или Vercel. Задайте переменную LLM_PROVIDER и соответствующий API-ключ (см. .env.example); при размещении на хостинге с постоянным хранилищем также укажите DATABASE_URI и REDIS_URI.
Как работает OpenSRE
Когда срабатывает алерт, OpenSRE автоматически:
-
Собирает контекст алерта и связанные логи, метрики и трейсы.
-
Анализирует данные из всех подключённых систем для выявления аномалий.
-
Формирует структурированный отчёт о расследовании с указанием вероятной корневой причины.
-
Предлагает следующие шаги и при необходимости выполняет действия по устранению проблемы.
-
Публикует сводку прямо в Slack или PagerDuty — без необходимости переключаться между инструментами.
Актуальная архитектура агента на уровне кода (после удаления старых слоёв на основе графов и цепочек) описана в AGENT_ARCHITECTURE.md.
Бенчмарк
Пересчитайте результаты командой make benchmark; обновите таблицу из кэшированных результатов командой make benchmark-update-readme. Подробности — в docs/DEVELOPMENT.md.
Результаты бенчмарка пока отсутствуют.
Возможности и интеграции
🔍 Структурированное расследование инцидентов |
Коррелированный анализ первопричин по всем вашим сигналам |
📋 Учёт рунбуков при анализе |
OpenSRE читает ваши рунбуки и автоматически применяет их |
🔮 Предиктивное обнаружение сбоев |
Выявляет нарастающие проблемы до того, как они вас разбудят |
🔗 Корневая причина с подтверждёнными доказательствами |
Каждый вывод подкреплён ссылкой на данные |
🤖 Полная гибкость в выборе LLM |
Используйте свою модель — Anthropic, OpenAI, Ollama, Gemini, OpenRouter, NVIDIA NIM |
OpenSRE подключается к 60+ инструментам: LLM-провайдерам, платформам наблюдаемости (observability), облачной инфраструктуре, дата-платформам, системам управления инцидентами и MCP. Полная матрица (со ссылками на дорожную карту) размещена в документации продукта; детальный каталог также ведётся в репозитории по мере роста проекта.
Интеграции
OpenSRE подключается к 60+ инструментам и сервисам современного облачного стека — от LLM-провайдеров и платформ наблюдаемости до инфраструктуры, баз данных и систем управления инцидентами.
| Категория | Интеграции | В планах |
|---|---|---|
AI / LLM-провайдеры |
Anthropic · OpenAI · Ollama · Google Gemini · OpenRouter · NVIDIA NIM · Bedrock |
|
Наблюдаемость |
Grafana (Loki · Mimir · Tempo) · Datadog · Honeycomb · Coralogix · CloudWatch · Sentry · Elasticsearch · Better Stack Telemetry |
|
Инфраструктура |
Kubernetes · AWS (S3 · Lambda · EKS · EC2 · Bedrock) · GCP · Azure |
|
Базы данных |
MongoDB · ClickHouse · PostgreSQL · MySQL · MariaDB · MongoDB Atlas · Azure SQL · Snowflake |
|
Дата-платформы |
Apache Airflow · Apache Kafka · Apache Spark · Prefect · RabbitMQ |
|
Инструменты разработки |
GitHub · GitHub MCP · Bitbucket · GitLab |
|
Управление инцидентами |
PagerDuty · Opsgenie · Jira · Alertmanager |
Trello · ServiceNow · incident.io · Linear |
Коммуникации |
Slack · Google Docs · Discord · Telegram |
Notion · Teams · WhatsApp · Confluence |
Развёртывание агентов |
Vercel · EC2 · ECS · Railway |
|
Протоколы |
MCP · ACP · OpenClaw |
OpenSRE создаётся усилиями сообщества. Ищете хорошую первую задачу? Загляните в тикеты с меткой good first issue или прочтите руководство по первым задачам. Полный рабочий процесс описан в CONTRIBUTING.md.
Локальное окружение: SETUP.md (все платформы, Windows, MCP/OpenClaw).
Разработка в этом репозитории: docs/DEVELOPMENT.md (установка из исходников, проверки соответствия CI, dev-контейнер, бенчмарк, детали развёртывания, справочник по телеметрии).
Безопасность
OpenSRE разработан с учётом требований продакшн-окружений: структурированные и аудируемые LLM-промпты, обработка транскриптов локально по умолчанию, никакой скрытой массовой выгрузки сырых логов. Порядок ответственного раскрытия уязвимостей описан в SECURITY.md.
Телеметрия
PostHog (продуктовая аналитика) и Sentry (ошибки) подключены по умолчанию и отключаются вручную. Быстрое отключение:
export OPENSRE_NO_TELEMETRY=1
Лицензия
Apache 2.0 — см. LICENSE.
Ссылки
<sup>1</sup> https://arxiv.org/abs/2310.06770