66·ИТ и разработка·Расписание

Мониторинг и авто-перезапуск упавших джоб

Гермес мониторит фоновые задачи и джобы, безопасно перезапускает упавшие по раннбуку и эскалирует устойчивые сбои. Пайплайны и регламентные задания не «висят» до утра незамеченными.

Как это происходит — процесс по шагам

1Мониторинг2Сбой3Действие4Эскалация5Учёт

Схема запускается сама и идёт по кругу. Нажмите на любой шаг — чтобы остановиться и прочитать его подробнее.

Сколько это приносит — формула Q × P

Q — инцидент/мес (атомарных единиц процесса). P — деньги на одной единице (снижение ошибок). Эффект = Q × P за месяц.

Вывод P: P = сокращение простоя пайплайна × стоимость

Малая · до ~50 человек

60 × 300

18 тыс ₽/мес

Средняя · ~50–500 человек

500 × 450

225 тыс ₽/мес

Крупная · 500+ человек

4 000 × 650

2.6 млн ₽/мес

Спецификация сценария (по Вигерсу)

ID сценария
HERMES-UC-066
Название
Мониторинг и авто-перезапуск упавших джоб
Действующее лицо
DevOps / дежурный инженер
Заинтересованные стороны
  • DevOps — стабильные пайплайны
  • Бизнес — регламентные задачи выполняются
  • Команда — меньше ночных разборов
Предусловия
  • Доступ к оркестратору джоб
  • Заданы раннбуки и лимиты автодействий
Триггер
Джоба упала или зависла
Основной сценарий
  1. 1.Гермес отслеживает состояние фоновых задач.
  2. 2.Обнаруживает упавшую/зависшую джобу.
  3. 3.Безопасно перезапускает по раннбуку (в пределах разрешённого).
  4. 4.При устойчивом сбое эскалирует дежурному.
  5. 5.Запоминает частые сбои для улучшения процессов.
Расширения и исключения
  • 3aЛимит перезапусков исчерпан — стоп и эскалация.
  • 3bСбой влияет на данные — без автодействий, сразу человек.
Постусловия
  • Упавшие джобы перезапущены или эскалированы
  • Простой пайплайна сокращён
Бизнес-правила
  • Перечень безопасных автодействий ограничен
  • Рискованное — только человеку
Частота
Непрерывно, по потоку джоб
Допущения
  • Оркестратор доступен агенту

Операционная модель — стоимость владения за 3 года

Совокупная стоимость владения (TCO) за 36 месяцев против эффекта Q × P. Числа выше — по облачным ценам токенов OpenRouter (модель уровня сценария — DeepSeek V4 Flash), инференс учтён отдельной строкой. Инфраструктура и надзор делятся на все сценарии — здесь показана доля, относимая на этот; для одного отдельного сценария на своём сервере она была бы выше. Самообучение удешевляет токены по годам, эффект выходит на полную мощность не сразу. Лицензия Гермеса — 0 ₽ (MIT); self-hosting на своих весах меняет плату за токены на GPU и электричество. Числа — оценка для прикидки, не оферта.

Малая · до ~50 человек

TCO 3 года

97 тыс ₽

Эффект 3 года

594 тыс ₽

Чистыми

497 тыс ₽

ROI

6.1×

Окупаемость

2 мес

ГодЗатратыЭффектЧистыми
146 тыс ₽151 тыс ₽106 тыс ₽
226 тыс ₽216 тыс ₽190 тыс ₽
326 тыс ₽227 тыс ₽201 тыс ₽
Итого97 тыс ₽594 тыс ₽497 тыс ₽

Из чего складывается в месяц: инфраструктура 600 ₽ (доля общей установки) · инференс 3 ₽ · надзор 2 тыс ₽ (доля) · плюс внедрение 20 тыс ₽ разово · лицензия ПО 0 ₽ (MIT). Оценка.

Средняя · ~50–500 человек

TCO 3 года

292 тыс ₽

Эффект 3 года

7.4 млн ₽

Чистыми

7.1 млн ₽

ROI

25.5×

Окупаемость

1 мес

ГодЗатратыЭффектЧистыми
1134 тыс ₽1.9 млн ₽1.8 млн ₽
279 тыс ₽2.7 млн ₽2.6 млн ₽
379 тыс ₽2.8 млн ₽2.8 млн ₽
Итого292 тыс ₽7.4 млн ₽7.1 млн ₽

Из чего складывается в месяц: инфраструктура 2 тыс ₽ (доля общей установки) · инференс 26 ₽ · надзор 5 тыс ₽ (доля) · плюс внедрение 55 тыс ₽ разово · лицензия ПО 0 ₽ (MIT). Оценка.

Крупная · 500+ человек

TCO 3 года

757 тыс ₽

Эффект 3 года

86 млн ₽

Чистыми

85 млн ₽

ROI

113.4×

Окупаемость

1 мес

ГодЗатратыЭффектЧистыми
1333 тыс ₽22 млн ₽22 млн ₽
2212 тыс ₽31 млн ₽31 млн ₽
3212 тыс ₽33 млн ₽33 млн ₽
Итого757 тыс ₽86 млн ₽85 млн ₽

Из чего складывается в месяц: инфраструктура 5 тыс ₽ (доля общей установки) · инференс 211 ₽ · надзор 13 тыс ₽ (доля) · плюс внедрение 120 тыс ₽ разово · лицензия ПО 0 ₽ (MIT). Оценка.