Очистка и дедупликация данных
Гермес чистит и дедуплицирует данные: находит дубли, нормализует форматы, заполняет пропуски по правилам и помечает аномалии. Решения и рассылки строятся на чистых данных, а не на мусоре.
Как это происходит — процесс по шагам
Схема запускается сама и идёт по кругу. Нажмите на любой шаг — чтобы остановиться и прочитать его подробнее.
Сколько это приносит — формула Q × P
Q — пакет записей/мес (атомарных единиц процесса). P — деньги на одной единице (снижение ошибок). Эффект = Q × P за месяц.
Малая · до ~50 человек
200 × 60 ₽
12 тыс ₽/мес
Средняя · ~50–500 человек
2 000 × 80 ₽
160 тыс ₽/мес
Крупная · 500+ человек
16 000 × 100 ₽
1.6 млн ₽/мес
Спецификация сценария (по Вигерсу)
- ID сценария
- HERMES-UC-090
- Название
- Очистка и дедупликация данных
- Действующее лицо
- Аналитик / дата-инженер
- Заинтересованные стороны
- Аналитик — чистые данные для анализа
- Маркетинг — корректные рассылки
- Бизнес — меньше ошибок из-за кривых данных
- Предусловия
- Доступ к данным
- Заданы правила нормализации и дедупликации
- Триггер
- Поступила партия данных на очистку
- Основной сценарий
- 1.Гермес находит и сливает дубликаты.
- 2.Нормализует форматы и исправляет ошибки.
- 3.Заполняет пропуски по правилам.
- 4.Помечает аномалии для проверки человеком.
- Расширения и исключения
- 1aНеоднозначный дубль — не сливается автоматически, помечается.
- 3aНет надёжного правила заполнения — поле остаётся пустым с пометкой.
- Постусловия
- Данные очищены и нормализованы
- Спорное под контролем человека
- Бизнес-правила
- Автослияние — только при высокой уверенности
- Исходные данные сохраняются
- Частота
- По партиям/регулярно
- Допущения
- Правила очистки заданы
Операционная модель — стоимость владения за 3 года
Совокупная стоимость владения (TCO) за 36 месяцев против эффекта Q × P. Числа выше — по облачным ценам токенов OpenRouter (модель уровня сценария — Gemini 3 Flash Preview), инференс учтён отдельной строкой. Инфраструктура и надзор делятся на все сценарии — здесь показана доля, относимая на этот; для одного отдельного сценария на своём сервере она была бы выше. Самообучение удешевляет токены по годам, эффект выходит на полную мощность не сразу. Лицензия Гермеса — 0 ₽ (MIT); self-hosting на своих весах меняет плату за токены на GPU и электричество. Числа — оценка для прикидки, не оферта.
Малая · до ~50 человек
TCO 3 года
112 тыс ₽
Эффект 3 года
396 тыс ₽
Чистыми
284 тыс ₽
ROI
3.5×
Окупаемость
4 мес
| Год | Затраты | Эффект | Чистыми |
|---|---|---|---|
| 1 | 51 тыс ₽ | 101 тыс ₽ | 50 тыс ₽ |
| 2 | 31 тыс ₽ | 144 тыс ₽ | 113 тыс ₽ |
| 3 | 30 тыс ₽ | 151 тыс ₽ | 121 тыс ₽ |
| Итого | 112 тыс ₽ | 396 тыс ₽ | 284 тыс ₽ |
Из чего складывается в месяц: инфраструктура 600 ₽ (доля общей установки) · инференс 286 ₽ · надзор 2 тыс ₽ (доля) · плюс внедрение 20 тыс ₽ разово · лицензия ПО 0 ₽ (MIT). Оценка.
Средняя · ~50–500 человек
TCO 3 года
443 тыс ₽
Эффект 3 года
5.3 млн ₽
Чистыми
4.8 млн ₽
ROI
11.9×
Окупаемость
1 мес
| Год | Затраты | Эффект | Чистыми |
|---|---|---|---|
| 1 | 189 тыс ₽ | 1.3 млн ₽ | 1.2 млн ₽ |
| 2 | 129 тыс ₽ | 1.9 млн ₽ | 1.8 млн ₽ |
| 3 | 125 тыс ₽ | 2.0 млн ₽ | 1.9 млн ₽ |
| Итого | 443 тыс ₽ | 5.3 млн ₽ | 4.8 млн ₽ |
Из чего складывается в месяц: инфраструктура 2 тыс ₽ (доля общей установки) · инференс 3 тыс ₽ · надзор 7 тыс ₽ (доля) · плюс внедрение 55 тыс ₽ разово · лицензия ПО 0 ₽ (MIT). Оценка.
Крупная · 500+ человек
TCO 3 года
2.0 млн ₽
Эффект 3 года
53 млн ₽
Чистыми
51 млн ₽
ROI
26.8×
Окупаемость
1 мес
| Год | Затраты | Эффект | Чистыми |
|---|---|---|---|
| 1 | 773 тыс ₽ | 13 млн ₽ | 13 млн ₽ |
| 2 | 611 тыс ₽ | 19 млн ₽ | 19 млн ₽ |
| 3 | 584 тыс ₽ | 20 млн ₽ | 20 млн ₽ |
| Итого | 2.0 млн ₽ | 53 млн ₽ | 51 млн ₽ |
Из чего складывается в месяц: инфраструктура 5 тыс ₽ (доля общей установки) · инференс 23 тыс ₽ · надзор 27 тыс ₽ (доля) · плюс внедрение 120 тыс ₽ разово · лицензия ПО 0 ₽ (MIT). Оценка.