90·Данные и BI·Инструменты

Очистка и дедупликация данных

Гермес чистит и дедуплицирует данные: находит дубли, нормализует форматы, заполняет пропуски по правилам и помечает аномалии. Решения и рассылки строятся на чистых данных, а не на мусоре.

Как это происходит — процесс по шагам

1Данные2Дубли3Нормализация4Пропуски5Флаги

Схема запускается сама и идёт по кругу. Нажмите на любой шаг — чтобы остановиться и прочитать его подробнее.

Сколько это приносит — формула Q × P

Q — пакет записей/мес (атомарных единиц процесса). P — деньги на одной единице (снижение ошибок). Эффект = Q × P за месяц.

Вывод P: P = устранённый дубль/ошибка × цена кривого решения

Малая · до ~50 человек

200 × 60

12 тыс ₽/мес

Средняя · ~50–500 человек

2 000 × 80

160 тыс ₽/мес

Крупная · 500+ человек

16 000 × 100

1.6 млн ₽/мес

Спецификация сценария (по Вигерсу)

ID сценария
HERMES-UC-090
Название
Очистка и дедупликация данных
Действующее лицо
Аналитик / дата-инженер
Заинтересованные стороны
  • Аналитик — чистые данные для анализа
  • Маркетинг — корректные рассылки
  • Бизнес — меньше ошибок из-за кривых данных
Предусловия
  • Доступ к данным
  • Заданы правила нормализации и дедупликации
Триггер
Поступила партия данных на очистку
Основной сценарий
  1. 1.Гермес находит и сливает дубликаты.
  2. 2.Нормализует форматы и исправляет ошибки.
  3. 3.Заполняет пропуски по правилам.
  4. 4.Помечает аномалии для проверки человеком.
Расширения и исключения
  • 1aНеоднозначный дубль — не сливается автоматически, помечается.
  • 3aНет надёжного правила заполнения — поле остаётся пустым с пометкой.
Постусловия
  • Данные очищены и нормализованы
  • Спорное под контролем человека
Бизнес-правила
  • Автослияние — только при высокой уверенности
  • Исходные данные сохраняются
Частота
По партиям/регулярно
Допущения
  • Правила очистки заданы

Операционная модель — стоимость владения за 3 года

Совокупная стоимость владения (TCO) за 36 месяцев против эффекта Q × P. Числа выше — по облачным ценам токенов OpenRouter (модель уровня сценария — Gemini 3 Flash Preview), инференс учтён отдельной строкой. Инфраструктура и надзор делятся на все сценарии — здесь показана доля, относимая на этот; для одного отдельного сценария на своём сервере она была бы выше. Самообучение удешевляет токены по годам, эффект выходит на полную мощность не сразу. Лицензия Гермеса — 0 ₽ (MIT); self-hosting на своих весах меняет плату за токены на GPU и электричество. Числа — оценка для прикидки, не оферта.

Малая · до ~50 человек

TCO 3 года

112 тыс ₽

Эффект 3 года

396 тыс ₽

Чистыми

284 тыс ₽

ROI

3.5×

Окупаемость

4 мес

ГодЗатратыЭффектЧистыми
151 тыс ₽101 тыс ₽50 тыс ₽
231 тыс ₽144 тыс ₽113 тыс ₽
330 тыс ₽151 тыс ₽121 тыс ₽
Итого112 тыс ₽396 тыс ₽284 тыс ₽

Из чего складывается в месяц: инфраструктура 600 ₽ (доля общей установки) · инференс 286 ₽ · надзор 2 тыс ₽ (доля) · плюс внедрение 20 тыс ₽ разово · лицензия ПО 0 ₽ (MIT). Оценка.

Средняя · ~50–500 человек

TCO 3 года

443 тыс ₽

Эффект 3 года

5.3 млн ₽

Чистыми

4.8 млн ₽

ROI

11.9×

Окупаемость

1 мес

ГодЗатратыЭффектЧистыми
1189 тыс ₽1.3 млн ₽1.2 млн ₽
2129 тыс ₽1.9 млн ₽1.8 млн ₽
3125 тыс ₽2.0 млн ₽1.9 млн ₽
Итого443 тыс ₽5.3 млн ₽4.8 млн ₽

Из чего складывается в месяц: инфраструктура 2 тыс ₽ (доля общей установки) · инференс 3 тыс ₽ · надзор 7 тыс ₽ (доля) · плюс внедрение 55 тыс ₽ разово · лицензия ПО 0 ₽ (MIT). Оценка.

Крупная · 500+ человек

TCO 3 года

2.0 млн ₽

Эффект 3 года

53 млн ₽

Чистыми

51 млн ₽

ROI

26.8×

Окупаемость

1 мес

ГодЗатратыЭффектЧистыми
1773 тыс ₽13 млн ₽13 млн ₽
2611 тыс ₽19 млн ₽19 млн ₽
3584 тыс ₽20 млн ₽20 млн ₽
Итого2.0 млн ₽53 млн ₽51 млн ₽

Из чего складывается в месяц: инфраструктура 5 тыс ₽ (доля общей установки) · инференс 23 тыс ₽ · надзор 27 тыс ₽ (доля) · плюс внедрение 120 тыс ₽ разово · лицензия ПО 0 ₽ (MIT). Оценка.