AI контроль качества звонков: как работает система Medivey

Почему ручной контроль качества не масштабируется

Один оператор контроля качества (ОКК) может прослушать и оценить 25-30 звонков за рабочий день. Каждый звонок — это 4-7 минут записи, плюс время на заполнение отчета, сверку с требованиями проекта и классификацию нарушений. При потоке в 200-300 переводов в день ручной контроль покрывает 10-15% объема. Остальное проходит без проверки.

В Medivey через систему прошло более 55 000 переводов. При таком объеме выборочная проверка перестает работать: нарушения, которые не попали в выборку, создают расхождения с застройщиком и потерю бюджета. Нам нужен был способ проверять каждый звонок, а не каждый десятый.

Мы построили пайплайн AI контроля качества звонков, который анализирует каждый перевод автоматически: от записи до отчета о нарушении. Ниже — техническое описание каждого шага.

Шаг 1: запись и транскрипция звонка

Откуда берутся записи

Каждый перевод фиксируется телефонией. Мы работаем с несколькими провайдерами SIP-телефонии — основной объем идет через UIS. Система автоматически скачивает аудиозапись по API провайдера сразу после завершения звонка. Записи хранятся в привязке к конкретному переводу: номер, дата, SIP-линия, проект.

Транскрипция: 8 провайдеров, один выбор

Аудиозапись нужно перевести в текст. Мы интегрировали восемь провайдеров транскрипции: OpenAI Whisper, Groq, Deepgram, ElevenLabs Scribe, AssemblyAI, Gladia и другие. Зачем столько? Потому что надежность на потоке важнее, чем идеальная точность одного сервиса.

Основной провайдер — OpenAI Whisper. Он дает лучшее качество распознавания русской речи, особенно на зашумленных записях колл-центра. Но если Whisper недоступен или перегружен, система автоматически переключается на следующего провайдера по приоритету. Groq работает быстрее за счет открытых моделей, Deepgram хорош для коротких записей.

Результат транскрипции — полный текст разговора с таймкодами. Именно с текстом, а не с аудио, работает следующий этап.

Шаг 2: обогащение контекстом — что видит AI помимо текста

Одного текста разговора для оценки качества мало. Оператор ОКК, слушая звонок, держит в голове контекст: требования застройщика, допустимый бюджет, скрипт, который должен отработать оператор. AI нужен тот же контекст, только в явном виде.

Перед анализом система собирает пакет данных по каждому звонку:

Транскрипция разговора — полный текст с метками времени.
Требования к целевому звонку — что именно считается целевым переводом для этого проекта. Критерии различаются: для бизнес-класса в Москве одни параметры, для комфорт-класса в регионе — другие.
Скрипт оператора — какие вопросы оператор обязан задать, какие блоки пройти. Скрипт хранится в системе и конвертируется в структурированный текст для передачи модели.
Актуальные цены проекта — стоимость по типам квартир. Данные подтягиваются автоматически. Это критично для валидации бюджета: если клиент называет бюджет 4 млн, а студии в проекте начинаются от 8 млн, AI фиксирует несоответствие.
История перевода — через какую линию пришел звонок, от какого источника, есть ли предыдущие контакты с этим номером.
Данные из внешних систем — для проектов с ЦИАН и Подбор.ру подтягиваются логи размещений и обращений.

Весь этот пакет формируется автоматически за секунды. AI получает не «голый» текст, а полную картину, которая есть у опытного ОКК-специалиста.

Пайплайн AI-контроля качества: 6 шагов от записи до отчёта

Шаг 3: AI-анализ — три части разговора, три оценки

Модель и параметры

Для анализа мы используем GPT-4o-mini через OpenRouter. Модель выбрана по трем критериям: скорость, стоимость и точность на задачах классификации. GPT-4o-mini обрабатывает запрос за секунды, а не минуты, и при этом дает достаточную точность для структурированного анализа.

Температура генерации — 0.1. Это значит, что модель работает почти детерминированно: одна и та же запись при повторном анализе получит одинаковую оценку. Формат ответа — строго JSON. Модель не пишет свободный текст, а заполняет предопределенную структуру полей.

Трехчастная структура анализа

AI разбирает разговор не как единое целое, а как последовательность трех этапов:

Пресейл — начальная часть разговора, где оператор квалифицирует контакт. AI оценивает, задал ли оператор обязательные вопросы, выявил ли потребность, бюджет, сроки.
Текст перевода — момент, когда оператор передает контакт в отдел продаж застройщика. AI проверяет, корректно ли оператор представил клиента, передал ли ключевые параметры.
Диалог с отделом продаж — разговор менеджера застройщика с клиентом после перевода. AI анализирует, подтвердил ли клиент интерес, соответствуют ли его ответы критериям целевого звонка.

Что AI определяет по каждому звонку

После анализа система формирует набор параметров:

Статус целевости: целевой, нецелевой или предварительно целевой. Ровно один статус на звонок, без неопределенности.
Комментарий оператора: краткое описание того, что произошло в разговоре. Фактология, а не оценка.
Комментарий ОКК: оценка качества перевода и соответствия критериям проекта. Включает параметры клиента — бюджет, тип недвижимости, сроки.
Имя клиента: извлекается из разговора автоматически.
Обнаруженные нарушения: если AI фиксирует отклонение от стандартов, он указывает конкретный код нарушения из предопределенного списка.

Хотите такую же систему лидогенерации?

Покажем рабочий план запуска и контрольные метрики.

Шаг 4: валидация — почему ответ AI проходит проверку

AI-модель генерирует ответ, но мы не берем его на веру без проверки. Между ответом модели и итоговым отчетом стоит слой валидации — набор программных правил, которые ловят ошибки и несоответствия.

Структурная валидация

Ответ модели должен содержать ровно один статус целевости. Если модель вернула два статуса или ни одного — ответ отклоняется. Комментарии оператора и ОКК не могут быть пустыми. Значения полей проверяются на соответствие допустимым вариантам: если модель написала «возможно целевой» вместо «предварительно целевой», система не примет ответ.

Бизнес-валидация

Названный клиентом бюджет сверяется с актуальными ценами проекта. Если клиент говорит о бюджете, который не покрывает ни одного лота в проекте, это фиксируется как несоответствие. Для проектов, размещенных на площадках вроде ЦИАН, проверяется совпадение данных из логов Подбора с информацией из разговора.

Зачем это нужно

Без валидации модель ошибается в 3-5% случаев. На потоке в 1 000 звонков это 30-50 некорректных оценок в месяц. Валидация отлавливает большую часть таких ошибок до того, как они попадут в отчет. Невалидные ответы уходят на повторный анализ или ручную проверку.

Каждый вызов модели логируется: входные данные, ответ, количество токенов, стоимость, время обработки. Полный аудит-трейл хранится в отдельной таблице. Это позволяет анализировать качество работы модели и оптимизировать промпты на основе реальных данных.

Дашборд AI-контроля качества: 55 000 переводов, 2 963 отчёта

Шаг 5: отчеты и уведомления — как нарушения всплывают

Формирование отчета

Если AI обнаруживает нарушение, система автоматически создает отчет о переводе. Отчет включает: идентификатор перевода, код нарушения из классификатора, комментарий AI с объяснением, ссылку на запись, фрагмент транскрипции.

Классификатор нарушений — предопределенный список причин, который формируется совместно с застройщиком. Каждая причина имеет код и описание: «оператор не выявил бюджет», «клиент не подтвердил интерес к покупке», «несоответствие региону проекта» и другие. AI не придумывает причины — он выбирает из утвержденного перечня.

Серьезные нарушения автоматически помечаются флагом, который блокирует оплату за этот перевод. Это защищает бюджет в режиме реального времени, а не по итогам ежемесячной сверки.

Уведомления в Telegram

Как только система создает отчет о нарушении, Telegram-бот отправляет уведомление в рабочий чат. Сообщение содержит: номер отчета, причину нарушения, телефон клиента, ссылку на запись и первые строки транскрипции. Руководитель видит проблему через минуту после завершения звонка, а не через неделю при ручном аудите.

На практике это меняет динамику работы. Если оператор систематически нарушает скрипт, руководитель замечает паттерн в тот же день. Раньше такие проблемы накапливались неделями.

Шаг 6: человек в контуре — почему AI не выносит финальный вердикт

Мягкий режим

Наша система поддерживает два режима работы. В жестком режиме AI-отчеты сразу получают подтвержденный статус и влияют на оплату. В мягком — отчеты создаются со статусом «ожидает подтверждения».

Большинство проектов работают в мягком режиме. Оператор ОКК видит AI-отчет, прослушивает фрагмент записи и подтверждает или отклоняет решение. Это добавляет 2-3 минуты на проверку, но снижает долю ложных срабатываний до уровня ниже 1%.

Обратная связь и обучение системы

Каждое отклонение — это сигнал. Если ОКК регулярно отклоняет AI-отчеты по определенному типу нарушений, мы анализируем причину и корректируем логику анализа. За время работы системы мы провели 12 таких корректировок — от уточнения критериев целевости до изменения порядка обогащения контекстом.

Человек в контуре выполняет три функции: страхует от ошибок модели, калибрует критерии качества и генерирует данные для улучшения системы. Убрать человека полностью — значит потерять обратную связь.

Карточка отчёта AI: результат анализа, нарушение, комментарий

AI берет на себя объем, человек — ответственность за решение. Эта граница принципиальна: автоматизация без контроля создает ложное ощущение качества.

Результаты и экономика AI контроля качества

Цифры за период работы

Система обработала более 55 000 переводов. AI сгенерировал 2 963 отчета о нарушениях. Ежедневный лимит автоматических проверок настраивается на уровне организации — по умолчанию до 30 полных анализов в день на проект, но на крупных проектах лимит увеличен.

Каждый анализ проходит полный цикл: скачивание записи, транскрипция, обогащение контекстом, AI-анализ, валидация, генерация отчета. Среднее время от завершения звонка до готового отчета — 40-90 секунд в зависимости от длительности записи.

Экономика: AI против ОКК

Штатный оператор контроля качества обходится в 80 000 - 120 000 рублей в месяц с учетом налогов и рабочего места. Его производительность — 25-30 звонков в день, около 600 в месяц.

Стоимость AI-анализа одного звонка складывается из транскрипции и запроса к языковой модели. Система ведет точный учет токенов и стоимости по каждому вызову. При текущих ценах API полный анализ одного звонка стоит 15-40 рублей в зависимости от длительности записи. Сравните с ручной проверкой: 600 звонков в месяц на одного ОКК при зарплате 100 000 рублей — это около 170 рублей за звонок.

При этом AI не заменяет человека — он меняет его роль. Вместо прослушивания каждого звонка ОКК-специалист проверяет отчеты AI, разбирает спорные случаи и участвует в калибровке. Один специалист в связке с AI покрывает объем, для которого раньше требовалось четыре-пять человек.

Управление затратами

Автоматический контроль качества можно включить или выключить для каждой организации отдельно. Дневные лимиты защищают от неожиданных расходов на API. Фильтрация по типу источника позволяет анализировать только те переводы, где контроль качества критичен — например, только переводы от внешних подрядчиков.

Что дальше

Система уже работает на потоке, но мы видим три направления развития.

Первое — расширение контекста. Сейчас AI анализирует один звонок изолированно. Следующий шаг — учитывать цепочку: если клиент звонил трижды, анализировать все три разговора как единый кейс.

Второе — предиктивная аналитика. Накопленный массив из тысяч проанализированных звонков позволяет строить модели, которые прогнозируют конверсию перевода еще до его завершения. Ранние сигналы из первых минут разговора коррелируют с итоговым результатом.

Третье — автоматическая калибровка критериев. Сейчас корректировки требований к целевому звонку вносятся вручную. В перспективе система сможет предлагать изменения на основе статистики отклонений, сокращая цикл обратной связи с недели до дня.

AI-контроль качества звонков — не замена живому аудиту, а инструмент, который делает его масштабируемым. 55 000 переводов, 2 963 отчета, полный аудит-трейл по каждому звонку. Технология работает. Вопрос в том, как быстро она станет стандартом отрасли.

Как AI слушает 55 000 звонков: технология контроля качества Medivey