Яндекс.Метрика

Курс Zabbix: мониторинг Asterisk и VoIP

Курс Zabbix: мониторинг Asterisk и VoIP с 8 сентября по 12 сентября

Количество
свободных мест

8 Записаться

Дистанционные курсы по Asterisk

Дистанционные курсы по Asterisk с 18 августа по 24 августа

Количество
свободных мест

2 Записаться

Курсы по Mikrotik MTCRE

Курсы по Mikrotik MTCRE с 8 декабря по 11 декабря

Количество
свободных мест

6 Записаться
Детекция автоответчиков: робот или человек
54
Доклад
Александр Шимпф
Детекция автоответчиков: робот или человек
скачать презентацию

Детекция автоответчиков: робот или человек

Доклад посвящён одной из современных реализаций системы детектирования автоответчиков (включая ассистентов) в контексте массовой исходящей телефонии на базе решений с использованием Asterisk. Представленный опыт демонстрирует комплексный подход к автоматическому определению автоответчиков с применением акустического анализа, транскрибации речи и идентификации говорящего по голосу.

Актуальность задачи

Автоответчик — полезная функция для абонента, позволяющая оставлять сообщение в случае его недоступности. Однако в рамках массовых исходящих кампаний автоответчики становятся серьёзной проблемой: операторы колл-центров вынуждены тратить значительное время на соединения, не приводящие к контакту с живым человеком. Это существенно снижает общую эффективность системы.

Существует несколько подходов к решению этой проблемы:

  • Финансовый — договориться с операторами связи о деактивации автоответчиков, что представляет собой дорогостоящую услугу.
  • Игнорирование — актуально для компаний с лояльной клиентской базой, готовой терпеть падение соединений на автоответчики.
  • Технический — применение интеллектуального анализа аудиопотока для детектирования автоответчиков.

В рамках проекта был выбран третий путь — создание собственной системы детекции.

Архитектура решения

Основные компоненты системы:

  1. Акустический анализ — предварительная фильтрация аудиозаписей, включая определение полной тишины и расчёт временных и спектральных характеристик сигнала.
  2. Транскрибация речи — распознавание текста на основе аудиозаписи.
  3. Идентификация говорящего — распознавание голоса и его соответствие шаблонам известных автоответчиков.

Эти компоненты не обрабатывают аудио последовательно, а используются в зависимости от типа сигнала и его структуры. Это позволяет минимизировать время отклика системы и повысить эффективность.

Переход от внешних к внутренним решениям

Первоначально для транскрибации использовался сервис Яндекс SpeechKit, однако его минимальный шаг тарификации (15 секунд) делал решение дорогостоящим (до 16 копеек за запрос). Была проведена сравнительная оценка стоимости и скорости работы решений от Яндекса, Тинькофф и Сбера. По итогам сравнения был сделан выбор в пользу Tinkoff Speech API, который обеспечивал приемлемую стоимость и скорость (в среднем 600 мс на запрос). Однако наличие частых пиков задержки (до 1+ секунд) вынудило перейти к реализации собственной системы транскрибации.

В качестве основы был выбран стек NeMo от NVIDIA с моделью STT Fast Conformer, обученной на русскоязычных датасетах. Новая система обеспечила транскрибацию в среднем за 80 мс на запрос. 90% полученных транскрипций оказались достаточными для определения автоответчика на основе ключевых слов.

Обнаружение шаблонов

Было выявлено, что ряд операторов, в частности Тинькофф, используют речевые шаблоны вроде «Алло», «Да, слушаю», «Здравствуйте» в качестве префикса автоответчика. Эти фразы трудно исключить с помощью только распознавания текста. Для решения этой задачи была реализована система идентификации голоса.

На основе библиотеки NeMo использовалась модель Titanet, способная выполнять текст-независимую идентификацию говорящего. Из аудиофайлов извлекаются тензорные отпечатки, которые сравниваются с базой шаблонов автоответчиков. Сравнение 1000 шаблонов занимает порядка 100 мс.

Инфраструктура и отказоустойчивость

Решение развернуто в двух дата-центрах уровня Tier III. Клиентское приложение отправляет аудиофайлы для анализа на доступный сервер, контролируя доступность каждого дата-центра. Ответ содержит:

  • Признак автоответчика;
  • Название сработавшего шаблона;
  • Результаты транскрипции;
  • Акустические параметры.

Решение позволяет обрабатывать запросы с АТС любых производителей через API. Средняя задержка обработки запроса составляет 160 мс.

Сбор и поддержка шаблонов

Используются два вида шаблонов:

  1. Словесные шаблоны — фразы, нехарактерные для обычного абонента (например, «абонент», «помощник», «секретарь»). Шаблоны добавляются вручную по транскрипциям, отмеченным операторами как пропущенные автоответчики.
  2. Аудио-шаблоны — цифровые отпечатки автоответчиков, создаваемые на основе анализа множества схожих записей. Система автоматически группирует похожие файлы, создаёт SQL-запросы на добавление шаблонов и сортирует их по частоте срабатывания.

Особенности современных автоответчиков

  • Постоянное обновление слов и голосов. Новые шаблоны появляются каждую неделю, новые голоса — ежедневно.
  • Неразборчивость. Некоторые операторы намеренно искажают звук: добавляют шумы, снижают громкость, применяют эффекты.
  • Позднее включение. Некоторые автоответчики активируются на 4-й секунде вызова, что делает невозможным их детекцию в течение первых секунд.

Практический кейс

В качестве примера приведён опыт микрофинансовой компании с базой 30–40 тыс. уникальных номеров и более 500 тыс. вызовов в день:

  • 380 тыс. вызовов не завершаются соединением;
  • Из 120 тыс. соединений, 115 тыс. — автоответчики;
  • Только 5000 вызовов доходят до оператора.

Распределение срабатываний:

  • 20% — акустический анализ;
  • 65% — транскрибация;
  • 15% (и более, растёт) — цифровые отпечатки.

Заключение

Решение, представленное в докладе, подтверждает возможность построения высокоэффективного детектора автоответчиков с открытой архитектурой и гибкой интеграцией с Asterisk и другими АТС. Работа по борьбе с автоответчиками требует постоянного обновления данных, учёта новых тенденций и голосовых шаблонов. Разработка такого детектора является не разовой задачей, а постоянным процессом адаптации и анализа.

Ежегодная конференция по Asterisk 2025!

Билеты уже в продаже!

Остались вопросы?

Я - Виталий Шелест, менеджер компании Voxlink. Хотите уточнить детали или готовы оставить заявку? Укажите номер телефона, я перезвоню в течение 3-х секунд.

Наши
клиенты

Посмотреть все