Яндекс.Метрика

Asterisk Эксперт очно/онлайн

Asterisk Эксперт очно/онлайн с 16 октября по 17 октября

Количество
свободных мест

4 Записаться

Курсы по Mikrotik MTCNA

Курсы по Mikrotik MTCNA с 25 августа по 28 августа

Количество
свободных мест

2 Записаться
Система речевой аналитики на базе VOSK
28
Доклад
Богдан Барабанщиков
Система речевой аналитики на базе VOSK
скачать презентацию

Система речевой аналитики на базе VOSK

Современные кол-центры сталкиваются с рядом вызовов при оценке качества обслуживания и быстром реагировании на изменения в поведении клиентов. Ручная разметка звонков задерживает получение отчетности минимум на неделю, а человеческий фактор вводит субъективность и неточности в оценки. Чтобы повысить скорость анализа и объективность данных, была разработана система Voice Perception (VOX) на базе Asterisk и современных технологий распознавания речи.

Задачи и проблемы кол‑центров

  1. Задержка отчетности
    – При ручной разметке звонков бизнес‑отчеты формируются с недельной задержкой, что замедляет реакцию на изменения спроса и настроений клиентов.
  2. Человеческий фактор
    – Оценка операторов может быть предвзятой из‑за усталости, различного уровня компетентности и личного восприятия.
  3. Невозможность оперативного выявления трендов
    – Популярные темы или новые возражения клиентов остаются незамеченными до формирования очередного отчета, и к тому моменту реакция компании может запоздать.

Цели системы Voice Perception

  • Автоматизация сбора и хранения звонков
  • Преобразование аудио в текст (распознавание речи VOSK)
  • Диаризация (разделение каналов «оператор – клиент») с погрешностью, достаточной для аналитики
  • Разметка текста по тематике и эмоциям (DeepPavlov)
  • Построение интерактивных отчетов и суммаризация диалогов (GPT‑модели)

Ключевые функции системы

  1. Хранение записей
    Прием и сохранение WAV/MP3 файлов (предпочтительно PCM‑16‑bit WAV, стерео) из Asterisk через HTTP‑запрос после завершения звонка.
  2. Диаризация
    На основе признаков VOSK производится кластеризация K‑means — получаем два кластера: «оператор» и «клиент».
  3. Распознавание речи (ASR)
    Интерфейс с VOSK v0.42 по WebSocket для конвертации аудио (8/16 kHz) и вывода текста с таймкодами.
  4. Обработка текста
    Лемматизация
    для упрощенного поиска по словоформам;Часть речи(POS‑тегирование); Анализ эмоций(пять классов: негатив, нейтрал, позитив, «без эмоций», «разговорная речь»); Темизация по ядру пользовательских тегов.
  5. Суммаризация
    Автоматический пересказ диалогов через большую языковую модель (GPT), формирующий краткий «абстракт» разговора.
  6. Автотематизация
    Сравнение фраз с набором ключевых выражений (тегов) и присвоение наиболее подходящего тег‑идентификатора.

Веб‑интерфейс и отчеты

  • Главная страница: табличный список телефонов; выбор звонка для просмотра текста (правый верхний угол) и прослушивания аудио (левый угол).
  • Поиск: фильтрация по номеру телефона, оператору, времени звонка.
  • Суммаризация: область отображения пересказа вместо полного текста диалога.
  • Теги: блок в левом верхнем углу с присвоенными по ядру тематическими метками.
  • Отчеты: Эмоции, Топ‑слова (с возможностью фильтрации по части речи), Числовые метрики (длительность, процент ошибок ASR, распределение по кластерам).
  • Параметры отчета: заданный период, выбор операторов (канал 0/1), телефонные номера, специализированные фильтры.

Создание и настройка тегов

  • Тег = имя + набор примеров фраз.
  • Примеры «плюс–минус» соответствуют реальным высказываниям операторов или клиентов.
  • Нейросеть на основе тематического анализа выбирает наиболее релевантный тег.
  • Пример: тег «приветствие» — фразы «Добрый день», «Алло», «Здравствуйте», «Привет».

Стек технологий

  • Frontend: React
  • Backend: Python, FastAPI
  • База данных: PostgreSQL
  • ASR: VOSK (v0.42)
  • Тегирование и эмоции: DeepPavlov
  • Суммаризация: GPT‑модели
  • Контейнеризация: Nginx, Docker

Варианты развёртывания

  • До 100 ч/сутки: один сервер (16 CPU, 16 GB RAM).
  • 100–1 000 ч/сутки: рекомендуется GPU‑сервер (NVIDIA с ≥ 8 GB VRAM).
  • Более 1 000 ч/сутки: масштабирование на кластере CPU + GPU или использование нескольких GPU с поддержкой фреймворков типа VLLM для LLM‑части.

Перспективы и задачи сообщества

Для развития проекта требуются участники со следующими навыками:

  • Frontend: React, JavaScript/TypeScript
  • Backend: Python, FastAPI, PostgreSQL, Elasticsearch
  • Data Science / ML: базовые знания в NLP, нейросетях
  • DevOps: Docker, Kubernetes, GPU‑виртуализация

Приоритетные задачи:

  1. Миграция на альтернативную открытую ASR‑модель и повышение качества диаризации.
  2. Доработка интеграции с LLM‑моделями и оптимизация расходов.
  3. Реализация системы авторизации и разграничения прав в веб‑интерфейсе.
  4. Глубокая интеграция с Asterisk на уровне SIP‑реестра и улучшение API‑загрузки звонков.

Желающие присоединиться могут обратиться по электронной почте или в Telegram‑канал проекта. Будем рады новым идеям и совместной работе!

Заключение

Автоматизация анализа звонков значительно сокращает время получения аналитики, устраняет субъективность оценок и позволяет оперативно реагировать на изменение поведения клиентов. Система Voice Perception даёт кол центрам инструменты для глубокого понимания разговоров и принятия обоснованных управленческих решений.

Ежегодная конференция по Asterisk 2025!

Билеты уже в продаже!

Остались вопросы?

Я - Першин Артём, менеджер компании Voxlink. Хотите уточнить детали или готовы оставить заявку? Укажите номер телефона, я перезвоню в течение 3-х секунд.

Наши
клиенты

Посмотреть все