Система речевой аналитики на базе VOSK

Современные кол-центры сталкиваются с рядом вызовов при оценке качества обслуживания и быстром реагировании на изменения в поведении клиентов. Ручная разметка звонков задерживает получение отчетности минимум на неделю, а человеческий фактор вводит субъективность и неточности в оценки. Чтобы повысить скорость анализа и объективность данных, была разработана система Voice Perception (VOX) на базе Asterisk и современных технологий распознавания речи.

Задачи и проблемы кол‑центров

Задержка отчетности
– При ручной разметке звонков бизнес‑отчеты формируются с недельной задержкой, что замедляет реакцию на изменения спроса и настроений клиентов.
Человеческий фактор
– Оценка операторов может быть предвзятой из‑за усталости, различного уровня компетентности и личного восприятия.
Невозможность оперативного выявления трендов
– Популярные темы или новые возражения клиентов остаются незамеченными до формирования очередного отчета, и к тому моменту реакция компании может запоздать.

Цели системы Voice Perception

Автоматизация сбора и хранения звонков
Преобразование аудио в текст (распознавание речи VOSK)
Диаризация (разделение каналов «оператор – клиент») с погрешностью, достаточной для аналитики
Разметка текста по тематике и эмоциям (DeepPavlov)
Построение интерактивных отчетов и суммаризация диалогов (GPT‑модели)

Ключевые функции системы

Хранение записей
Прием и сохранение WAV/MP3 файлов (предпочтительно PCM‑16‑bit WAV, стерео) из Asterisk через HTTP‑запрос после завершения звонка.
Диаризация
На основе признаков VOSK производится кластеризация K‑means — получаем два кластера: «оператор» и «клиент».
Распознавание речи (ASR)
Интерфейс с VOSK v0.42 по WebSocket для конвертации аудио (8/16 kHz) и вывода текста с таймкодами.
Обработка текста
Лемматизациядля упрощенного поиска по словоформам;Часть речи(POS‑тегирование); Анализ эмоций(пять классов: негатив, нейтрал, позитив, «без эмоций», «разговорная речь»); Темизация по ядру пользовательских тегов.
Суммаризация
Автоматический пересказ диалогов через большую языковую модель (GPT), формирующий краткий «абстракт» разговора.
Автотематизация
Сравнение фраз с набором ключевых выражений (тегов) и присвоение наиболее подходящего тег‑идентификатора.

Веб‑интерфейс и отчеты

Главная страница: табличный список телефонов; выбор звонка для просмотра текста (правый верхний угол) и прослушивания аудио (левый угол).
Поиск: фильтрация по номеру телефона, оператору, времени звонка.
Суммаризация: область отображения пересказа вместо полного текста диалога.
Теги: блок в левом верхнем углу с присвоенными по ядру тематическими метками.
Отчеты: Эмоции, Топ‑слова (с возможностью фильтрации по части речи), Числовые метрики (длительность, процент ошибок ASR, распределение по кластерам).
Параметры отчета: заданный период, выбор операторов (канал 0/1), телефонные номера, специализированные фильтры.

Создание и настройка тегов

Тег = имя + набор примеров фраз.
Примеры «плюс–минус» соответствуют реальным высказываниям операторов или клиентов.
Нейросеть на основе тематического анализа выбирает наиболее релевантный тег.
Пример: тег «приветствие» — фразы «Добрый день», «Алло», «Здравствуйте», «Привет».

Стек технологий

Frontend: React
Backend: Python, FastAPI
База данных: PostgreSQL
ASR: VOSK (v0.42)
Тегирование и эмоции: DeepPavlov
Суммаризация: GPT‑модели
Контейнеризация: Nginx, Docker

Варианты развёртывания

До 100 ч/сутки: один сервер (16 CPU, 16 GB RAM).
100–1 000 ч/сутки: рекомендуется GPU‑сервер (NVIDIA с ≥ 8 GB VRAM).
Более 1 000 ч/сутки: масштабирование на кластере CPU + GPU или использование нескольких GPU с поддержкой фреймворков типа VLLM для LLM‑части.

Перспективы и задачи сообщества

Для развития проекта требуются участники со следующими навыками:

Frontend: React, JavaScript/TypeScript
Backend: Python, FastAPI, PostgreSQL, Elasticsearch
Data Science / ML: базовые знания в NLP, нейросетях
DevOps: Docker, Kubernetes, GPU‑виртуализация

Приоритетные задачи:

Миграция на альтернативную открытую ASR‑модель и повышение качества диаризации.
Доработка интеграции с LLM‑моделями и оптимизация расходов.
Реализация системы авторизации и разграничения прав в веб‑интерфейсе.
Глубокая интеграция с Asterisk на уровне SIP‑реестра и улучшение API‑загрузки звонков.

Желающие присоединиться могут обратиться по электронной почте или в Telegram‑канал проекта. Будем рады новым идеям и совместной работе!

Заключение

Автоматизация анализа звонков значительно сокращает время получения аналитики, устраняет субъективность оценок и позволяет оперативно реагировать на изменение поведения клиентов. Система Voice Perception даёт кол центрам инструменты для глубокого понимания разговоров и принятия обоснованных управленческих решений.

Еще выступления
Как продукт CallForce помогает эффективно контакт-центром на базе Asterisk и решать
Система речевой аналитики на базе VOSK
Слабоумие и отвага: как поменять модель лицензирования и…
Фишки и скрытые возможности в Itgrix, как получить больше пользы из интеграции Asterisk и CRM
Что такое система WFM?

Обратный звонок

Услуги

База знаний

Функции

IP-АТС

Колл-центр

CRM

Номера

Продукты

Обучение

Внедрение

Оборудование

Цены

О нас

Система речевой аналитики на базе VOSK

Задачи и проблемы кол‑центров

Цели системы Voice Perception

Ключевые функции системы

Веб‑интерфейс и отчеты

Создание и настройка тегов

Стек технологий

Варианты развёртывания

Перспективы и задачи сообщества

Заключение

Остались вопросы?

Наши
клиенты

В Москве:
+7 (495) 256-99-99

Новые статьи

Популярные теги

Проверка номера

Мы проверили номер

Услуги

База знаний

Функции

IP-АТС

Колл-центр

CRM

Номера

Продукты

Обучение

Внедрение

Оборудование

Цены

О нас

Система речевой аналитики на базе VOSK

Задачи и проблемы кол‑центров

Цели системы Voice Perception

Ключевые функции системы

Веб‑интерфейс и отчеты

Создание и настройка тегов

Стек технологий

Варианты развёртывания

Перспективы и задачи сообщества

Заключение

Остались вопросы?

Нашиклиенты

В Москве: +7 (495) 256-99-99

Проверка номера

Мы проверили номер

Наши
клиенты

В Москве:
+7 (495) 256-99-99