Детектирование речевой активности (Vosk)
Команда для запуска детектирования речевой активности в аудиовизуальном сигнале:
openav_vosk_sr --config <путь_к_вашему_конфигурационному_файлу>.yaml
Important
Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.
Конфигурационный файл
Конфигурационный файл включает в себя следующие настройки:
Отображение процесса выполнения программы в терминале (командной строке)
Работа с файловой системой
Параметры детектора голосовой активности (Vosk)
Параметры кодирования выходного файла
Отображение процесса выполнения команды в терминале
Параметр |
Тип |
Значение по умолчанию |
Описание |
|---|---|---|---|
hide_metadata |
bool |
|
Включение отображения метаданных |
hide_libs_vers |
bool |
|
Включение отображения версий установленных библиотек в командной строке |
Работа с файловой системой
Параметр |
Тип |
Значение по умолчанию |
Описание |
|---|---|---|---|
path_to_save_model |
str |
|
Директория, где будут размещаться скачанные модели, в данном случае модель для работоспособности VAD |
path_to_dataset |
str |
|
Директория, где находятся данные, которые необходимо обработать |
path_to_dataset_vosk_sr |
str |
|
Директория, куда сохраняются фрагменты аудиовизуального сигнала после обработки |
dir_va_names |
dict |
|
Директории для сохранения видео и аудио файлов. Названия директорий могут быть произвольными |
force_reload |
bool |
|
Включение принудительной загрузки модели Vosk из сети |
folder_name_unzip |
str |
|
Название папки, в которую будет извлекаться модель Vosk |
clear_dirvosk_sr |
bool |
|
Очистка директории, в которую сохраняются фрагменты аудиовизуального сигнала |
depth |
int |
|
Глубина иерархии для получения данных. Указывается количество подкаталогов в директории |
ext_search_files |
list |
|
Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио |
Параметры детектора голосовой активности (Vosk)
Параметр |
Тип |
Значение по умолчанию |
Описание |
|---|---|---|---|
sampling_rate |
int |
|
Частота дискретизации. На текущий момент поддерживаются частоты: |
speech_left_pad_ms |
float |
|
Внутренний отступ до начала речевого фрагмента. Настройка поможет избавиться от лишней тишина в начале обработанного фрагмента |
speech_right_pad_ms |
float |
|
Внутренний отступ в конце речевого фрагмента. Настройка поможет избавиться от лишней тишина в конце обработанного фрагмента, либо наоборот увеличить длительность речевого фрагмента, на случай, если фраза незначительно обрезается после обработки |
lang_model |
str |
|
Выбор языка, на котором необходимо обработать данные. Поддерживаемые языки: |
dict_size |
str |
|
Размер словаря, на котором была обучена модель для распознавания. |
В текущей версии для русского языка используются модели vosk-model-ru-0.42 и vosk-model-small-ru-0.22, обученные на большом и малом словарях соответственно. Более подробное описание моделей представлено по ссылке .
Параметры кодирования выходного файла
Параметр |
Тип |
Значение по умолчанию |
Описание |
|---|---|---|---|
type_encode |
str |
|
Типы кодирования. Доступные варианты: |
crf_value |
int |
|
Качество кодирования (от |
presets_crf_encode |
str |
|
Скорость кодирования и сжатия. Доступные варианты: |
sr_input_type |
str |
|
Типы файлов для распознавания речи. Доступные варианты: |
Демонстрация работы детектора речевой активности
Ниже продемонстрированы результаты работы детектора речевой активности как для входного аудиовизуального сигнала, так и для акустического.
Пример видеозаписи до обработки детектором речевой активности
Видеозапись до обработки VAD
Примеры видеозаписей после обработки детектором речевой активности
Фраза 1
Фраза 2
Фраза 3
Фраза 4
Фраза 5
Пример аудиозаписи до обработки детектором речевой активности
Примеры аудиозаписей после обработки детектором речевой активности