Детектирование речевой активности (Vosk)

Команда для запуска детектирования речевой активности в аудиовизуальном сигнале:

openav_vosk_sr --config <путь_к_вашему_конфигурационному_файлу>.yaml

Important

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

  • Отображение процесса выполнения программы в терминале (командной строке)

  • Работа с файловой системой

  • Параметры детектора голосовой активности (Vosk)

  • Параметры кодирования выходного файла

Отображение процесса выполнения команды в терминале

Параметр

Тип

Значение по умолчанию

Описание

hide_metadata

bool

false

Включение отображения метаданных

hide_libs_vers

bool

false

Включение отображения версий установленных библиотек в командной строке

Работа с файловой системой

Параметр

Тип

Значение по умолчанию

Описание

path_to_save_model

str

<./models>

Директория, где будут размещаться скачанные модели, в данном случае модель для работоспособности VAD

path_to_dataset

str

<путь_к_исходным_данным>

Директория, где находятся данные, которые необходимо обработать

path_to_dataset_vosk_sr

str

<./dataset_vosk>

Директория, куда сохраняются фрагменты аудиовизуального сигнала после обработки

dir_va_names

dict

{"video": "Video",
"audio": "Audio"}

Директории для сохранения видео и аудио файлов. Названия директорий могут быть произвольными

force_reload

bool

false

Включение принудительной загрузки модели Vosk из сети

folder_name_unzip

str

<название_папки>

Название папки, в которую будет извлекаться модель Vosk

clear_dirvosk_sr

bool

true

Очистка директории, в которую сохраняются фрагменты аудиовизуального сигнала

depth

int

1

Глубина иерархии для получения данных. Указывается количество подкаталогов в директории path_to_dataset

ext_search_files

list

["mov", "mp4",
"webm", "wav"]

Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио

Параметры детектора голосовой активности (Vosk)

Параметр

Тип

Значение по умолчанию

Описание

sampling_rate

int

16000

Частота дискретизации. На текущий момент поддерживаются частоты: 8000 и 16000

speech_left_pad_ms

float

0

Внутренний отступ до начала речевого фрагмента. Настройка поможет избавиться от лишней тишина в начале обработанного фрагмента

speech_right_pad_ms

float

300

Внутренний отступ в конце речевого фрагмента. Настройка поможет избавиться от лишней тишина в конце обработанного фрагмента, либо наоборот увеличить длительность речевого фрагмента, на случай, если фраза незначительно обрезается после обработки

lang_model

str

ru

Выбор языка, на котором необходимо обработать данные. Поддерживаемые языки: ru и en

dict_size

str

big

Размер словаря, на котором была обучена модель для распознавания. big и small. Влияет на качество работы модели, однако стоит учитывать, что малоресурсная модель будет работать быстрее, чем большая.

В текущей версии для русского языка используются модели vosk-model-ru-0.42 и vosk-model-small-ru-0.22, обученные на большом и малом словарях соответственно. Более подробное описание моделей представлено по ссылке .

Параметры кодирования выходного файла

Параметр

Тип

Значение по умолчанию

Описание

type_encode

str

crf

Типы кодирования. Доступные варианты: ['qscale', 'crf']

crf_value

int

23

Качество кодирования (от 0 до 51. Чем ниже значение, тем лучше качество и наоборот. Стоит учитывать, что изменения качества кодирования влияет на скорость обработки

presets_crf_encode

str

medium

Скорость кодирования и сжатия. Доступные варианты: ['ultrafast', 'superfast', 'veryfast', 'faster', 'fast', 'medium', 'slow', 'slower', 'veryslow']. Изменения параметра влияет на скорость кодирования и степень сжатия

sr_input_type

str

audio

Типы файлов для распознавания речи. Доступные варианты: ['audio', 'video']

Демонстрация работы детектора речевой активности

Ниже продемонстрированы результаты работы детектора речевой активности как для входного аудиовизуального сигнала, так и для акустического.

Пример видеозаписи до обработки детектором речевой активности

Видеозапись до обработки VAD

Примеры видеозаписей после обработки детектором речевой активности

Фраза 1

Фраза 2

Фраза 3

Фраза 4

Фраза 5