Детектирование речевой активности (Vosk)

Команда для запуска детектирования речевой активности в аудиовизуальном сигнале:

openav_vosk_sr --config <путь_к_вашему_конфигурационному_файлу>.yaml

Important

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

Отображение процесса выполнения программы в терминале (командной строке)
Работа с файловой системой
Параметры детектора голосовой активности (Vosk)
Параметры кодирования выходного файла

Пример конфигурационного файла

Отображение процесса выполнения команды в терминале

Параметр	Тип	Значение по умолчанию	Описание
hide_metadata	bool	`false`	Включение отображения метаданных
hide_libs_vers	bool	`false`	Включение отображения версий установленных библиотек в командной строке

Работа с файловой системой

Параметр	Тип	Значение по умолчанию	Описание
path_to_save_model	str	`<./models>`	Директория, где будут размещаться скачанные модели, в данном случае модель для работоспособности VAD
path_to_dataset	str	`<путь_к_исходным_данным>`	Директория, где находятся данные, которые необходимо обработать
path_to_dataset_vosk_sr	str	`<./dataset_vosk>`	Директория, куда сохраняются фрагменты аудиовизуального сигнала после обработки
dir_va_names	dict	`{"video": "Video",` `"audio": "Audio"}`	Директории для сохранения видео и аудио файлов. Названия директорий могут быть произвольными
force_reload	bool	`false`	Включение принудительной загрузки модели Vosk из сети
folder_name_unzip	str	`<название_папки>`	Название папки, в которую будет извлекаться модель Vosk
clear_dirvosk_sr	bool	`true`	Очистка директории, в которую сохраняются фрагменты аудиовизуального сигнала
depth	int	`1`	Глубина иерархии для получения данных. Указывается количество подкаталогов в директории `path_to_dataset`
ext_search_files	list	`["mov", "mp4",` `"webm", "wav"]`	Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио

Параметры детектора голосовой активности (Vosk)

Параметр	Тип	Значение по умолчанию	Описание
sampling_rate	int	`16000`	Частота дискретизации. На текущий момент поддерживаются частоты: `8000` и `16000`
speech_left_pad_ms	float	`0`	Внутренний отступ до начала речевого фрагмента. Настройка поможет избавиться от лишней тишина в начале обработанного фрагмента
speech_right_pad_ms	float	`300`	Внутренний отступ в конце речевого фрагмента. Настройка поможет избавиться от лишней тишина в конце обработанного фрагмента, либо наоборот увеличить длительность речевого фрагмента, на случай, если фраза незначительно обрезается после обработки
lang_model	str	`ru`	Выбор языка, на котором необходимо обработать данные. Поддерживаемые языки: `ru` и `en`
dict_size	str	`big`	Размер словаря, на котором была обучена модель для распознавания. `big` и `small`. Влияет на качество работы модели, однако стоит учитывать, что малоресурсная модель будет работать быстрее, чем большая.

В текущей версии для русского языка используются модели vosk-model-ru-0.42 и vosk-model-small-ru-0.22, обученные на большом и малом словарях соответственно. Более подробное описание моделей представлено по ссылке .

Параметры кодирования выходного файла

Параметр	Тип	Значение по умолчанию	Описание
type_encode	str	`crf`	Типы кодирования. Доступные варианты: `['qscale', 'crf']`
crf_value	int	`23`	Качество кодирования (от `0` до `51`. Чем ниже значение, тем лучше качество и наоборот. Стоит учитывать, что изменения качества кодирования влияет на скорость обработки
presets_crf_encode	str	`medium`	Скорость кодирования и сжатия. Доступные варианты: `['ultrafast', 'superfast', 'veryfast', 'faster', 'fast', 'medium', 'slow', 'slower', 'veryslow']`. Изменения параметра влияет на скорость кодирования и степень сжатия
sr_input_type	str	`audio`	Типы файлов для распознавания речи. Доступные варианты: `['audio', 'video']`

Демонстрация работы детектора речевой активности

Ниже продемонстрированы результаты работы детектора речевой активности как для входного аудиовизуального сигнала, так и для акустического.

Пример видеозаписи до обработки детектором речевой активности

Видеозапись до обработки VAD

Примеры видеозаписей после обработки детектором речевой активности

Фраза 1

Фраза 2

Фраза 3

Фраза 4

Фраза 5