Детектирование речевой активности (Silero VAD)

Команда для запуска детектирования речевой активности в аудиовизуальном сигнале:

openav_vad --config <путь_к_вашему_конфигурационному_файлу>.yaml

Important

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

Отображение процесса выполнения программы в терминале (командной строке)
Работа с файловой системой
Параметры детектора голосовой активности (Silero VAD)
Параметры кодирования выходного файла

Пример конфигурационного файла

Отображение процесса выполнения команды в терминале

Параметр	Тип	Значение по умолчанию	Описание
hide_metadata	bool	`false`	Включение отображения метаданных
hide_libs_vers	bool	`false`	Включение отображения версий установленных библиотек в командной строке

Работа с файловой системой

Параметр	Тип	Значение по умолчанию	Описание
path_to_save_model	str	`<./models>`	Директория, где будут размещаться скачанные модели, в данном случае модель для работоспособности VAD
path_to_dataset	str	`<путь_к_исходным_данным>`	Директория, где находятся данные, которые необходимо обработать VAD
path_to_dataset_vad	str	`<./dataset_vad>`	Директория, куда сохраняются фрагменты аудиовизуального сигнала после обработки VAD
dir_va_names	dict	`{"video": "Video",` `"audio": "Audio"}`	Директории для сохранения видео и аудио файлов. Названия директорий могут быть произвольными
force_reload	bool	`false`	Включение принудительной загрузки модели VAD из сети
clear_dirvad	bool	`true`	Очистка директории, в которую сохраняются фрагменты аудиовизуального сигнала
depth	int	`1`	Глубина иерархии для получения данных. Указывается количество подкаталогов в директории `path_to_dataset`
ext_search_files	list	`["mov", "mp4",` `"webm", "wav"]`	Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио

Параметры детектора голосовой активности (Silero VAD)

Параметр	Тип	Значение по умолчанию	Описание
sampling_rate	int	`16000`	Частота дискретизации. На текущий момент поддерживаются частоты: `8000` и `16000`
threshold	float	`0.5`	Порог вероятности речи (от `0.0` до `1.0`). VAD выводит вероятности речи для каждого звукового фрагмента, вероятности выше установеленного значения считаются речью. Параметр необходимо настраивать индивидуально в зависимости от набора данных. Например для шумных условий параметр рекомендуется устанавливать в значение от `0.7` до `0.95`. В условиях низкого уровня шума или его отсутствия, параметр лучше устанавливать на низкие значения `0.1` — `0.25`
min_speech_duration_ms	float	`250`	Минимальная длительность речевого фрагмента. Рекомендуется устанавливать в пределах от `750` мс до `1000` мс. Настройка также является индвидуальной, которую необходимо подбирать в зависимости от набора данных
min_silence_duration_ms	float	`100`	Минимальная длительность тишины в выборках между отдельными речевыми фрагментами, прежде чем разделить его. Рекомендуется устанавливать в пределах `500` мс, для того, чтобы не разделялись предложения. Однако, можно настроить индивидуально, под свои условия
window_size_samples	int	`1536`	Количество выборок в каждом окне. Предупреждение! Модели VAD были обучены с использованием выборок `512`, `1024`, `1536` для частоты дискретизации `16000` и `256`, `512`, `768` для частоты дискретизации `8000`. Настоятельно рекомендуется использовать эти значения, изменение значений может повлиять на производительность модели
speech_pad_ms	float	`30`	Внутренние отступы для итоговых речевых фрагментов. Рекомендуется использовать значение `250` мс — `400` мс чтобы избежать обрезания фрагментов речи. Настройка также является индвидуальная и устанавливается в соответствии с условиями пользователя

Параметры кодирования выходного файла

Параметр	Тип	Значение по умолчанию	Описание
type_encode	str	`crf`	Типы кодирования. Доступные варианты: `['qscale', 'crf']`
crf_value	int	`23`	Качество кодирования (от `0` до `51`. Чем ниже значение, тем лучше качество и наоборот. Стоит учитывать, что изменения качества кодирования влияет на скорость обработки
presets_crf_encode	str	`medium`	Скорость кодирования и сжатия. Доступные варианты: `['ultrafast', 'superfast', 'veryfast', 'faster', 'fast', 'medium', 'slow', 'slower', 'veryslow']`. Изменения параметра влияет на скорость кодирования и степень сжатия
sr_input_type	str	`audio`	Типы файлов для распознавания речи. Доступные варианты: `['audio', 'video']`

Демонстрация работы детектора речевой активности

Ниже продемонстрированы результаты работы детектора речевой активности как для входного аудиовизуального сигнала, так и для акустического.

Пример видеозаписи до обработки детектором речевой активности

Видеозапись до обработки VAD

Примеры видеозаписей после обработки детектором речевой активности

Фраза 1

Фраза 2

Фраза 3

Фраза 4

Фраза 5