Детектирование речевой активности (Silero VAD)

Команда для запуска детектирования речевой активности в аудиовизуальном сигнале:

openav_vad --config <путь_к_вашему_конфигурационному_файлу>.yaml

Important

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

  • Отображение процесса выполнения программы в терминале (командной строке)

  • Работа с файловой системой

  • Параметры детектора голосовой активности (Silero VAD)

  • Параметры кодирования выходного файла

Отображение процесса выполнения команды в терминале

Параметр

Тип

Значение по умолчанию

Описание

hide_metadata

bool

false

Включение отображения метаданных

hide_libs_vers

bool

false

Включение отображения версий установленных библиотек в командной строке

Работа с файловой системой

Параметр

Тип

Значение по умолчанию

Описание

path_to_save_model

str

<./models>

Директория, где будут размещаться скачанные модели, в данном случае модель для работоспособности VAD

path_to_dataset

str

<путь_к_исходным_данным>

Директория, где находятся данные, которые необходимо обработать VAD

path_to_dataset_vad

str

<./dataset_vad>

Директория, куда сохраняются фрагменты аудиовизуального сигнала после обработки VAD

dir_va_names

dict

{"video": "Video",
"audio": "Audio"}

Директории для сохранения видео и аудио файлов. Названия директорий могут быть произвольными

force_reload

bool

false

Включение принудительной загрузки модели VAD из сети

clear_dirvad

bool

true

Очистка директории, в которую сохраняются фрагменты аудиовизуального сигнала

depth

int

1

Глубина иерархии для получения данных. Указывается количество подкаталогов в директории path_to_dataset

ext_search_files

list

["mov", "mp4",
"webm", "wav"]

Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио

Параметры детектора голосовой активности (Silero VAD)

Параметр

Тип

Значение по умолчанию

Описание

sampling_rate

int

16000

Частота дискретизации. На текущий момент поддерживаются частоты: 8000 и 16000

threshold

float

0.5

Порог вероятности речи (от 0.0 до 1.0). VAD выводит вероятности речи для каждого звукового фрагмента, вероятности выше установеленного значения считаются речью. Параметр необходимо настраивать индивидуально в зависимости от набора данных. Например для шумных условий параметр рекомендуется устанавливать в значение от 0.7 до 0.95. В условиях низкого уровня шума или его отсутствия, параметр лучше устанавливать на низкие значения 0.10.25

min_speech_duration_ms

float

250

Минимальная длительность речевого фрагмента. Рекомендуется устанавливать в пределах от 750 мс до 1000 мс. Настройка также является индвидуальной, которую необходимо подбирать в зависимости от набора данных

min_silence_duration_ms

float

100

Минимальная длительность тишины в выборках между отдельными речевыми фрагментами, прежде чем разделить его. Рекомендуется устанавливать в пределах 500 мс, для того, чтобы не разделялись предложения. Однако, можно настроить индивидуально, под свои условия

window_size_samples

int

1536

Количество выборок в каждом окне.
Предупреждение! Модели VAD были обучены с использованием выборок 512, 1024, 1536 для частоты дискретизации 16000 и 256, 512, 768 для частоты дискретизации 8000. Настоятельно рекомендуется использовать эти значения, изменение значений может повлиять на производительность модели

speech_pad_ms

float

30

Внутренние отступы для итоговых речевых фрагментов. Рекомендуется использовать значение 250 мс — 400 мс чтобы избежать обрезания фрагментов речи. Настройка также является индвидуальная и устанавливается в соответствии с условиями пользователя

Параметры кодирования выходного файла

Параметр

Тип

Значение по умолчанию

Описание

type_encode

str

crf

Типы кодирования. Доступные варианты: ['qscale', 'crf']

crf_value

int

23

Качество кодирования (от 0 до 51. Чем ниже значение, тем лучше качество и наоборот. Стоит учитывать, что изменения качества кодирования влияет на скорость обработки

presets_crf_encode

str

medium

Скорость кодирования и сжатия. Доступные варианты: ['ultrafast', 'superfast', 'veryfast', 'faster', 'fast', 'medium', 'slow', 'slower', 'veryslow']. Изменения параметра влияет на скорость кодирования и степень сжатия

sr_input_type

str

audio

Типы файлов для распознавания речи. Доступные варианты: ['audio', 'video']

Демонстрация работы детектора речевой активности

Ниже продемонстрированы результаты работы детектора речевой активности как для входного аудиовизуального сигнала, так и для акустического.

Пример видеозаписи до обработки детектором речевой активности

Видеозапись до обработки VAD

Примеры видеозаписей после обработки детектором речевой активности

Фраза 1

Фраза 2

Фраза 3

Фраза 4

Фраза 5