Детектирование речевой активности (Silero VAD)
Команда для запуска детектирования речевой активности в аудиовизуальном сигнале:
openav_vad --config <путь_к_вашему_конфигурационному_файлу>.yaml
Important
Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.
Конфигурационный файл
Конфигурационный файл включает в себя следующие настройки:
Отображение процесса выполнения программы в терминале (командной строке)
Работа с файловой системой
Параметры детектора голосовой активности (Silero VAD)
Параметры кодирования выходного файла
Отображение процесса выполнения команды в терминале
Параметр |
Тип |
Значение по умолчанию |
Описание |
|---|---|---|---|
hide_metadata |
bool |
|
Включение отображения метаданных |
hide_libs_vers |
bool |
|
Включение отображения версий установленных библиотек в командной строке |
Работа с файловой системой
Параметр |
Тип |
Значение по умолчанию |
Описание |
|---|---|---|---|
path_to_save_model |
str |
|
Директория, где будут размещаться скачанные модели, в данном случае модель для работоспособности VAD |
path_to_dataset |
str |
|
Директория, где находятся данные, которые необходимо обработать VAD |
path_to_dataset_vad |
str |
|
Директория, куда сохраняются фрагменты аудиовизуального сигнала после обработки VAD |
dir_va_names |
dict |
|
Директории для сохранения видео и аудио файлов. Названия директорий могут быть произвольными |
force_reload |
bool |
|
Включение принудительной загрузки модели VAD из сети |
clear_dirvad |
bool |
|
Очистка директории, в которую сохраняются фрагменты аудиовизуального сигнала |
depth |
int |
|
Глубина иерархии для получения данных. Указывается количество подкаталогов в директории |
ext_search_files |
list |
|
Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио |
Параметры детектора голосовой активности (Silero VAD)
Параметр |
Тип |
Значение по умолчанию |
Описание |
|---|---|---|---|
sampling_rate |
int |
|
Частота дискретизации. На текущий момент поддерживаются частоты: |
threshold |
float |
|
Порог вероятности речи (от |
min_speech_duration_ms |
float |
|
Минимальная длительность речевого фрагмента. Рекомендуется устанавливать в пределах от |
min_silence_duration_ms |
float |
|
Минимальная длительность тишины в выборках между отдельными речевыми фрагментами, прежде чем разделить его. Рекомендуется устанавливать в пределах |
window_size_samples |
int |
|
Количество выборок в каждом окне. Предупреждение! Модели VAD были обучены с использованием выборок |
speech_pad_ms |
float |
|
Внутренние отступы для итоговых речевых фрагментов. Рекомендуется использовать значение |
Параметры кодирования выходного файла
Параметр |
Тип |
Значение по умолчанию |
Описание |
|---|---|---|---|
type_encode |
str |
|
Типы кодирования. Доступные варианты: |
crf_value |
int |
|
Качество кодирования (от |
presets_crf_encode |
str |
|
Скорость кодирования и сжатия. Доступные варианты: |
sr_input_type |
str |
|
Типы файлов для распознавания речи. Доступные варианты: |
Демонстрация работы детектора речевой активности
Ниже продемонстрированы результаты работы детектора речевой активности как для входного аудиовизуального сигнала, так и для акустического.
Пример видеозаписи до обработки детектором речевой активности
Видеозапись до обработки VAD
Примеры видеозаписей после обработки детектором речевой активности
Фраза 1
Фраза 2
Фраза 3
Фраза 4
Фраза 5
Пример аудиозаписи до обработки детектором речевой активности
Примеры аудиозаписей после обработки детектором речевой активности