.. include:: ../../../reuse_content/vosk/vosk.rst .. include:: ../../../reuse_content/vosk/audio_waves.rst .. include:: ../../../reuse_content/general.rst Детектирование речевой активности (Vosk) ======================================== Команда для запуска детектирования речевой активности в аудиовизуальном сигнале: .. code-block:: sh openav_vosk_sr --config <путь_к_вашему_конфигурационному_файлу>.yaml .. important:: Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена. Конфигурационный файл ~~~~~~~~~~~~~~~~~~~~~ Конфигурационный файл включает в себя следующие настройки: * Отображение процесса выполнения программы в терминале (командной строке) * Работа с файловой системой * Параметры детектора голосовой активности (Vosk) * Параметры кодирования выходного файла .. rst-class:: config-link |a_config| Пример конфигурационного файла |/a| Отображение процесса выполнения команды в терминале ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ .. rst-class:: custom-table shell-table .. csv-table:: :align: center :header: "Параметр", "Тип", "Значение по умолчанию", "Описание" :widths: 23, 7, 25, 45 "hide_metadata", "bool", "``false``", "Включение отображения метаданных" "hide_libs_vers", "bool", "``false``", "Включение отображения версий установленных библиотек в командной строке" Работа с файловой системой ~~~~~~~~~~~~~~~~~~~~~~~~~~ .. rst-class:: custom-table filesystem-table .. csv-table:: :align: center :header: "Параметр", "Тип", "Значение по умолчанию", "Описание" :widths: 23, 7, 25, 45 "path_to_save_model", "str", "``<./models>``", "Директория, где будут размещаться скачанные модели, в данном случае модель для работоспособности VAD" "path_to_dataset", "str", "``<путь_к_исходным_данным>``", "Директория, где находятся данные, которые необходимо обработать" "path_to_dataset_vosk_sr", "str", "``<./dataset_vosk>``", "Директория, куда сохраняются фрагменты аудиовизуального сигнала после обработки" "dir_va_names", "dict", "``{""video"": ""Video"",`` |br| ``""audio"": ""Audio""}``", "Директории для сохранения видео и аудио файлов. Названия директорий могут быть произвольными" "force_reload", "bool", "``false``", "Включение принудительной загрузки модели Vosk из сети" "folder_name_unzip", "str", "``<название_папки>``", "Название папки, в которую будет извлекаться модель Vosk" "clear_dirvosk_sr", "bool", "``true``", "Очистка директории, в которую сохраняются фрагменты аудиовизуального сигнала" "depth","int", "``1``", "Глубина иерархии для получения данных. Указывается количество подкаталогов в директории ``path_to_dataset``" "ext_search_files", "list", "``[""mov"", ""mp4"",`` |br| ``""webm"", ""wav""]``", "Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио" Параметры детектора голосовой активности (Vosk) ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ .. rst-class:: custom-table vad-table .. csv-table:: :align: center :header: "Параметр", "Тип", "Значение по умолчанию", "Описание" :widths: 28, 7, 20, 45 "sampling_rate", "int", "``16000``", "Частота дискретизации. На текущий момент поддерживаются частоты: ``8000`` и ``16000``" "speech_left_pad_ms", "float", "``0``", "Внутренний отступ до начала речевого фрагмента. Настройка поможет избавиться от лишней тишина в начале обработанного фрагмента" "speech_right_pad_ms", "float", "``300``", "Внутренний отступ в конце речевого фрагмента. Настройка поможет избавиться от лишней тишина в конце обработанного фрагмента, либо наоборот увеличить длительность речевого фрагмента, на случай, если фраза незначительно обрезается после обработки" "lang_model", "str", "``ru``", "Выбор языка, на котором необходимо обработать данные. Поддерживаемые языки: ``ru`` и ``en`` " "dict_size", "str", "``big``", "Размер словаря, на котором была обучена модель для распознавания. ``big`` и ``small``. Влияет на качество работы модели, однако стоит учитывать, что малоресурсная модель будет работать быстрее, чем большая." В текущей версии для русского языка используются модели ``vosk-model-ru-0.42`` и ``vosk-model-small-ru-0.22``, обученные на большом и малом словарях соответственно. Более подробное описание моделей представлено по |a_model| ссылке |/a|. Параметры кодирования выходного файла ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ .. rst-class:: custom-table encode-table .. csv-table:: :align: center :header: "Параметр", "Тип", "Значение по умолчанию", "Описание" :widths: 28, 7, 20, 45 "type_encode", "str", "``crf``", "Типы кодирования. Доступные варианты: ``['qscale', 'crf']``" "crf_value", "int", "``23``", "Качество кодирования (от ``0`` до ``51``. Чем ниже значение, тем лучше качество и наоборот. Стоит учитывать, что изменения качества кодирования влияет на скорость обработки" "presets_crf_encode", "str", "``medium``", "Скорость кодирования и сжатия. Доступные варианты: ``['ultrafast', 'superfast', 'veryfast', 'faster', 'fast', 'medium', 'slow', 'slower', 'veryslow']``. Изменения параметра влияет на скорость кодирования и степень сжатия" "sr_input_type", "str", "``audio``", "Типы файлов для распознавания речи. Доступные варианты: ``['audio', 'video']``" Демонстрация работы детектора речевой активности ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ Ниже продемонстрированы результаты работы детектора речевой активности как для входного аудиовизуального сигнала, так и для акустического. .. tabs:: .. tab:: Аудиовизуальный сигнал .. rst-class:: tab-header first-header Пример видеозаписи до обработки детектором речевой активности .. rst-class:: video-cap Видеозапись до обработки VAD .. video:: ../../../_static/video/vad/before_vad.mp4 :alt: video without processing .. rst-class:: tab-header Примеры видеозаписей после обработки детектором речевой активности .. rst-class:: video-cap Фраза 1 .. video:: ../../../_static/video/vad/1.webm :alt: phrase_1 .. rst-class:: video-cap Фраза 2 .. video:: ../../../_static/video/vad/2.webm :alt: phrase_2 .. rst-class:: video-cap Фраза 3 .. video:: ../../../_static/video/vad/3.webm :alt: phrase_3 .. rst-class:: video-cap Фраза 4 .. video:: ../../../_static/video/vad/4.webm :alt: phrase_4 .. rst-class:: video-cap Фраза 5 .. video:: ../../../_static/video/vad/5.webm :alt: phrase_5 .. tab:: Акустический сигнал .. rst-class:: tab-header first-header Пример аудиозаписи до обработки детектором речевой активности |audio_wo_vad| .. rst-class:: tab-header Примеры аудиозаписей после обработки детектором речевой активности |audio_1| |audio_2| |audio_3| |audio_4| |audio_5|