.. include:: ../../../reuse_content/vosk/vosk.rst
.. include:: ../../../reuse_content/vosk/audio_waves.rst
.. include:: ../../../reuse_content/general.rst

Детектирование речевой активности (Vosk)
========================================

Команда для запуска детектирования речевой активности в аудиовизуальном сигнале:

.. code-block:: sh

   openav_vosk_sr --config <путь_к_вашему_конфигурационному_файлу>.yaml


.. important:: Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл
~~~~~~~~~~~~~~~~~~~~~

Конфигурационный файл включает в себя следующие настройки:

*  Отображение процесса выполнения программы в терминале (командной строке)
*  Работа с файловой системой
*  Параметры детектора голосовой активности (Vosk)
*  Параметры кодирования выходного файла

.. rst-class:: config-link

|a_config|
Пример конфигурационного файла
|/a|

Отображение процесса выполнения команды в терминале
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

.. rst-class:: custom-table shell-table
.. csv-table::
   :align: center
   :header: "Параметр", "Тип", "Значение по умолчанию", "Описание"
   :widths: 23, 7, 25, 45

    "hide_metadata", "bool", "``false``", "Включение отображения метаданных"
    "hide_libs_vers", "bool", "``false``", "Включение отображения версий установленных  библиотек  в командной строке"


Работа с файловой системой
~~~~~~~~~~~~~~~~~~~~~~~~~~

.. rst-class:: custom-table filesystem-table
.. csv-table::
   :align: center
   :header: "Параметр", "Тип", "Значение по умолчанию", "Описание"
   :widths: 23, 7, 25, 45

    "path_to_save_model", "str", "``<./models>``", "Директория, где будут размещаться скачанные модели, в данном случае модель для работоспособности  VAD"
    "path_to_dataset", "str", "``<путь_к_исходным_данным>``", "Директория, где находятся данные, которые необходимо обработать"
    "path_to_dataset_vosk_sr", "str", "``<./dataset_vosk>``", "Директория, куда сохраняются фрагменты аудиовизуального сигнала после обработки"
    "dir_va_names", "dict", "``{""video"": ""Video"",`` |br| ``""audio"": ""Audio""}``", "Директории для сохранения видео и аудио файлов. Названия директорий могут быть произвольными"
    "force_reload", "bool", "``false``", "Включение принудительной загрузки модели Vosk из сети"
    "folder_name_unzip", "str", "``<название_папки>``", "Название папки, в которую будет извлекаться модель Vosk"
    "clear_dirvosk_sr", "bool", "``true``", "Очистка директории, в которую сохраняются фрагменты аудиовизуального сигнала"
    "depth","int", "``1``", "Глубина иерархии для получения данных. Указывается количество подкаталогов  в директории ``path_to_dataset``"
    "ext_search_files", "list", "``[""mov"", ""mp4"",`` |br| ``""webm"", ""wav""]``", "Список  расширений файлов, которые будут обрабатываться. Указывать  можно как для видео, так и для аудио"


Параметры детектора голосовой активности (Vosk)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

.. rst-class:: custom-table vad-table
.. csv-table::
   :align: center
   :header: "Параметр", "Тип", "Значение по умолчанию", "Описание"
   :widths: 28, 7, 20, 45

   "sampling_rate", "int", "``16000``", "Частота дискретизации. На текущий момент поддерживаются частоты: ``8000`` и ``16000``"
   "speech_left_pad_ms", "float", "``0``", "Внутренний отступ до начала речевого фрагмента. Настройка поможет избавиться от лишней тишина в начале обработанного фрагмента"
   "speech_right_pad_ms", "float", "``300``", "Внутренний отступ в конце речевого фрагмента. Настройка поможет избавиться от лишней тишина в конце обработанного фрагмента, либо наоборот увеличить длительность речевого фрагмента, на случай, если фраза незначительно обрезается после обработки"
   "lang_model", "str", "``ru``", "Выбор языка, на котором необходимо обработать данные. Поддерживаемые языки:  ``ru`` и ``en`` "
   "dict_size", "str", "``big``", "Размер словаря, на котором была обучена модель для распознавания. ``big`` и ``small``. Влияет на качество работы модели, однако стоит учитывать, что малоресурсная модель будет работать быстрее, чем большая."

В текущей версии для русского языка используются модели  ``vosk-model-ru-0.42`` и ``vosk-model-small-ru-0.22``, обученные на большом и малом словарях соответственно. Более подробное описание моделей представлено по |a_model| ссылке |/a|.

Параметры кодирования выходного файла
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

.. rst-class:: custom-table encode-table
.. csv-table::
   :align: center
   :header: "Параметр", "Тип", "Значение по умолчанию", "Описание"
   :widths: 28, 7, 20, 45

    "type_encode", "str", "``crf``", "Типы кодирования. Доступные варианты: ``['qscale', 'crf']``"
    "crf_value", "int", "``23``", "Качество кодирования (от ``0`` до ``51``. Чем ниже значение, тем лучше качество и наоборот. Стоит учитывать, что изменения качества кодирования влияет на скорость обработки"
    "presets_crf_encode", "str", "``medium``", "Скорость кодирования и сжатия. Доступные варианты: ``['ultrafast', 'superfast', 'veryfast', 'faster', 'fast', 'medium', 'slow', 'slower', 'veryslow']``. Изменения параметра влияет на скорость кодирования и степень сжатия"
    "sr_input_type", "str", "``audio``", "Типы файлов для распознавания речи. Доступные варианты: ``['audio', 'video']``"


Демонстрация работы детектора речевой активности
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Ниже продемонстрированы результаты работы детектора речевой активности как для входного аудиовизуального сигнала, так и для акустического.

.. tabs::

   .. tab:: Аудиовизуальный сигнал

      .. rst-class:: tab-header first-header


      Пример видеозаписи до обработки детектором речевой активности

      .. rst-class:: video-cap

      Видеозапись до обработки VAD

      .. video:: ../../../_static/video/vad/before_vad.mp4
         :alt: video without processing

      .. rst-class:: tab-header

      Примеры видеозаписей после обработки детектором речевой активности

      .. rst-class:: video-cap

      Фраза 1

      .. video:: ../../../_static/video/vad/1.webm
         :alt: phrase_1

      .. rst-class:: video-cap

      Фраза 2

      .. video:: ../../../_static/video/vad/2.webm
         :alt: phrase_2

      .. rst-class:: video-cap

      Фраза 3

      .. video:: ../../../_static/video/vad/3.webm
         :alt: phrase_3

      .. rst-class:: video-cap

      Фраза 4

      .. video:: ../../../_static/video/vad/4.webm
         :alt: phrase_4

      .. rst-class:: video-cap

      Фраза 5

      .. video:: ../../../_static/video/vad/5.webm
         :alt: phrase_5

   .. tab:: Акустический сигнал

      .. rst-class:: tab-header first-header

      Пример аудиозаписи до обработки детектором речевой активности

      |audio_wo_vad|

      .. rst-class:: tab-header

      Примеры аудиозаписей после обработки детектором речевой активности

      |audio_1|
      |audio_2|
      |audio_3|
      |audio_4|
      |audio_5|