.. include:: ../../reuse_content/general.rst .. include:: ../../reuse_content/preprocessing/audio.rst Модуль предобработки речевых аудиоданных ======================================== Модуль выполняет предобработку речевых аудиоданных, в данном случае извлекается спектрограмма из исходной аудиодорожки. Команда для запуска предобработки речевых аудиоданных: .. code-block:: sh openav_preprocess_audio --config <путь_к_вашему_конфигурационному_файлу>.yaml .. important:: Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена. Конфигурационный файл ~~~~~~~~~~~~~~~~~~~~~ Конфигурационный файл включает в себя следующие настройки: * Отображение процесса выполнения программы в терминале (командной строке) * Работа с файловой системой * Параметры предобработки речевых аудиоданных .. rst-class:: config-link |a_config| Пример конфигурационного файла |/a| Отображение процесса выполнения команды в терминале ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ .. rst-class:: custom-table shell-table .. csv-table:: :align: center :header: "Параметр", "Тип", "Значение по умолчанию", "Описание" :widths: 23, 7, 25, 45 "hide_metadata", "bool", "``false``", "Включение отображения метаданных" "hide_libs_vers", "bool", "``false``", "Включение отображения версий установленных библиотек в командной строке" Работа с файловой системой ~~~~~~~~~~~~~~~~~~~~~~~~~~ .. rst-class:: custom-table filesystem-table .. csv-table:: :align: center :header: "Параметр", "Тип", "Значение по умолчанию", "Описание" :widths: 23, 7, 25, 45 "path_to_dataset", "str", "``<путь_к_исходным_данным>``", "Директория, где находятся данные, которые необходимо загрузить или проверить" "path_to_dataset_audio", "str", "``<путь_к_конечным_данным>``", "Директория, в которую будут сохраняться аудиоданные после предобработки" "depth","int", "``1``", "Глубина иерархии для получения данных. Указывается количество подкаталогов в директории ``path_to_dataset``" "ext_search_files", "list", "``[""mov"", ""mp4"",`` |br| ``""webm"", ""wav""]``", "Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио" "clear_dir_audio","bool", "``true``", "Предварительная очистка директории с предобработанными аудиоданными" "save_raw_data", "bool", "``true``", "Сохранение данных в формате numpy" Параметры предобработки речевых аудиоданных ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ .. rst-class:: custom-table vad-table .. csv-table:: :align: center :header: "Параметр", "Тип", "Значение по умолчанию", "Описание" :widths: 28, 7, 20, 45 "sampling_rate", "int", "``16000``", "Частота дискретизации аудиосигнала. Доступные значения ``16000; 22050; 44100; 48000``" "n_fft", "int", "``2048``", "Размер параметра FFT, создает ``n_fft // 2 + 1`` бин. Допустимы значения в пределе от ``256`` до ``2048``" "hop_length", "int", "``512``", "Длина перехода между окнами STFT. Допустимы значения в пределе от ``64`` до ``512``" "n_mels", "int", "``128``", "Количество фильтроблоков mel. Допустимы значения в пределе от ``20`` до ``512``" "power", "float", "``2.0``", "Показатель степени магнитудной спектрограммы. Должен быть либо ``1.0``, либо ``2.0``" "center", "bool", "``true``", "Включение установки отступов с обеих сторон относительно центральной части аудиодорожки" "pad_mode", "str", "``reflect``", "Управление оступами, применяется когда значение параметра ``center = True``. Доступные значения ``constant, reflect, replicate, circular``. По умолчанию ``reflect``" "norm", "str", "``slaney``", "Нормализация площади. Отношение треугольных мел-весов к ширине мел-зоны" "dpi", "int", "``600``", "Качество изображения спектрограммы. Доступные значения ``72; 96; 150; 300; 600; 1200``" "color_gradients", "str", "``magma``", "Выбор цветовой схемы итогового изображения спектрограммы. Доступные значения ``viridis, plasma, inferno, magma, cividis``"