Модуль распознавания акустической речи

Команда для запуска модуля распознавания акустической речи:

python ./openav/api/test_audio.py --config <путь_к_вашему_конфигурационному_файлу>.yaml

Important

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

Параметр	Тип	Значение по умолчанию	Описание
hide_metadata	bool	`false`	Включение отображения метаданных
hide_libs_vers	bool	`false`	Включение отображения версий установленных библиотек в командной строке

Параметр	Тип	Значение по умолчанию	Описание
path_to_dataset	str	`<путь_к_набору_данных>`	Директория, где размещается подготовленный набор данных для тестирования обученных нейросетевых моделей
path_to_model	str	`<путь_к_моделям>`	Директория, где размещаются обученные нейросетевые модели
depth	int	`3`	Глубина иерархии для получения данных. Указывается количество подкаталогов в директории `path_to_dataset`
ext_search_files	list	`["wav", "aac"]`	Список расширений файлов, которые будут обрабатываться

Параметр	Тип	Значение по умолчанию	Описание
size_spec	int	`width: 224` `height: 224`	Размер входного изображения спектрограммы в `px`
channels_spec	int	`1`	Количество каналов изображения. `1`- одноканальное изображение (в серых тонах), `3` - трёхканальное изображение (RGB)
metric	str	`accuracy`	Метрика, в соответствии с которой будет вывод результатов тестирования обученных нейросетевых моделей