Модуль распознавания акустической речи

Команда для запуска модуля распознавания акустической речи:

python ./openav/api/test_audio.py --config <путь_к_вашему_конфигурационному_файлу>.yaml

Important

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

  • Отображение процесса выполнения программы в терминале (командной строке)

  • Работа с файловой системой

  • Параметры процесса распознавания акустической речи

Отображение процесса выполнения команды в терминале

Параметр

Тип

Значение по умолчанию

Описание

hide_metadata

bool

false

Включение отображения метаданных

hide_libs_vers

bool

false

Включение отображения версий установленных библиотек в командной строке

Работа с файловой системой

Параметр

Тип

Значение по умолчанию

Описание

path_to_dataset

str

<путь_к_набору_данных>

Директория, где размещается подготовленный набор данных для тестирования обученных нейросетевых моделей

path_to_model

str

<путь_к_моделям>

Директория, где размещаются обученные нейросетевые модели

depth

int

3

Глубина иерархии для получения данных. Указывается количество подкаталогов в директории path_to_dataset

ext_search_files

list

["wav", "aac"]

Список расширений файлов, которые будут обрабатываться

Параметры процесса распознавания акустической речи

Параметр

Тип

Значение по умолчанию

Описание

size_spec

int

width: 224
height: 224

Размер входного изображения спектрограммы в px

channels_spec

int

1

Количество каналов изображения. 1- одноканальное изображение (в серых тонах), 3 - трёхканальное изображение (RGB)

metric

str

accuracy

Метрика, в соответствии с которой будет вывод результатов тестирования обученных нейросетевых моделей