Модуль распознавания аудиовизуальной речи
Команда для запуска модуля распознавания аудиовизуальной речи:
openav_test_audiovisual --config <путь_к_вашему_конфигурационному_файлу>.yaml
Important
Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.
Конфигурационный файл
Конфигурационный файл включает в себя следующие настройки:
Отображение процесса выполнения программы в терминале (командной строке)
Работа с файловой системой
Параметры процесса распознавания аудиовизуальных речи
Отображение процесса выполнения команды в терминале
Параметр |
Тип |
Значение по умолчанию |
Описание |
|---|---|---|---|
hide_metadata |
bool |
|
Включение отображения метаданных |
hide_libs_vers |
bool |
|
Включение отображения версий установленных библиотек в командной строке |
Работа с файловой системой
Параметр |
Тип |
Значение по умолчанию |
Описание |
|---|---|---|---|
path_to_dataset |
str |
|
Директория, где размещается подготовленный набор данных для обучения нейросетевых моделей |
subfolders |
str |
|
Директория с тестовой выборкой |
path_to_model |
str |
|
Путь, по которому находится обученная нейросетевая модель |
path_to_save_confusion_matrix |
str |
|
Путь, по которому будут храниться матрицы спутывания |
Параметры процесса распознавания аудиовизуальной речи
Параметр |
Тип |
Значение по умолчанию |
Описание |
|---|---|---|---|
n_classes |
int |
|
Количество классов для задачи классификации. Соответствуют количеству фраз из базы данных |
classes |
list |
|
Список названий классов, которые представлены в базе данных |
max_segment |
int |
|
Гиперпараметр, определяющий максимальное количество перекрывающихся сегментов, на которые разбиваются длинные последовательности аудио и видео данных перед подачей их на вход нейронной сети для обучения или вывода |
hidden_units |
int |
|
Количество скрытых единиц (hidden units) в декодере нейронной сети. Этот параметр определяет размерность внутреннего представления данных в декодере, что влияет на емкость (expressive capacity) и способность декодера извлекать и обобщать сложные зависимости в данных |
hidden_features |
int |
|
Количество скрытых признаков (hidden features) или временных шагов, используемых в нейросетевые модели. Этот гиперпараметр связан с тем, как модель обрабатывает последовательные данные, такие как аудио и видео. Увеличение этого параметра позволяет модели обрабатывать более длинные входные последовательности, но также увеличивает вычислительную сложность и требования к памяти, уменьшение может ускорить обучение, но при этом модель будет видеть только более короткие временные зависимости |
input_dim |
int |
|
Размерность входных векторов признаков для аудио и видео данных, подаваемых в модель. Например, параметр |
shape_audio |
int |
|
Здесь определяется размерность входных тензоров аудиоданных, ожидаемые моделью. Это форма задается тремя числами |
shape_video |
int |
|
Здесь определяется размерность входных тензоров видеоданных, ожидаемые моделью. |
encoder_decoder |
int |
|
Количество блоков энкодера и декодера в архитектуре трансформера, который используется в этой модели. Доступные значения от |
save_confusion_matrix |
bool |
|
Сохранение построенных матриц спутывания |
figsize_confusion_matrix |
int |
|
Здесь определяются параметры отображения матрицы спутывания. |
Пример построения матрицы спутывания