Структурне налаштування згорткової нейронної мережі для ідентифікації дикторів у просторі мелчастотних кепстральних коефіцієнтів

Автор(и)

  • Матиченко Анастасія Денисівна Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна
  • Полякова Марина Вячеславівна Національний університет «Одеська політехніка», проспект Шевченка,1. Одеса, 65044, Україна

DOI:

https://doi.org/10.15276/hait.06.2023.7

Ключові слова:

Ідентифікація дикторів, VGGNet, згорткова нейронна мережа, мелчастотнi кепстральнi коефіцієнти, структурне налаштування, глибоке навчання

Анотація

Аналіз літератури дозволив виділити основні методи ідентифікації дикторів за мовними сигналами. Це статистичні методи на основі моделі суміші гауісівських розподілів та універсальної фонової моделі, також нейромережеві методи, зокрема із використанням згорткових або сіамських нейронних мереж. Основними характеристиками цих методів є якість розпізнавання, кількість параметрів і час навчання. Високої якості розпізнавання дозволяє досягти застосування згорткових нейронних мереж, однак кількість параметрів цих мереж значно вища, ніж для статистичних методів, хоча і нижча, ніж для сіамських нейронних мереж. Значна кількість параметрів вимагає великої навчальної вибірки для навчання мережі, яка не завжди є в розпорядженні дослідника. Крім того, незважаючи на ефективність згорткових нейронних мереж, розмір моделі та ефективність виведення остаються важливими для пристроїв з обмеженим джерелом обчислень, а саме периферійних або мобільних пристроїв. Тому аспекти налаштування структури існуючих згорткових нейронних мереж є актуальними для дослідження. У роботі проведено структурне налаштування існуючої згорткової нейронної мережі на основі архітектури VGGNet для ідентифікації дикторів у просторі мелчастотних кепстральних коефіцієнтів. Метою роботи було зменшення кількості параметрів нейронної мережі і, як наслідок, скорочення часу навчання мережі за умови достатньої якості розпізнавання (правильне розпізнавання вище за 95 %). Запропонована у результаті структурного налаштування нейронна мережа має менше шарів, ніж архітектура базової нейронної мережі. Замість функції активації ReLU застосовано споріднену до цієї функції функцію Leaky ReLU з параметром 0.1. Змінено кількість фільтрів та розмірність ядер в згорткових шарах. Збільшено розмірність ядер для пулінгового шару з обранням максимального елементу. Запропоновано використання усереднення результатів кожної згортки для переходу від двовимірної згортки до повнозвязного шару з функцією активації Softmax. Експеримент показав, що кількість параметрів запропонованої нейронної мережі менша на 29 % кількості параметрів базової нейронної мережі за умови майже однакової якості розпізнавання дикторів. Окрім того, на п'яти датасетах аудіозаписів, що відповідали різної кількості дикторів, оцінювався час навчання запропонованої та базової нейронної мережі. Було отримано скорочення часу навчання запропонованою мережею на 10-39 % у порівнянні з базовою нейронною мережею. Результати дослідження показують доцільність застосування структурного налаштування згорткової нейронної мережі для пристроїв з обмеженим джерелом обчислень, а саме периферійних або мобільних пристроїв.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

Матиченко Анастасія Денисівна, Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

бакалавр кафедри Прикладної математики та інформаційних технологій. Національний університет «Одеська політехніка», пр. Шевченка, 1. Одеса, 65044, Україна

 

Полякова Марина Вячеславівна, Національний університет «Одеська політехніка», проспект Шевченка,1. Одеса, 65044, Україна

доктор технічних наук, доцент, професор кафедри Прикладної математики та інформаційних технологій. Національний університет «Одеська політехніка», проспект Шевченка,1. Одеса, 65044, Україна

Scopus Author ID: 57017879200

Опубліковано

2023-06-19

Як цитувати

Matychenko, A. D. ., & Polyakova, M. V. . (2023). The structural tuning of the convolutional neural network for speaker identification in mel frequency cepstrum coefficients space. Вісник сучасних інформаційних технологій, 6(2), 115-. https://doi.org/10.15276/hait.06.2023.7