Правильная ссылка на статью:
Трофимова В.С., Каршиева П.К., Рахманенко И.А..
Метод трансферного обучения для дообучения нейронных сетей под особенности набора данных в задаче верификации диктора
// Программные системы и вычислительные методы.
2024. № 3.
С. 26-36.
DOI: 10.7256/2454-0714.2024.3.71630 EDN: XHZCTS URL: https://nbpublish.com/library_read_article.php?id=71630
Читать статью
Результаты процедуры рецензирования статьи:
|
EDN: XHZCTS
|
Аннотация:
Предметом исследования являются нейронные сети, дообученные с использованием метода трансферного обучения под особенности набора данных. Объектом исследования являются методы машинного обучения, используемые для решения задач верификации по голосу. Цель исследования заключается в повышении эффективности нейронных сетей в задаче голосовой верификации. В данной работе для процесса дообучения были подготовлены три набора данных на разных языках: на английском, на русском и на китайском. Также с использованием современных и предварительно обученных моделей ResNetSE34L и ResNetSE34V2 было проведено экспериментальное исследование, направленное на повышение эффективности нейронных сетей в задаче верификации диктора по произвольной фразе. Особое внимание уделялось оптимизации параметров обучения нейронных сетей с помощью метода тонкой настройки. Методология проведения исследования включает в себя оценку эффективности дообучения нейронных сетей под особенности набора данных в задаче верификации диктора, опираясь на значение равной ошибки 1-ого и 2-ого рода. Также был проведен ряд экспериментов, в ходе которых варьировались параметры и применялась техника замораживания слоев. Максимальное понижение равной ошибки 1-ого и 2-ого рода при использовании английского набора данных было достигнуто при помощи подбора эпох и скорости обучения, ошибка уменьшилась на 50%. Аналогичный подбор параметров при использовании русского набора данных уменьшил ошибку на 63,64%. При дообучении с использованием китайского набора данных наименьшее значение было достигнуто в эксперименте с замораживанием полносвязнного слоя, изменении скорости обучения и оптимизатора – ошибка снизилась на 16,04%. Полученные результаты могут использоваться при проектировании и разработке систем голосовой верификации и в образовательных целях. Также был сделан вывод, что метод трансферного обучения является эффективным при дообучении нейронных сетей под особенности набора данных, так как в подавляющем количестве экспериментов было достигнуто понижение EER, что говорит о повышении точности распознавания диктора.
Ключевые слова:
трансферное обучение, тонкая настройка, набор данных, верификация диктора, распознавание диктора, извлечение признаков, обработка речи, нейронные сети, глубокое обучение, распознавание образов
Abstract:
The subject of this study is neural networks, trained using transfer learning methods tailored to the specific characteristics of the dataset. The object of the study is machine learning methods used for solving speaker verification tasks. The aim of the research is to improve the efficiency of neural networks in the task of speaker verification. In this work, three datasets in different languages were prepared for the fine-tuning process: English, Russian, and Chinese. Additionally, an experimental study was conducted using modern pre-trained models ResNetSE34L and ResNetSE34V2, aimed at enhancing the efficiency of neural networks in text-independent speaker verification. The research methodology includes assessing the effectiveness of fine-tuning neural networks to the characteristics of the dataset in the speaker verification task, based on the equal error rate (EER) of Type I and Type II errors. A series of experiments were also conducted, during which parameters were varied, and layer freezing techniques were applied. The maximum reduction in the equal error rate (EER) when using the English dataset was achieved by adjusting the number of epochs and the learning rate, reducing the error by 50%. Similar parameter adjustments with the Russian dataset reduced the error by 63.64%. When fine-tuning with the Chinese dataset, the lowest error rate was achieved in the experiment that involved freezing the fully connected layer, modifying the learning rate, and changing the optimizer—resulting in a 16.04% error reduction. The obtained results can be used in the design and development of speaker verification systems and for educational purposes. It was also concluded that transfer learning is effective for fine-tuning neural networks to the specific characteristics of a dataset, as a significant reduction in EER was achieved in the majority of experiments, indicating improved speaker recognition accuracy.
Keywords:
deep learning, neural networks, speech processing, feature extraction, speaker recognition, speaker verification, dataset, fine-tuning, transfer learning, pattern recognition