МЕТОД ВІДОБРАЖЕННЯ МОВНИХ СИГНАЛІВ У ЗАДАЧІ РОЗПІЗНАВАННЯ МОВЦЯ
Ключові слова:
розпізнавання мовця, довга короткочасна пам’ять, рекурентна нейронна мережа, підхід триплет втратАнотація
Актуальність теми дослідження. Більшість когнітивних сервісів використовують мовні сигнали як джерело інформації, а саме: розпізнавання емоцій, мови та ідентифікація мовця. Актуальною проблемою є створення загального підходу до відображення мовних сигналів, позбавленого недоліків існуючих методів класифікації у задачі розпізнавання мовця.
Постановка проблеми. Більшість сучасних методів розпізнавання мовця є чутливими до тривалості мовних сигналів і, відповідно, це накладає істотні обмеження на їх застосування.
Аналіз останніх досліджень і публікацій. Метод зрівняння фундаментальних частот голосів та ймовірнісні підходи часто застосовують для розпізнавання мовця. Предметом більшості робіт, пов’язаних із розпізнаванням мовця, є пошук метрик зрівняння статистичних моделей голосових трактів мовців для забезпечення найвищої точності розпізнавання. Формування цих моделей (метод i-vector) здійснюється на основі статистичних розподілів короткочасних спектральних ознак. Основним недоліком такого підходу є необхідність великої кількості тренувальних даних (записів мовних сигналів великої тривалості), з метою розрахунку статистичних розподілів ознак та побудови текстонезалежної моделі мовця.
Виділення не вирішених раніше частин загальної проблеми. Створення загального методу виділення закономірностей у спектральних ознаках мовних сигналів короткої тривалості та характер їх зміни у часі є відкритим завданням.
Постановка завдання. У роботі запропоновано новий підхід до відображення мовних сигналів, як векторів ознак розподілених у часі, з використанням рекурентної нейронної мережі.
Виклад основного матеріалу. Розпізнавання мовця включає ідентифікацію та верифікацію людини за голосом та полягає у пошуці оптимальної пари функції відображення набору ознак мовного сигналу в багатовимірний вектор, та функції оцінки схожості таких відображень. Для пошуку альтернативної функції відображення ознак мовного сигналу в роботі використано рекурентну нейронну мережу, що складається з ланцюга двонаправлених довгих короткочасних пам’ятей. Використано евклідову відстань для спрощення процесу зрівняння зразків мовних сигналів. Для налаштування ваг рекурентної нейронної мережі використано підхід триплет втрат, що успішно використовується для розпізнавання облич.
Висновки. Експериментально показано, що використання запропонованого підходу дозволило зменшити помилку розпізнавання мовця EER на 7,5 % порівняно із сучасним підходом i-vector при розмірності векторів відображень 16 та 100, відповідно, для мовних сигналів тривалістю 2 с.
Посилання
Kinnunen, Tomi, Li Haizhou (2010). An Overview of Text-independent Speaker Recognition: From Features toSupervectors. Speech Commun, vol. 52, no. 1, pp. 12–40. Retrieved from
http://dx.doi.org/10.1016/j.specom.2009.08.009.
Dehak, N., Kenny, P. J. & Dehak R. et al. (2011). Front-End Factor Analysis for Speaker Verification. IEEETransactions on Audio, Speech, and Language Processing, vol. 19, no. 4, pp. 788–798.
Garcia-Romero, Daniel, Espy-Wilson Carol Y. (2011). Analysis of i-vector Length Normalization in Speaker Recognition Systems. Interspeech, vol. 2011, pp. 249–252.
Achintya, Kumar Sarkar, Driss, Matrouf (eds.) (2012). Study of the Effect of I-vector Modeling on Short and Mismatch Utterance Duration for Speaker Verification. INTERSPEECH. ISCA, pp. 2662–2665. Retrieved from http://dblp.uni-trier.de/db/conf/interspeech/interspeech2012.
html#SarkarMBB12.
Ehsan, Variani, Xin, Lei & Erik McDermott et al. (2014). Deep neural networks for small footprint text-dependent speaker verification. Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE InternationalConference on / IEEE, pp. 4052–4056.
Ghahabi, Omid, Hernando, Javier (2014). Deep belief networks for i-vector based speaker recognition. Acoustics,Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on / IEEE, pp.1700–1704.
Davis Steven, Mermelstein Paul (1980). Comparison of parametric representations for monosyllabic word recognitionin continuously spoken sentences. IEEE transactions on acoustics, speech, and signal processing, vol. 28, no. 4, pp. 357–366.
Richardson, Fred, Reynolds, Douglas & Dehak Najim (2015). Deep neural network approaches to speaker and languagerecognition . IEEE Signal Processing Letters, vol. 22, no. 10, pp. 1671–1675.
Yella Sree Harsha, Stolcke Andreas, Slaney Malcolm (2014). Artificial neural network features for speaker diarization. Spoken Language Technology Workshop (SLT), 2014 IEEE / IEEE, pp. 402–406.
Schroff Florian, Kalenichenko Dmitry, Philbin James (2015). Facenet: A unified embedding for face recognition andclustering. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 815–823.
He Wanjia, Wang Weiran, Livescu Karen (2016). Multi-view Recurrent Neural Acoustic Word Embeddings. CoRR, vol. abs/1611.04496. Retrieved from http://arxiv.org/abs/1611.04496.
Bredin, Hervé (2016) TristouNet: Triplet Loss for Speaker Turn Embedding. CoRR, vol. abs/1609.04301. Retrieved from http://arxiv.org/abs/1609.04301.
Sundermeyer Martin, Schlüter Ralf & Ney Hermann. (2012). LSTM Neural Networks for Language Modeling. Interspeech, pp. 194–197.
Zhizheng Wu, Tomi Kinnunen & Nicholas Evans et al. (2015). ASVspoof 2015: the first automatic speaker verification spoofing and countermeasures challenge. Training, vol. 10, no. 15, pp. 3750.
VoxForge project. Retrieved from http://voxforge.org.
Sarikaya Ruhi, Pellom Bryan L., & Hansen John HL. (1998). Wavelet packet transform features with application to speaker identification. IEEE Nordic signal processing symposium / CiteSeerX, pp. 81–84.
Moore, Brian CJ. (2012). An introduction to the psychology of hearing. Brill.
Корнієнко О. О. Вейвлет-пакетні ознаки мовного сигналу у завданні розпізнавання мовця / О. О. Корнієнко // Вимірювальна та обчислювальна техніка в технологічних процесах : міжнар. наук.-техн. журн. – 2017. – № 2. – C. 111–117.
Alam, J. Patrick Kenny & Pierre Ouellet et al. (2014). Supervised/Unsupervised Voice Activity Detectors for Textdependent Speaker Recognition on the RSR2015 Corpus. Odyssey Speaker
and Language Recognition Workshop. Retrieved from http://www.crim.ca/perso/patrick.kenny/Alam_odyssey2014.pdf.
Chollet François. Keras. 2015.
Funk, Simon (2015). RMSprop loses to SMORMS3 – beware the epsilon! Retrieved from
http://sifter.org/~simon/journal/20150420.html.
Khoury Elie, El Shafey Laurent & Marcel Sébastien (2014). Spear: An open source toolbox for speaker recognition based on Bob. Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on / IEEE, pp. 1655–1659.
Maaten Laurens van der, Hinton Geoffrey. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research, vol. 9, no. Nov., pp. 2579–2605.
##submission.downloads##
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2018 Чернігівський національний технологічний університет, 2015
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial 4.0 International License.