Використання штучних нейронних мереж для аудіо класифікації на мінікомп’ютерній платформі

Автор(и)

DOI:

https://doi.org/10.25140/2411-5363-2024-4(38)-134-149

Ключові слова:

штучні нейронні мережі; аудіокласифікація; мінікомп’ютер; NVIDIA Jetson Nano; БПЛА

Анотація

У статті представлено результати аналізу досвіду практичного використання існуючих моделей штучних нейронних мереж для вирішення задач аудіокласифікації на мінікомп’ютерній платформі. Визначено основні виклики, пов’язані з обробкою шумів, недостатністю маркованих даних і адаптацією моделей до специфічних умов використання. Проаналізовано архітектурні особливості побудови типових моделей нейронних мереж для задачі аудіокласифікації. Запропоновано методику використання моделей CNN, RNN  та трансформерів на мінікомп’ютері NVIDIA Jetson Nano та проведено оцінку їх продуктивності при класифікації аудіошумів БПЛА. Обґрунтовано напрямок подальших досліджень для вдосконалення методів навчання та оптимізації моделей аудіокласифікації.

штучні нейронні мережі; аудіокласифікація; мінікомп’ютер; NVIDIA Jetson Nano; БПЛА

Біографії авторів

Володимир Казимир, Національний університет «Чернігівська політехніка»

доктор технічних наук, професор, професор кафедри інформаційних та комп’ютерних систем 

Андрій Роговенко, Національний університет «Чернігівська політехніка»

кандидат технічних наук, доцент кафедри інформаційних та комп’ютерних систем

Олексій Карась, Національний університет «Чернігівська політехніка»

студент магістратури

Посилання

Хома, Ю. В. Порівняльний аналіз програмно-апаратного забезпечення алгоритмів глибокого навчання / Ю. В. Хома, А. Я. Бенч // Комп’ютерні системи і мережі. – 2019. – Т.1. – № 1. – С. 97-102.

Казимир, В. В. Проєктування системи керування дрона у складі захисної мультиа-гентної системи / В. В. Казимир, А. І. Роговенко, О. О. Карась // Технічні науки т атехноло-гії. – 2024. – № 2(36). – С. 102-115.

Hershey, S. CNN architectures for large-scale audio classification / S. Hershey [et al.] // 2017 IEEE international conference on acoustics, speech and signal processing (icassp). – IEEE, 2017. – С. 131-135.

Palanisamy, K. Rethinking CNN models for audio classification [Electronic resource] / K. Palanisamy, D. Singhania, A. Yao. – Accessed mode: https://arxiv.org/pdf/2007.11154.pdf.

Gong Y. AST: Audio Spectrogram Transformer [Electronic resource] / Yuan Gong, Yu-An Chung, James R. Glass // arXiv.org. – 2021. – Accessed mode: https://arxiv.org/abs/2104.01778.

Nandi P. Recurrent Neural Nets for Audio Classification [Electronic resource] / Papia Nandi // Medium. – 2024. – Accessed mode: https://towardsdatascience.com/recurrent-neural-nets-for-audio-classification-81cb62327990.

Moinnereau, M. A. Classification of auditory stimuli from EEG signals with a regulated recurrent neural network reservoir / Marc-Antoine Moinnereau, Thomas Brienne, Simon Brodeur, Jean Rouat, Kevin Whittingsta, Eric Plourde // arXiv.org. – 2018. – Accessed mode: https://arxiv.org/pdf/1804.10322.

Yuan Gong. AST: Audio Spectrogram Transformer / Yuan Gong, Yu-An Chung, James R. Glass // INTERSPEECH 2021 30 August – 3 September, 2021, Brno, Czechia. – Pр. 571- 575.

Ramzan, F. A Deep Learning Approach for Automated Diagnosis and Multi-Class Classification of Alzheimer’s Disease Stages Using Resting-State fMRI and Residual Neural Networks / F. Ramzan, M. U. Khan, A. Rehmat, S. Iqbal, T. Saba, A. Rehman, Z. Mehmood // Journal of Medical Systems. – 2019. – Vol. 44(2). DOI:10.1007/s10916-019-1475-2.

Liu, Y. A Convolutional Recurrent Neural-Network-Based Machine Learning for Scene Text Recognition Application / Yiyi Liu, Yuxin Wang, Hongjian Shi // Symmetry. – 2023. – Vol. 15, № 4. – P. 849. DOI: https://doi.org/10.3390/sym15040849.

Papers with Code - UrbanSound8K Dataset [Electronic resource] // The latest in Machine Learning : Papers With Code. – Accessed mode: https://paperswithcode.com/dataset/urbansound8k-1.

Piczak, K. J. ESC: Dataset for Environmental SoundClassification / K. J. Piczak // Proceedings of the 23rd Annual ACMConference on Multimedia, Brisbane, Australia: ACMPress, Oct. 13, 2015. –Рp. 1015–1018. – Accessed mode: https://www.karolpiczak.com/papers/Piczak2015-ESC-Dataset.pdf.

Al-Emadi, S. Saraalemadi/DroneAudioDataset [Electronic resource] // GitHub. – 2018). – Accessed mode: https://github.com/saraalemadi/DroneAudioDataset.

Zhang, Y. Hello Edge: Keyword Spotting on Microcontrollers [Electronic resource] / Y. Zhang, N. Suda, L. Lai, V. Chandra // arXiv.org. – Accessed mode: https://arxiv.org/abs/1711.07128.

2018. [Online]. Available: https://www.tensorflow.org/tutorials/sequences/audiorecognition.

##submission.downloads##

Опубліковано

2024-12-30

Як цитувати

Казимир, В., Роговенко, А., & Карась, О. . (2024). Використання штучних нейронних мереж для аудіо класифікації на мінікомп’ютерній платформі. Технічні науки та технології, (4 (38), 134–149. https://doi.org/10.25140/2411-5363-2024-4(38)-134-149

Номер

Розділ

ІНФОРМАЦІЙНО-КОМП’ЮТЕРНІ ТЕХНОЛОГІЇ