Використання моделей вкладання слів в обробці природної мови

Дмитро  Журко; Ірина  Білоус

doi:10.25140/2411-5363-2025-1(39)-151-160

Автор(и)

Дмитро Журко Національний університет «Чернігівська політехніка», Україна https://orcid.org/0009-0001-4192-7780
Ірина Білоус Національний університет «Чернігівська політехніка», Україна https://orcid.org/0000-0003-3092-678X

DOI:

https://doi.org/10.25140/2411-5363-2025-1(39)-151-160

Ключові слова:

обробка природної мови; вкладання слів; векторна модель

Анотація

У статті представлено результати науково-методичного дослідження, присвяченого застосуванню вкладання слів в обробці природної мови. Зокрема, розглянуто основні моделі, такі як Word2Vec, GloVe, FastText. ELMo і BERT та проаналізовано вплив різних параметрів на точність і ефективність цих моделей. Описано наявні корпуси текстів українською мовою, які вже зібрані спільнотою, та можуть застосовуватися для навчання власних моделей. Досліджено використання зібраних корпусів текстів для тренування моделей, дана оцінка поточному прогресу та виявлені пріоритетні напрями для подальших досліджень. Результати роботи можуть бути застосовані для побудови власних моделей у різних предметних областях.

Біографії авторів

Дмитро Журко, Національний університет «Чернігівська політехніка»

аспірант кафедри інформаційних технологій та програмної інженерії

Ірина Білоус, Національний університет «Чернігівська політехніка»

кандидат технічних наук, доцент, завідувач кафедри інформаційних технологій та програмної інженерії

Посилання

Salton, G. (1962). Some experiments in the generation of word and document associa-tions. In The December 4-6, 1962, fall joint computer conference. ACM Press. https://doi.org/10.1145/ 1461518.1461544.

Salton, G., Wong, A., & Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613–620. https://doi.org/10.1145/361219.361220.

Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). Neural probabilistic language models. Journal of Machine Learning Research, (3), 1137–1155. https://www.jmlr.org/papers/ volume3/bengio03a/bengio03a.pdf.

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word rep-resentations in vector space. https://arxiv.org/pdf/1301.3781.

Pennington, J., Socher, R., & Manning, C. (2014). Glove: Global vectors for word repre-sentation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). Association for Computational Linguistics. https://doi.org/10.3115/v1/d14-1162.

Joulin, A., Grave, E., Bojanowski, P., Douze, M., Jégou, H., & Mikolov, T. (2016). Fasttext. zip: Compressing text classification models. https://arxiv.org/abs/1612.03651v1.

Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). https://arxiv.org/abs/1802.05365.

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North. Association for Computational Linguistics. https://doi.org/10.18653/v1/n19-1423.

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2020). Unsupervised cross-lingual represen-tation learning at scale. In Proceedings of the 58th annual meeting of the association for compu-tational linguistics. Association for Computational Linguistics. https://doi.org/10.18653/v1/2020.acl-main.747.

Nalisnick, E., Mitra, B., Craswell, N., & Caruana, R. (2016). Improving document rank-ing with dual word embeddings. In The 25th international conference companion. ACM Press. https://doi.org/ 10.1145/2872518.2889361.

Дарчук, Н. (2010). Дослідницький корпус української мови: Основні засади і перспективи. Вісник Київського національного університету імені Тараса Шевченка. Літературознавство. Мовознавство. Фольклористика, 21, 45-49.

Kutuzov, A., Kopotev, M., Sviridenko, T., & Ivanova, L. (2016). Clustering comparable corpora of Russian and Ukrainian academic texts: Word embeddings and semantic fingerprints. https://doi.org/ 10.48550/arXiv.1604.05372.

Zalutska, O., Molchanova, M., Sobko, O., Mazurets, O., Pasichnyk, O., Barmak, O.V., & Krak, I. (2023). Method for Sentiment Analysis of Ukrainian-Language Reviews in E-Commerce Using RoBERTa Neural Network. International Conference on Computational Lin-guistics and Intelligent Systems. https://ceur-ws.org/Vol-3387/paper26.pdf.

Vakulenko M., Slyusar V. (2024). Automatic smart subword segmentation for the reverse Ukrainian physical dictionary task. CEUR Workshop Proceedings. https://ceur-ws.org/Vol-3723/paper4.pdf.

Mikolov, T., Le, Q. V., & Sutskever, I. (2013). Exploiting similarities among languages for machine translation. https://doi.org/10.48550/arXiv.1309.4168.

Liu, C., Zhang, P., Li, T., & Yan, Y. (2019). Semantic Features Based N-Best Rescoring Methods for Automatic Speech Recognition. Applied Sciences, 9(23), 5053. https://doi.org/10.3390/app9235053.

GitHub - brown-uk/corpus: Браунський корпус української мови. (n.d.). GitHub. https://github.com/brown-uk/corpus.

Про нас: lang-uk. (n.d.). Головна: lang-uk. https://lang.org.ua/uk/about.

Liu, Z., Winata, G. I., Madotto, A., & Fung, P. (2020). Exploring fine-tuning techniques for pre-trained cross-lingual models via continual learning. https://arxiv.org/abs/2004.14218.

Використання моделей вкладання слів в обробці природної мови

Автор(и)

DOI:

Ключові слова:

Анотація

Біографії авторів

Дмитро Журко, Національний університет «Чернігівська політехніка»

Ірина Білоус, Національний університет «Чернігівська політехніка»

Посилання

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Ліцензія

Інформація

##plugins.block.developedBy.blockTitle##

Мова