ПИТАННЯ ГЕНЕРАЦІЇ ТЕМАТИЧНИХ ТЕКСТІВ НА ОСНОВІ РЕКУРЕНТНИХ НЕЙРОННИХ МЕРЕЖ ТА WORD2VEC
Ключові слова:
генерація тексту, рекурентні нейронні мережі, довга короткочасна пам’ять, word2vecАнотація
Актуальність теми дослідження. Проблема генерації текстів стає більш актуальною в останні дні у зв’язку зі зростаючим попитом на автоматичне створення описів об’єктів, уривків статей, підсумків новин, повідомлень у службах мікроблогів, відповідей чат-ботів тощо. Таким чином, проблемою є створення текстів, що відповідають заданій тематиці. Ця робота присвячена проблемі генерації текстів саме російською мовою, оскільки кожна мовна група вимагає індивідуального підходу.
Постановка проблеми. Відсутність добре інтерпретованого методу для автоматичного створення російськомовних тематичних текстів за допомогою рекурентних нейронних мереж.
Аналіз останніх досліджень і публікацій. Протягом останніх років з’являється все більше статей, присвячених генерації тематичних текстів, зокрема, завдяки появі нових методів генерації послідовностей з використанням рекурентних нейронних мереж. Проте підходи специфічні для генерації тематичних текстів, особливо російською мовою, все ще недостатньо вивчені.
Виділення не вирішених раніше частин загальної проблеми. Стаття присвячена вивченню та аналізу запропонованого підходу для генерації тематичних текстів, зокрема написаних російською мовою. Дослідження сфокусовано на вивченні застосування рекурентних нейронних мереж та word2vec.
Постановка завдання. Завданням є створити модель, натреновану на групі уривків російськомовних статей, що навчиться визначати контекст тексту, і як результат видавати добре інтерпретований текст за тією ж самою тематикою.
Виклад основного матеріалу. Проведено аналіз спільного використання моделей RNN та word2vec. Описано підходи для обробки вхідного тексту, аналізу структури речень, прогнозування наступних частин мови, прогнозування наступних слів та структури відповідних моделей. Результати виявились добре інтерпретованими та змістовними.
Висновки. Проаналізовано зміст, структуру та параметри моделей, які показали найкращі результати для генерації текстів. Підхід показав себе добре для створення тематичних текстів. Наведені результати експериментів та аналіз наступних кроків.
Посилання
Mikolov, T., Karafiát, M., Burget, L., Cernocký, J., & Khudanpur, S. (2010, September). Recurrent neural network based language model. In Interspeech (Vol. 2, p. 3).
Sutskever, I., Martens, J., & Hinton, G. E. (2011). Generating text with recurrent neural networks. In Proceedings of the 28th International Conference on Machine Learning (ICML-11) (pp. 1017-1024).
Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3156-3164).
Shang, L., Lu, Z., & Li, H. (2015). Neural responding machine for short-text conversation. arXiv preprint arXiv:1503.02364.
Graves, A. (2013). Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850.
Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In Advances in neural information processing systems (pp. 3104-3112).
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.
Graves, A., Mohamed, A. R., & Hinton, G. (2013, May). Speech recognition with deep recurrent neural networks. In Acoustics, speech and signal processing (icassp), 2013 ieee international conference on (pp. 6645-6649). IEEE.
Graves, A., & Schmidhuber, J. (2009). Offline handwriting recognition with multidimensional recurrent neural networks. In Advances in neural information processing systems (pp. 545-552).
Eck, D., & Schmidhuber, J. (2002). A first look at music composition using lstm recurrent neural networks. Istituto Dalle Molle Di Studi Sull Intelligenza Artificiale, 103.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781
Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2016). Enriching word vectors with subword information. arXiv preprint arXiv:1607.04606.
Wikimedia downloads. Retrieved from http://dumps.wikimedia.org.
##submission.downloads##
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2018 Чернігівський національний технологічний університет, 2015
Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial 4.0 International License.