Еволюція агентів навчання з підкріпленням за допомогою генетичного алгоритму

Автор(и)

  • Артем Волокита Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна http://orcid.org/0000-0001-9069-5544
  • Богдан Герега Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна

DOI:

https://doi.org/10.25140/2411-5363-2023-2(32)-175-184

Ключові слова:

навчання з підкріпленням; генетичний алгоритм; агент; безградієнтний підхід; нейронна ме- режа; CartPole, policy gradients

Анотація

Це дослідження вивчає використання генетичних алгоритмів для покращення продуктивності агентів, що навчаються за допомогою підкріплення. Ми провели випробування, використовуючи різні параметри нейронної мережі, зокрема ваги, зсуви та функції активації, з метою знайти оптимальні значення, які змушують агента отримувати більше винагород. Наш підхід включає використання знань про предметну область для ініціалізації популяції генетичного алгоритму, а також для оцінки рішень. Це дозволяє нам спрямувати пошук до більш перспективних рішень. Особлива увага приділена впливу різних параметрів генетичного алгоритму на ефективність навчання. Потенційні застосування цього
дослідження широкі – від робототехніки та автономних транспортних засобів до ігор та фінансів. Результати дослідження також можна використовувати для розробки нових алгоритмів та методів для покращення продуктивності агентів, що навчаються за допомогою підкріплення, що далі сприятиме розвитку машинного навчання.
Наше дослідження показало, що використання генетичного алгоритму може значно покращити ефективність навчання агентів. Результатом роботи є успішне проходження гри CartPole-v0 еволюціонований агентами. 98 % нашої популяції досягнуть максимуму, тобто успішно пройдуть гру.

Біографії авторів

Артем Волокита, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

кандидат технічних наук, доцент кафедри обчислювальної техніки

Богдан Герега, Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

студент 6-го курсу факультету ІОТ

Посилання

Wilson, A.C., Roelofs, R., Stern, M., Srebro, N., & Recht B. (2017). The marginal value of adaptive gradient methods in machine learning. Advances in neural information processing systems. https://arxiv.org/abs/1705.08292.

Arzate, C., & Igarashi, T. (2020, July). A survey on interactive reinforcement learning: Design principles and open challenges. Proceedings of the 2020 ACM designing interactive systems conference (pр. 1195-1209).

Salimans, T., Ho, J., Chen, X., Sidor, S., & Sutskever, I. (2017). Evolution strategies as a scalable alternative to reinforcement learning. arXivpreprintarXiv:1703.03864.

Such, F.P., Madhavan, V., Conti, E., Lehman, J., Stanley, K. O., & Clune, J. (2017). Deep neuroevolution: Genetic algorithms are a competitive alternative for training deep neural networks for reinforcement learning. https://arxiv.org/abs/1712.06567.

Khadka, S., & Tumer, K. (2018). Evolution-guided policy gradient in reinforcement learning. Advances in Neural Information Processing Systems. https://arxiv.org/abs/1805.07917.

Brockman, G., Cheung, V., Pettersson, L., Schneider, J., Schulman, J., Tang, J., & Zaremba, W. (2016). Openai gym. https://arxiv.org/abs/1606.01540.

Nandy, A., & Biswas, M. (2018). OpenAI basics. Reinforcement Learning (pр. 71-87). https://link.springer.com/chapter/10.1007/978-1-4842-3285-9_3.

Lambora, A., Gupta, К., & Chopra, K. (2019, February). Genetic algorithm-A literature review / А. Lambora // 2019 international conference on machine learning, big data, cloud and parallel computing (COMITCon) (pр. 380-384).

Kumar, М., Husain, D., Upreti, N., & Gupta, D. (2010). Genetic algorithm: Review and application. International Journal of Information Technology and Knowledge Management, 2(2), 451-454.

Mishra, P. (2023). Introduction to neural networks using PyTorch. PyTorch Recipes: A Problem-Solution Approach to Build, Train and Deploy Neural Network Model (pр. 117-133). Apress, Berkeley, CA.

##submission.downloads##

Опубліковано

2023-08-17

Як цитувати

Волокита, А. ., & Герега, Б. . (2023). Еволюція агентів навчання з підкріпленням за допомогою генетичного алгоритму. Технічні науки та технології, (2 (32), 175–184. https://doi.org/10.25140/2411-5363-2023-2(32)-175-184

Номер

Розділ

ІНФОРМАЦІЙНО-КОМП’ЮТЕРНІ ТЕХНОЛОГІЇ