Методи глибинного навчання з підкріпленням  для адаптивної оптимізації маршрутів військової логістики

Андрій  Савка; Михайло  Копилець

doi:10.25140/2411-5363-2026-1(43)-246-253

Автор(и)

Андрій Савка Національний університет «Львівська Політехніка», Україна https://orcid.org/0009-0004-9198-6713
Михайло Копилець Національний університет «Львівська Політехніка», Україна https://orcid.org/0009-0004-5823-9871

DOI:

https://doi.org/10.25140/2411-5363-2026-1(43)-246-253

Ключові слова:

військова логістика; оптимізація маршрутів; штучний інтелект; навчання з підкріпленням; марковський процес

Анотація

Зростаюча складність тилового забезпечення в умовах урбанізованих районів бойових дій, високої динаміки оперативної ситуації та обмеженості ресурсів зумовлює необхідність впровадження інтелектуальних адаптивних систем маршрутизації. Традиційні методи планування військових маршрутів мають обмежену здатність реагувати на зміни в реальному часі, зокрема на руйнування інфраструктури, зміну рівня загроз, блокування шляхів сполучення та часові обмеження виконання завдань. У дослідженні запропоновано AI-орієнтовану адаптивну модель оптимізації маршрутів для військової логістики, яка використовує дані в реальному часі, навчання з підкріпленням і прогнозну аналітику для підвищення ефективності забезпечення підрозділів. Модель сформульована у вигляді процесу прийняття рішень Маркова та реалізована з використанням алгоритмів глибокого Q-навчання.

Посилання

Bertsimas, D. J., & Simchi-Levi, D. (1996). A new generation of vehicle routing re-search: Robust algorithms, addressing uncertainty. Operations Research, 44(2), 286–304. https://doi.org/10.1287/ opre.44.2.286.

Choi, T.-M., Wallace, S. W., & Wang, Y. (2018). Big data analytics in operations management. Production and Operations Management, 27(10), 1868–1883. https://doi.org/10.1111/poms.12838.

Dorigo, M., & Gambardella, L. M. (1997). Ant colony system: A cooperative learning approach to the traveling salesman problem. IEEE Transactions on Evolutionary Computation, 1(1), 53–66. https://doi.org/10.1109/4235.585892.

Kress, M. (2002). Operational logistics. Springer US. https://doi.org/10.1007/978-1-4615-1085-7.

Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., Graves, A., Riedmiller, M., Fidjeland, A. K., Ostrovski, G., Petersen, S., Beattie, C., Sadik, A., Antonoglou, I., King, H., Kumaran, D., Wierstra, D., Legg, S., & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529–533. https://doi.org/10.1038/nature14236

Powell, W. B. (2019). A unified framework for stochastic optimization. Princeton University Press.

Simchi-Levi, D., Kaminsky, P., & Simchi-Levi, E. (2007). Designing and managing the supply chain: Concepts, strategies and case studies (3rd ed.). McGraw-Hill.

Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., van den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M., Dieleman, S., Grewe, D., Nham, J., Kalchbrenner, N., Sutskever, I., Lillicrap, T., Leach, M., Kavukcuoglu, K., Graepel, T., & Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489. https://doi.org/10.1038/nature16961.

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3-4), 279–292. https://doi.org/10.1007/bf00992698.