Метод та програмне забезпечення автоматизації процесів управління даними в гетерогенних базах даних

Гліб   Шевченко; Інна   Саяпіна

doi:10.25140/2411-5363-2026-2(44)-317-323

Автор(и)

Гліб Шевченко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0009-0005-5733-5826
Інна Саяпіна Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Україна https://orcid.org/0000-0003-1541-1681

DOI:

https://doi.org/10.25140/2411-5363-2026-2(44)-317-323

Ключові слова:

гетерогенні бази даних; інтеграція даних; автоматизоване управління даними; семантичне узгодження; дедуплікація; якість даних; формалізована модель; розподілені системи

Анотація

Зростання обсягів і різноманіття форматів даних у сучасних інформаційних системах призводить до необхідності інтеграції гетерогенних джерел, представлених реляційними, документоорієнтованими та іншими моделями зберігання. У таких умовах ускладнюється забезпечення узгодженості, якості та актуальності інформації, що вимагає автоматизації процесів управління даними. У роботі досліджується задача побудови методу автоматизованого управління гетерогенними даними на основі формалізованої моделі інтеграції. Запропонований метод описує процес інтеграції як композицію перетворень над множиною джерел даних, що включає синтаксичну гармонізацію структур, нормалізацію значень, семантичне зіставлення атрибутів на основі правил відповідності та дедуплікацію записів із використанням функцій подібності. Реалізація методу передбачає використання модульної архітектури програмного забезпечення, у якій етапи обробки даних виконуються послідовно та незалежно від типів джерел. Для зберігання інтегрованих даних застосовується реляційна база даних із підтримкою напівструктурованих форматів, що забезпечує гнучкість моделі та масштабованість системи. У межах підходу також визначено критерії оцінювання якості даних та механізми їх актуалізації у динамічних середовищах. Запропонований метод дозволяє підвищити рівень узгодженості та достовірності інтегрованих даних, скоротити час їх обробки та забезпечити ефективне функціонування систем у розподілених середовищах.

Посилання

Dong, X. L., & Srivastava, D. (2015). Big data integration. Springer. https://doi.org/10.1007/978-3-031-01853-4.

Blohm, I., Wortmann, F., Legner, C., & Köbler, F. (2024). Data products, data mesh, and data fabric. Business & Information Systems Engineering. https://doi.org/10.1007/s12599-024-00876-5

Remadi, A., El Hage, K., Hobeika, Y., & Bugiotti, F. (2024). To prompt or not to prompt: Navigating the use of large language models for integrating and modeling heterogeneous data. Data & Knowledge Engineering, 102313. https://doi.org/10.1016/j.datak.2024.102313.

Buono, F. D., Faggioli, G., Paganelli, M., Baraldi, A., Guerra, F., & Ferro, N. (2022). A framework to evaluate the quality of integrated datasets. ACM SIGAPP Applied Computing Review, 22(4), 5–23. https://doi.org/10.1145/3584014.3584015.

Rahm, E., & Bernstein, P. A. (2001). A survey of approaches to automatic schema matching. The VLDB Journal, 10(4), 334–350. https://doi.org/10.1007/s007780100057.

Kimball, R., & Ross, M. (2013). The data warehouse toolkit: The definitive guide to dimensional modeling. John Wiley & Sons.

Paganelli, M., Buono, F. D., Guerra, F., & Ferro, N. (2020). Unsupervised evaluation of data integration processes. У IiWAS '20: The 22nd international conference on information integration and web-based applications & services. ACM. https://doi.org/10.1145/3428757.3429129.

Barlaug, N., & Gulla, J. A. (2021). Neural networks for entity matching: A survey. ACM Transactions on Knowledge Discovery From Data, 15(3), 1–37. https://doi.org/10.1145/3442200.

Masmoudi, M., Lamine, S. B. A. B., Karray, M. H., Archimede, B., & Zghal, H. B. (2024). Semantic data integration and querying: A survey and challenges. ACM Computing Surveys. https://doi.org/10.1145/3653317.

Batini, C., & Scannapieco, M. (2016). Data and information quality. Springer International Publishing. https://doi.org/10.1007/978-3-319-24106-7.