Исследование детерминированных регулярных выражений с использованием структуры данных xml-типа

Автор(и)

  • Юлия Игоревна Бабич Одесский национальный политехнический университет, Ukraine https://orcid.org/0000-0001-9966-2810
  • Николай Иванович Бабич Одесский национальный политехнический университет, Ukraine https://orcid.org/0000-0002-3946-9880
  • Елена Георгиевна Павлышко Одесский национальный политехнический университет, Ukraine
  • Виктория Ивановна Наконечная Херсонский политехнический колледж Одесского национального политехнического университета, Ukraine

Ключові слова:

набор данных, регулярные выражения, детерминированные регулярные выражения, XML-тип

Анотація

Актуальность темы исследования. В данной статье проведён глубокий анализ большого набора данных с помощью поисковых систем и хостинговых платформ. Использованы четыре стратегии сбора данных: анализ поисковой системы Google, сканирование адресного пути, анализ веб-сайтов, поиск потенциальных данных для получения большего количества файлов-схем из сети Интернет. Получил дальнейшее практическое исследование набор данных для изучения детерминированных регулярных выражений. 

Постановка проблемы. Современные языки описания структур данных XML-типа требуют применение детерминированных регулярных выражений, позволяющих считывать строки посимвольно. Поэтому исследование данных выражений позволит ускорить процесс обработки данных и получить более точный результат.

Анализ последних исследований и публикаций. Проведённый анализ современных литературных источников и публикаций на данную тематику показал, что большинство из них используют небольшие объёмы данных, что является недостаточным для проведения эффективного анализа.

Выделение неисследованных частей общей проблемы. Для эффективного анализ данных из сети Интернет был использован большой набор данных и четыре стратегии его сбора и анализа.

Целью написания данной статьи является исследование детерминированных регулярных выражений, которые всё чаще применяются в структурах данных XML- типа. 

Изложение основного материала. Разработка четырёх стратегий сбора данных в сети Интернет дала возможность получить больше XML-схем, что в 35 раз больше, чем в ранее проведённых исследованиях. Применение детерминированных регулярных выражений в целом и их подклассов для анализа больших наборов данных.

Выводы в соответствии со статьей. Впервые применены детерминированные регулярные выражения с использованием структуры данных XML- типа. Получен большой объём данных – 276371 файлов с помощью четырёх стратегий их сбора. 

Біографії авторів

Юлия Игоревна Бабич, Одесский национальный политехнический университет

кандидат технических наук, доцент

Николай Иванович Бабич, Одесский национальный политехнический университет

кандидат технических наук, доцент

Елена Георгиевна Павлышко, Одесский национальный политехнический университет

старший преподаватель

Виктория Ивановна Наконечная, Херсонский политехнический колледж Одесского национального политехнического университета

преподаватель

Посилання

Yeting Li, Xiaolan Zhang, Feifei Peng, Haiming Chen. Practical Study of Subclasses of Regular Expressions in DTD and XML Schema. Springer International Publishing, Cham, 2016.

Regex Advice. RegExLib. URL: http://www.regexlib.com.

Фридл Дж. Регулярные выражения : учебное пособие. 3-е изд. Санкт-Петербург : СимволПлюс, 2008. 608 с.

The regular expressions in practice. URL: https://www.regular.com.

Косенко Ю. І., Рослякова С. В., Носов П. С. Система ідентифікації функціональної ентропії суб’єкта критичної інфраструктури. Современные направления теоретических и прикладных исследований : сборник научных трудов по материалам Международной научно-практической конференции. Одесса, 2013. Вип. 2. С. 50–54.

Pogorilyy S., Shkulipa I. A. Conception for Creating a System of Parametric Design of Parallel Algorithms and their Software Implementations. Cybernetics and System Analysis. 2009. № 6. P. 952–958.

Grijzenhout S., Marx M. The quality of the XML web. Web Semantics: Science, Services and Agents on the World Wide Web. 2013. № 19. P. 59–68.

Системні дослідження та інформаційні технології. URL: http://journal.iasa.kpi.ua.

Jsoup: Java HTML Parser. URL: https://jsoup.org/apidocs/overview-summary.html.

Morton M. The process of using regular expressions. Cybernetics and System Analysis. 2017. № 2. P. 42–49.

##submission.downloads##

Як цитувати

Бабич, Ю. И., Бабич, Н. И., Павлышко, Е. Г., & Наконечная, В. И. (2020). Исследование детерминированных регулярных выражений с использованием структуры данных xml-типа. Технічні науки та технології, (2(20), 167–174. вилучено із http://tst.stu.cn.ua/article/view/215793

Номер

Розділ

ІНФОРМАЦІЙНО-КОМП’ЮТЕРНІ ТЕХНОЛОГІЇ