Rule–based NLP approaches for architectural monuments documents' extraction

Loading...
Thumbnail Image
Date
2023
Authors
Кирилін, Єгор
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Метою роботи є детальний аналіз методів обробки природної мови для використання їх для дослідження та роботи з українськомовним набором даних з реєстру пам'яток культури України. Досліджено географічний та хронологічний розподіли пам'яток, а також способи написання датувань у реєстрі. У процесі роботи виявлено, що існує значна невиправдана варіативність у написанні дат та інших атрибутів пам'яток, що створює складнощі у подальшій обробці та аналізі. Також, опрацьовано найпоширеніші типи пам'яток культури в реєстрі. Кінцевим продуктом є парсер, створений для розв’язання проблеми різноманіття в написанні даних, з використанням методів обробки природної української мови, що дає змогу єдиним та стандартизованим способом вводити інформацію в реєстр, що полегшує подальший аналіз та обробку і забезпечує точність даних. Для створення застосунку використано мову програмування Python, оскільки вона має бібліотеки для аналізу та візуалізації даних, обробки геоданих та інших задач.
Description
Keywords
модель UDPipe, бібліотека статистичної візуалізації Vega-Altair, формування інтерактивної мапи, розробка методів для парсера, курсова робота
Citation