Системи підтримки рішень при класифікації об’єктів
Loading...
Date
2021
Authors
Коваленко, Руслан
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Мета роботи: систематизація та кластеризація продуктів із різних
інтернет-платформ на основі неконтрольованої відповідності (unsupervised
matching) та метричного способу.
В розділі 1 проведено аналіз та підготовку даних, досліджено та
сформовано семантичні правила для визначення міри важливості токенів.
В розділі 2 спроектовано числову оціночну функцію, яка дозволяє на базі
параметрів, таких як, частота використання токенів, довжини, відстані від
початку назви товарів, а також “гарячих токенів”, визначених за
правилами, описаними в першому розділі. Це дозволяє впорядкувати
комбінації токенів в межах однієї назви товару, разом з тим, визначити
комбінацію, яка найкраще представляє даних продукт. На базі цієї
інформації, ми сформували первинні кластери.
В розділі 3 проведено верифікацію побудованих первинних кластерів в 2
розділі, враховуючи підтримувальні правила, сформованих задля
відхилень від початкової задачі.
В результаті отримали алгоритм, який здатний кластеризувати товари
незалежно від семантичної складності формулювання назви. А також,
верифікувати, і разом з тим, реструктуризувати кластери у випадку
неявних відхилень під час їх побудови.
Description
Keywords
систематизація та кластеризація, неконтрольована відповідність, частота використання токенів, розробка структур даних, магістерська робота