Чорней, РусланКоваленко, Руслан2022-01-202022-01-202021https://ekmair.ukma.edu.ua/handle/123456789/22363Мета роботи: систематизація та кластеризація продуктів із різних інтернет-платформ на основі неконтрольованої відповідності (unsupervised matching) та метричного способу. В розділі 1 проведено аналіз та підготовку даних, досліджено та сформовано семантичні правила для визначення міри важливості токенів. В розділі 2 спроектовано числову оціночну функцію, яка дозволяє на базі параметрів, таких як, частота використання токенів, довжини, відстані від початку назви товарів, а також “гарячих токенів”, визначених за правилами, описаними в першому розділі. Це дозволяє впорядкувати комбінації токенів в межах однієї назви товару, разом з тим, визначити комбінацію, яка найкраще представляє даних продукт. На базі цієї інформації, ми сформували первинні кластери. В розділі 3 проведено верифікацію побудованих первинних кластерів в 2 розділі, враховуючи підтримувальні правила, сформованих задля відхилень від початкової задачі. В результаті отримали алгоритм, який здатний кластеризувати товари незалежно від семантичної складності формулювання назви. А також, верифікувати, і разом з тим, реструктуризувати кластери у випадку неявних відхилень під час їх побудови.ukсистематизація та кластеризаціянеконтрольована відповідністьчастота використання токеніврозробка структур данихмагістерська роботаСистеми підтримки рішень при класифікації об’єктівOther