Застосування PySpark для забезпечення якості та валідації Вig Data
Loading...
Date
2024
Authors
Полінчук, Кирило
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Ця дипломна робота присвячена вивченню та впровадженню методів валідації великих даних (Big Data) з використанням сучасних технологій, таких як машинне навчання, та інструментів, таких як Apache Spark. Робота охоплює теоретичні аспекти валідації даних, розглядає ключові характеристики та проблеми, пов'язані з великими даними, а також описує практичні підходи до їх обробки та забезпечення якості.
Description
Keywords
Apache Spark, Big Data, DataBricks, ELT, ETL, EtLT, Pandas, Parquet, PySpark, Veracity, валідація, великі дані, верифікація, класифікація, кластеризація, машинне навчання, магістерська робота