Khái niệm, định nghĩa Tiền xử lý dữ liệu là gì?

Tiền xử lý dữ liệu: Là bước làm sạch dữ liệu (xử lý dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, … ), tổng hợp dữ liệu (nén, nhóm dữ liệu, tính toán các đặc trưng tổng hợp, xây dựng các histograms, lấy mẫu, …), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, entropy, phân khoảng, …). Sau bước tiền sử lý này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và rời rạc hóa.