Giáo trình Khai thác dữ liệu (data mining) bao gồm các bài giảng về khai thác dữ liệu được tác giả sử dụng để giảng dạy cho sinh viên đại học và học viên cao học tại trường Đại học Công nghệ Thông tin, ĐHQG-HCM từ năm 2010 đến nay. Giáo trình gồm 9 chương: - Chương 1: Tổng quan về khai thác dữ liệu - Chương 2: Tập phổ biến và luật kết hợp - Chương 3: Dãy phổ biến - Chương 4: Phân lớp dữ liệu - Chương 5: Lý thuyết tập thô - Chương 6: Gom cụm dữ liệu - Chương 7: Khai thác văn bản - Chương 8: Khai thác dữ liệu lớn bằng thư viện Scikitlearn và Apache Spark - Chương 9: Dùng Weka để khai thác dữ liệu Giáo trình bao gồm các phần căn bản và nâng cao cho các học viên Cao học và Nghiên cứu sinh. Với sự xuất hiện của thư viện Scikit-learn và thư viện Apache Spark, chúng ta có thể tiến hành khai thác dữ liệu bằng cách sử dụng các hàm của thư viện. Chúng tôi trình bày các thư viện này trong chương 8. Đặc biệt là thư viện Apache Spark để khai thác dữ liệu lớn bằng khung phân tán. Trong chương 8 chúng tôi dùng ngôn ngữ lập trình Python với thư viện Scikit-learn và thư viện PySpark để thực hiện các tác vụ cơ bản của khai thác dữ liệu như tìm luật kết hợp, phân lớp gom cụm dữ liệu và gom cụm dữ liệu lớn trên nền tính toán phân tán Apache Spark. Giáo Trình Khai Thác Dữ Liệu NXB Đại Học Quốc Gia 2022 Đỗ Phúc 296 Trang File PDF-TRUE Link download https://ir.vnulib.edu.vn/handle/VNUHCM/15925 https://drive.google.com/file/d/1FWVLBX8JuGWRtr3oonpn64U_oM_1VXMyhttps://drive.google.com/drive/folders/1yLBzZ1rSQoNjmWeJTZ3WGQHg04L1