Module 3 - Tuần 2: K-Học-K-Vui: Hành Trình Tìm K Hoàn Hảo và Những Cú Chạm Py-Spark Ngoạn Mục!

Tuần thứ hai của Module 3 mở màn bằng khám phá K-Means clustering và KNN algorithms, cùng với PySpark data engineering – một tuần học đậm chất thực chiến và ứng dụng!

  • 4 min read

🎉 Chào mừng đến với blog Tuần 2 của team Time Series – Module 3!

🌟 Giới thiệu

Chào mừng bạn đến với tuần học thú vị về hai thuật toán quan trọng nhất trong Machine Learning! Tuần này chúng ta sẽ khám phá K-Nearest Neighbors (KNN) - một thuật toán học có giám sát đơn giản nhưng mạnh mẽ, và K-Means Clustering - thuật toán phân cụm phổ biến trong học không giám sát.

Đây không chỉ là tuần học lý thuyết mà còn là hành trình thực hành từ những tính toán tay cơ bản đến việc xây dựng các ứng dụng AI thực tế. Bạn sẽ được làm việc với dữ liệu thật, tham gia cuộc thi AI, và học cách xử lý big data với PySpark.


📅 Lịch trình tuần học

🗓️ Thứ Ba - 05/08/2025 🔍 Cơ bản về KNN (Warm-up Session)

Giảng viên: TA Đình Thắng Nội dung: Bắt đầu với những bước đi đầu tiên trong thế giới KNN. Từ việc tính toán khoảng cách bằng tay đến hiểu sâu về nguyên lý “láng giềng gần nhất”. Session này sẽ giúp bạn nắm vững foundation trước khi đi sâu vào các chủ đề phức tạp hơn.

🗓️ Thứ Tư - 06/08/2025 🧠 Thuật toán K-Means (Main Session)

Giảng viên: Dr. Quang Vinh Nội dung: Buổi học chính đầu tiên với chuyên gia! Khám phá thế giới học không giám sát qua thuật toán K-Means. Từ lý thuyết clustering đến cài đặt thực tế, bạn sẽ hiểu cách máy tính có thể tự động phân nhóm dữ liệu mà không cần nhãn.

🗓️ Thứ Năm - 07/08/2025Big Data với PySpark (Data Engineering)

Giảng viên: TA Thuận Nội dung: Chuyển sang góc nhìn Data Engineering! Khi dữ liệu quá lớn để xử lý trên một máy tính, PySpark là giải pháp. Học cách làm việc với distributed computing và xử lý terabytes dữ liệu một cách hiệu quả.

🗓️ Thứ Sáu - 08/08/2025 🎯 KNN Nâng cao (Main Session)

Giảng viên: Dr. Đình Vinh Nội dung: Buổi học chính thứ hai với chuyên gia về Pattern Recognition! Đi sâu vào các kỹ thuật tối ưu hóa KNN: cách chọn k tối ưu, kết hợp với K-D Tree để tăng tốc, và khám phá các ứng dụng thực tế trong AI và Data Science.

🗓️ Chủ Nhật - 10/08/2025 💪 Thực hành và Consolidation (Exercise Session)

Giảng viên: TA Quốc Thái Nội dung: Kết thúc tuần với session thực hành tổng hợp. Ôn tập kiến thức quan trọng, giải các bài tập thách thức, và củng cố hiểu biết thông qua hands-on coding. Đây là cơ hội để bạn kiểm tra và hoàn thiện kỹ năng.


🎯 Mục tiêu học tập

Sau tuần học này, bạn sẽ có thể:

🔍 Về KNN (K-Nearest Neighbors)

  • Hiểu nguyên lý hoạt động và cách KNN đưa ra quyết định
  • Tính toán khoảng cách và thực hiện classification/regression
  • Tối ưu hóa hiệu suất với các cấu trúc dữ liệu như K-D Tree
  • Chọn giá trị k phù hợp cho từng bài toán cụ thể
  • Áp dụng KNN vào các bài toán thực tế

🧠 Về K-Means Clustering

  • Nắm vững khái niệm unsupervised learning và phân cụm
  • Hiểu thuật toán K-Means từ khởi tạo đến hội tụ
  • Cài đặt K-Means từ đầu và sử dụng thư viện
  • Đánh giá chất lượng clustering và chọn số cụm tối ưu
  • Ứng dụng trong segmentation, recommendation systems

Về Data Engineering

  • Làm quen với Spark ecosystem và distributed computing
  • Xử lý dữ liệu lớn với PySpark DataFrame
  • Hiểu cách scale machine learning algorithms

📂 Tài liệu đi kèm:

M3W2D1_KMean
📄 M3W2D1_KMean
M3W2D2_KNN
M3W2D5_PySpark
📄 M3W2D5_PySpark


🧠 Repository managed by Time Series Team Hub

Recommended for You