Link to original video by Quang Cao

BDM Video

Outline Video BDM Video

Tóm tắt ngắn:

Tóm tắt chi tiết:

Video được chia thành các phần chính sau:

  1. Tiền xử lý dữ liệu: Nhóm sinh viên sử dụng tập dữ liệu Million Song Dataset. Quá trình bao gồm tải dữ liệu từ API và file zip, làm sạch dữ liệu (loại bỏ dữ liệu trùng lặp, xử lý giá trị thiếu), lọc dữ liệu (người dùng và bài hát), tạo ma trận tương tác dạng sparse, trích xuất đặc trưng cho bài hát (mã hóa one-hot, giảm chiều bằng PCA) và người dùng (thống kê lượt nghe, nghệ sĩ yêu thích). Kết quả là ma trận tương tác với độ thưa 6.79%, đặc trưng bài hát 402 chiều và đặc trưng người dùng 114 chiều. Thời gian xử lý là 38.5 giây. Có cảnh báo setting with copy warning cần được chú ý.

  2. Mô hình LFM: Nhóm sử dụng LFM với chiến lược tìm kiếm siêu tham số tối ưu bằng cách thử nghiệm 10 tổ hợp. Dữ liệu được chia thành tập huấn luyện và kiểm thử với tỉ lệ 70/30. Mô hình được đánh giá bằng precision, recall, F1-score. Kết quả tốt nhất đạt được là precision = 0.7166, recall = 0.7122, F1-score ≈ 0.1 (có vẻ như có lỗi trong việc đọc kết quả F1-score). Thời gian tải dữ liệu là 0.27 giây và huấn luyện mất 258 giây cho 10 tổ hợp.

  3. Mô hình DNN: DNN được xây dựng để học các đặc trưng phức tạp từ dữ liệu và cải thiện kết quả so với LFM. Nhóm sử dụng các hàm để điều chỉnh precision, recall, bias, chuẩn hóa chỉ số, và kết hợp kết quả từ LFM và DNN. Mô hình DNN được đánh giá bằng precision, recall, F1-score, coverage, Gini, entropy. Kết quả đạt được là precision = 0.78, F1-score = 0.23, recall = 0.13, coverage > 33%, Gini = 0.4, entropy = 7.18. Nhóm cũng so sánh DNN với Autoencoder, nhưng kết quả của Autoencoder thấp hơn.

  4. Phân tích SHAP: Nhóm sử dụng SHAP để phân tích và giải thích mô hình, đặc biệt là sự khác biệt giữa người dùng thường và người dùng "core".

  5. Ứng dụng web: Nhóm đã xây dựng một ứng dụng web để minh họa hệ thống đề xuất nhạc lai. Ứng dụng này có khả năng đề xuất nhạc cho cả người dùng cũ và người dùng mới, sử dụng cả LFM và DNN để tính điểm hybrid score. Ứng dụng cũng xử lý trường hợp người dùng mới bằng cách đề xuất nhạc phổ biến và dựa trên thể loại/nghệ sĩ.

Tóm lại, video trình bày một hệ thống đề xuất nhạc lai hiệu quả, kết hợp LFM và DNN, và được đánh giá bằng nhiều chỉ số khác nhau. Nhóm đã thực hiện đầy đủ các bước từ tiền xử lý dữ liệu đến xây dựng ứng dụng web để minh họa hệ thống. Tuy nhiên, một số kết quả (như F1-score của LFM) cần được kiểm tra lại.