1. Trong quá trình khai phá dữ liệu, bước nào sau đây thường được thực hiện ĐẦU TIÊN?
A. Xây dựng mô hình khai phá
B. Đánh giá mô hình
C. Hiểu bài toán và dữ liệu
D. Triển khai mô hình vào thực tế
2. Ứng dụng của khai phá dữ liệu trong lĩnh vực y tế KHÔNG bao gồm:
A. Dự đoán bệnh tật dựa trên tiền sử bệnh án.
B. Phân tích hiệu quả của các loại thuốc.
C. Thiết kế phần cứng máy tính mới.
D. Phân nhóm bệnh nhân để cá nhân hóa điều trị.
3. Mục tiêu chính của 'data visualization′ (trực quan hóa dữ liệu) trong khai phá dữ liệu là:
A. Tăng độ chính xác của mô hình khai phá.
B. Biểu diễn dữ liệu và kết quả khai phá một cách dễ hiểu.
C. Tự động hóa quá trình khai phá dữ liệu.
D. Giảm dung lượng lưu trữ dữ liệu.
4. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:
A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình chuyển đổi dữ liệu sang định dạng phù hợp cho phân tích.
C. Quá trình khám phá tri thức hữu ích từ lượng lớn dữ liệu.
D. Quá trình hiển thị dữ liệu bằng các biểu đồ và đồ thị trực quan.
5. Kỹ thuật nào sau đây giúp giảm số chiều dữ liệu trong khai phá dữ liệu, đồng thời giữ lại thông tin quan trọng nhất?
A. Chuẩn hóa dữ liệu (Normalization)
B. Phân tích thành phần chính (PCA - Principal Component Analysis)
C. Rời rạc hóa dữ liệu (Discretization)
D. Làm sạch dữ liệu (Data Cleaning)
6. Trong khai phá dữ liệu, 'Precision′ (Độ chính xác dương) được tính bằng:
A. Tỷ lệ mẫu dự đoán đúng trên tổng số mẫu.
B. Tỷ lệ mẫu dự đoán đúng là dương tính trên tổng số mẫu thực tế dương tính.
C. Tỷ lệ mẫu dự đoán đúng là âm tính trên tổng số mẫu thực tế âm tính.
D. Tỷ lệ mẫu dự đoán đúng là dương tính trên tổng số mẫu dự đoán là dương tính.
7. Trong khai phá dữ liệu, 'luật kết hợp′ (association rule) thường có dạng:
A. Nếu X thì Y (IF X THEN Y)
B. Y = aX + b
C. Nhóm các đối tượng tương tự nhau
D. Dự đoán giá trị tương lai của một biến số
8. Trong khai phá dữ liệu, 'feature scaling′ (tỷ lệ hóa thuộc tính) thường được áp dụng để:
A. Giảm số lượng thuộc tính của dữ liệu.
B. Đảm bảo các thuộc tính có cùng thang đo giá trị.
C. Phát hiện các thuộc tính bị thiếu giá trị.
D. Chuyển đổi dữ liệu định tính sang định lượng.
9. Kỹ thuật 'Naive Bayes′ thường được sử dụng cho bài toán nào trong khai phá dữ liệu?
A. Phân cụm dữ liệu ảnh
B. Phân loại văn bản (text classification)
C. Dự báo chuỗi thời gian
D. Khai thác luật kết hợp trong giao dịch
10. Thuật toán 'Support Vector Machine′ (SVM) thường được sử dụng cho bài toán nào?
A. Phân cụm dữ liệu lớn
B. Phân loại và hồi quy
C. Khai thác luật kết hợp
D. Dự báo chuỗi thời gian
11. Trong khai phá dữ liệu, 'RMSE′ (Root Mean Squared Error) là độ đo hiệu suất cho mô hình:
A. Phân loại
B. Phân cụm
C. Hồi quy
D. Khai thác luật kết hợp
12. Phương pháp nào sau đây KHÔNG phải là kỹ thuật giảm chiều dữ liệu?
A. PCA (Principal Component Analysis)
B. LDA (Linear Discriminant Analysis)
C. K-Means Clustering
D. Feature Selection (Lựa chọn thuộc tính)
13. Khi dữ liệu chứa nhiều giá trị ngoại lai (outliers), thuật toán phân cụm nào sau đây ít bị ảnh hưởng nhất?
A. K-Means
B. Hierarchical Clustering
C. DBSCAN
D. EM algorithm
14. Trong khai phá dữ liệu, 'bias-variance tradeoff′ (đánh đổi giữa độ chệch và phương sai) đề cập đến:
A. Sự đánh đổi giữa tốc độ và độ chính xác của thuật toán.
B. Sự đánh đổi giữa khả năng mô hình khớp tốt dữ liệu huấn luyện và dữ liệu mới.
C. Sự đánh đổi giữa số lượng thuộc tính và số lượng mẫu dữ liệu.
D. Sự đánh đổi giữa chi phí tính toán và chi phí lưu trữ dữ liệu.
15. Quá trình 'feature engineering′ (kỹ thuật tạo đặc trưng) trong khai phá dữ liệu nhằm mục đích:
A. Giảm kích thước dữ liệu.
B. Cải thiện hiệu suất của mô hình học máy.
C. Làm sạch dữ liệu bị thiếu.
D. Trực quan hóa dữ liệu.
16. Trong khai phá dữ liệu, 'cross-validation′ (kiểm định chéo) được sử dụng để:
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khả năng khái quát hóa của mô hình.
C. Giảm overfitting.
D. Làm sạch dữ liệu huấn luyện.
17. Thuật toán Apriori được sử dụng chủ yếu trong lĩnh vực nào của khai phá dữ liệu?
A. Phân loại văn bản
B. Khai thác luật kết hợp
C. Phân tích chuỗi thời gian
D. Giảm chiều dữ liệu
18. Trong khai phá dữ liệu, khái niệm 'entropy′ thường được sử dụng trong thuật toán nào?
A. K-Means
B. Apriori
C. Decision Tree (Cây quyết định)
D. SVM (Support Vector Machine)
19. Trong ngữ cảnh khai phá dữ liệu web, 'web usage mining′ (khai phá sử dụng web) tập trung vào:
A. Phân tích cấu trúc liên kết giữa các trang web.
B. Khai thác nội dung văn bản trên các trang web.
C. Phân tích hành vi duyệt web của người dùng.
D. Tự động thu thập thông tin từ web (web scraping).
20. Đánh giá mô hình phân loại trong khai phá dữ liệu, độ đo 'Độ chính xác′ (Accuracy) được tính bằng:
A. Tỷ lệ mẫu dự đoán đúng trên tổng số mẫu.
B. Tỷ lệ mẫu dự đoán đúng là dương tính trên tổng số mẫu thực tế dương tính.
C. Tỷ lệ mẫu dự đoán đúng là âm tính trên tổng số mẫu thực tế âm tính.
D. Trung bình cộng của Precision và Recall.
21. Thuật toán 'Random Forest′ là một dạng của:
A. Thuật toán phân cụm dựa trên mật độ.
B. Thuật toán phân loại dựa trên cây quyết định.
C. Thuật toán hồi quy tuyến tính.
D. Thuật toán khai thác luật kết hợp.
22. Ứng dụng nào sau đây KHÔNG phải là ứng dụng điển hình của khai phá dữ liệu?
A. Phân tích và dự đoán rủi ro tín dụng
B. Tối ưu hóa quy trình sản xuất
C. Thiết kế giao diện người dùng đồ họa
D. Cá nhân hóa trải nghiệm người dùng trên website
23. Kỹ thuật nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing values)?
A. Chuẩn hóa dữ liệu (Normalization)
B. Rút gọn dữ liệu (Data Reduction)
C. Imputation (Điền giá trị thiếu)
D. Phân tích thành phần chính (PCA)
24. Trong khai phá dữ liệu, 'overfitting′ (quá khớp) xảy ra khi:
A. Mô hình quá phức tạp và học quá kỹ dữ liệu huấn luyện.
B. Mô hình quá đơn giản và không nắm bắt được cấu trúc dữ liệu.
C. Dữ liệu huấn luyện chứa quá nhiều nhiễu.
D. Quá trình huấn luyện mô hình diễn ra quá nhanh.
25. Trong khai phá dữ liệu, 'Lift′ là một độ đo quan trọng trong:
A. Đánh giá mô hình phân loại.
B. Đánh giá mô hình phân cụm.
C. Khai thác luật kết hợp.
D. Phân tích chuỗi thời gian.
26. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Dự báo (Forecasting)
27. Phương pháp 'Decision Tree′ (Cây quyết định) thuộc loại mô hình khai phá dữ liệu nào?
A. Mô hình phân cụm
B. Mô hình phân loại
C. Mô hình hồi quy
D. Mô hình luật kết hợp
28. Phương pháp nào sau đây KHÔNG thuộc nhóm kỹ thuật tiền xử lý dữ liệu trong khai phá dữ liệu?
A. Chuẩn hóa dữ liệu (Data Normalization)
B. Làm sạch dữ liệu (Data Cleaning)
C. Xây dựng mô hình dự đoán (Predictive Modeling)
D. Rút gọn dữ liệu (Data Reduction)
29. Phương pháp 'K-Means′ trong khai phá dữ liệu thuộc loại kỹ thuật:
A. Phân loại có giám sát
B. Hồi quy tuyến tính
C. Phân cụm không giám sát
D. Giảm chiều dữ liệu
30. Độ đo 'Recall′ (Độ nhớ) trong đánh giá mô hình phân loại được tính bằng:
A. Tỷ lệ mẫu dự đoán đúng trên tổng số mẫu.
B. Tỷ lệ mẫu dự đoán đúng là dương tính trên tổng số mẫu thực tế dương tính.
C. Tỷ lệ mẫu dự đoán đúng là âm tính trên tổng số mẫu thực tế âm tính.
D. Tỷ lệ mẫu dự đoán đúng là dương tính trên tổng số mẫu dự đoán là dương tính.