1. Trong khai phá dữ liệu web, 'web usage mining′ (khai phá sử dụng web) tập trung vào việc phân tích dữ liệu nào?
A. Nội dung trang web
B. Cấu trúc liên kết giữa các trang web
C. Hành vi duyệt web của người dùng (log truy cập, click chuột)
D. Thông tin tác giả của trang web
2. Độ đo nào sau đây thường được sử dụng để đánh giá hiệu quả của mô hình phân cụm?
A. Độ chính xác (Accuracy)
B. F1-score
C. Silhouette coefficient
D. AUC-ROC
3. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân cụm?
A. K-means
B. DBSCAN
C. Support Vector Machine (SVM)
D. Hierarchical Clustering
4. Ứng dụng nào sau đây KHÔNG phải là ứng dụng điển hình của khai phá dữ liệu?
A. Phát hiện gian lận thẻ tín dụng
B. Dự đoán thời tiết hàng ngày
C. Tối ưu hóa quy trình sản xuất trong nhà máy
D. Thiết kế logo công ty
5. Chọn phát biểu đúng về khai phá dữ liệu:
A. Khai phá dữ liệu chỉ tập trung vào việc thu thập dữ liệu.
B. Khai phá dữ liệu là quá trình tìm kiếm tri thức ẩn từ dữ liệu lớn.
C. Khai phá dữ liệu chỉ áp dụng cho dữ liệu có cấu trúc.
D. Khai phá dữ liệu thay thế hoàn toàn thống kê truyền thống.
6. Loại dữ liệu nào sau đây thường được sử dụng trong khai phá dữ liệu văn bản?
A. Dữ liệu số
B. Dữ liệu phân loại
C. Dữ liệu phi cấu trúc (văn bản)
D. Dữ liệu chuỗi thời gian
7. Mục tiêu của việc sử dụng 'regularization′ (chính quy hóa) trong học máy là gì?
A. Tăng độ chính xác trên tập huấn luyện
B. Giảm overfitting và cải thiện khả năng tổng quát hóa
C. Tăng tốc độ huấn luyện mô hình
D. Giảm số lượng đặc trưng
8. Phương pháp khai phá dữ liệu nào tập trung vào việc tìm ra các nhóm đối tượng tương tự nhau trong dữ liệu?
A. Phân lớp (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Dự báo (Forecasting)
9. Khi nào nên sử dụng thuật toán DBSCAN thay vì K-means cho phân cụm?
A. Khi biết trước số lượng cụm
B. Khi cụm có hình dạng lồi
C. Khi dữ liệu có nhiều nhiễu và cụm có hình dạng bất kỳ
D. Khi dữ liệu có chiều cao
10. Trong khai phá dữ liệu chuỗi thời gian, phương pháp 'ARIMA′ được sử dụng để làm gì?
A. Phân cụm dữ liệu chuỗi thời gian
B. Phân loại dữ liệu chuỗi thời gian
C. Dự báo chuỗi thời gian
D. Giảm chiều dữ liệu chuỗi thời gian
11. Trong khai phá dữ liệu, thuật ngữ 'curse of dimensionality′ (lời nguyền chiều dữ liệu) đề cập đến vấn đề gì?
A. Khó khăn trong việc trực quan hóa dữ liệu nhiều chiều
B. Sự suy giảm hiệu suất của một số thuật toán học máy khi số chiều dữ liệu tăng cao
C. Dữ liệu bị thiếu thông tin do chiều dữ liệu quá lớn
D. Yêu cầu bộ nhớ lưu trữ lớn để xử lý dữ liệu nhiều chiều
12. Phương pháp 'gradient boosting′ thuộc loại thuật toán học máy nào?
A. Thuật toán phân cụm
B. Thuật toán phân lớp và hồi quy dựa trên cây quyết định
C. Thuật toán giảm chiều dữ liệu
D. Thuật toán khai thác luật kết hợp
13. Trong khai phá dữ liệu văn bản, 'TF-IDF′ được sử dụng để làm gì?
A. Phân tích cảm xúc
B. Trích xuất thực thể
C. Đo lường tầm quan trọng của từ trong văn bản
D. Phân loại văn bản
14. Kỹ thuật 'cross-validation′ (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình học máy?
A. Tăng kích thước tập dữ liệu huấn luyện
B. Đánh giá độ tin cậy của mô hình và giảm overfitting
C. Chọn thuật toán học máy tốt nhất
D. Tiền xử lý dữ liệu
15. Kỹ thuật 'Association Rule Mining′ (khai thác luật kết hợp) thường được ứng dụng trong lĩnh vực nào?
A. Phân tích cảm xúc văn bản
B. Phân tích giỏ hàng (Market Basket Analysis)
C. Dự đoán chuỗi thời gian
D. Phát hiện gian lận
16. Công cụ hoặc thư viện nào sau đây phổ biến nhất cho khai phá dữ liệu và học máy bằng Python?
A. Microsoft Excel
B. SPSS
C. Scikit-learn
D. Tableau
17. Đâu là thách thức chính khi khai phá dữ liệu lớn (Big Data)?
A. Sự thiếu hụt các thuật toán khai phá dữ liệu
B. Khả năng mở rộng và hiệu suất tính toán để xử lý lượng dữ liệu khổng lồ
C. Dữ liệu lớn thường có cấu trúc quá phức tạp
D. Chi phí phần mềm khai phá dữ liệu quá cao
18. Độ đo 'precision′ (độ chính xác) trong đánh giá mô hình phân lớp được tính như thế nào?
A. TP ∕ (TP + FN)
B. TP ∕ (TP + FP)
C. TN ∕ (TN + FP)
D. TN ∕ (TN + FN)
19. Trong ngữ cảnh khai phá dữ liệu, 'overfitting′ (quá khớp) xảy ra khi nào?
A. Mô hình quá đơn giản so với dữ liệu
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới
C. Dữ liệu huấn luyện quá ít
D. Thuật toán học máy không hội tụ
20. Trong khai phá dữ liệu, bước nào sau đây thường được thực hiện đầu tiên để đảm bảo chất lượng dữ liệu?
A. Xây dựng mô hình
B. Tiền xử lý dữ liệu
C. Đánh giá mô hình
D. Triển khai mô hình
21. Phương pháp giảm chiều dữ liệu (dimensionality reduction) nào giữ lại phần lớn phương sai của dữ liệu gốc?
A. Principal Component Analysis (PCA)
B. Linear Discriminant Analysis (LDA)
C. Independent Component Analysis (ICA)
D. Feature Selection
22. Trong phân tích luật kết hợp, độ đo 'support′ (hỗ trợ) của một luật {A} → {B} thể hiện điều gì?
A. Độ tin cậy của luật
B. Tần suất xuất hiện đồng thời của A và B trong tập dữ liệu
C. Mức độ quan tâm của luật
D. Khả năng B xảy ra khi A đã xảy ra
23. Trong khai phá dữ liệu, thuật ngữ 'outlier′ (ngoại lệ) dùng để chỉ điều gì?
A. Dữ liệu bị thiếu giá trị
B. Dữ liệu không có cấu trúc
C. Dữ liệu khác biệt đáng kể so với phần lớn dữ liệu còn lại
D. Dữ liệu được thu thập từ nguồn bên ngoài
24. Trong phân lớp, mục tiêu chính của việc sử dụng tập kiểm thử (test set) là gì?
A. Huấn luyện mô hình
B. Tối ưu hóa tham số mô hình
C. Đánh giá hiệu năng của mô hình trên dữ liệu mới
D. Chọn lựa đặc trưng (feature selection)
25. Mục đích chính của 'feature scaling′ (tỷ lệ hóa đặc trưng) trong tiền xử lý dữ liệu là gì?
A. Giảm số lượng đặc trưng
B. Tăng cường tính dễ đọc của dữ liệu
C. Đảm bảo các đặc trưng có cùng thang đo, tránh ảnh hưởng không cân đối đến mô hình
D. Xử lý dữ liệu bị thiếu
26. Trong thuật toán K-means, việc lựa chọn số lượng cụm 'k′ có ảnh hưởng như thế nào đến kết quả?
A. Không ảnh hưởng, thuật toán tự động xác định 'k′
B. Ảnh hưởng lớn, 'k′ sai có thể dẫn đến kết quả phân cụm kém chất lượng
C. Chỉ ảnh hưởng đến tốc độ hội tụ của thuật toán
D. Chỉ ảnh hưởng đến khả năng trực quan hóa kết quả
27. Phương pháp 'k-NN (k-Nearest Neighbors)′ thuộc loại thuật toán học máy nào?
A. Học có giám sát (Supervised learning)
B. Học không giám sát (Unsupervised learning)
C. Học tăng cường (Reinforcement learning)
D. Giảm chiều dữ liệu (Dimensionality reduction)
28. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing data) trong khai phá dữ liệu?
A. Phân tích PCA
B. Hồi quy tuyến tính
C. Điền giá trị trung bình (Mean Imputation)
D. Phân cụm K-means
29. Trong mô hình cây quyết định (Decision Tree), tiêu chí 'Gini impurity′ được sử dụng để làm gì?
A. Đo lường độ chính xác của mô hình
B. Chọn thuộc tính tốt nhất để phân chia nút
C. Giảm thiểu overfitting
D. Tăng tốc độ huấn luyện
30. Trong khai phá dữ liệu, 'feature engineering′ (kỹ thuật đặc trưng) là quá trình:
A. Chọn thuật toán học máy phù hợp
B. Tối ưu hóa tham số mô hình
C. Tạo ra các đặc trưng mới hoặc cải thiện các đặc trưng hiện có từ dữ liệu thô để nâng cao hiệu suất mô hình
D. Đánh giá mô hình trên tập kiểm thử