1. Trong khai phá dữ liệu, 'data warehouse′ (kho dữ liệu) được sử dụng để làm gì?
A. Thu thập dữ liệu thời gian thực
B. Lưu trữ và quản lý dữ liệu lịch sử phục vụ phân tích
C. Xử lý giao dịch trực tuyến
D. Truyền tải dữ liệu nhanh chóng
2. Kỹ thuật 'one-hot encoding′ được sử dụng để xử lý loại dữ liệu nào trong tiền xử lý dữ liệu?
A. Dữ liệu số liên tục
B. Dữ liệu thứ tự (ordinal)
C. Dữ liệu phân loại (categorical)
D. Dữ liệu chuỗi thời gian
3. Kỹ thuật 'feature scaling′ (tỷ lệ hóa thuộc tính) thường được sử dụng trong tiền xử lý dữ liệu để làm gì?
A. Giảm số lượng thuộc tính
B. Tăng độ chính xác của dữ liệu
C. Đưa các thuộc tính về cùng thang đo giá trị
D. Xử lý dữ liệu bị thiếu
4. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?
A. Phát triển vũ khí hạt nhân
B. Phân tích hành vi khách hàng trong bán lẻ
C. Phát hiện gian lận trong giao dịch tài chính
D. Chẩn đoán bệnh trong y tế
5. Trong khai phá dữ liệu web, phân tích đường dẫn (path analysis) thường được sử dụng để làm gì?
A. Phân loại trang web theo chủ đề
B. Phân cụm người dùng theo hành vi duyệt web
C. Khám phá trình tự các trang web mà người dùng truy cập
D. Dự đoán nội dung trang web
6. Đâu KHÔNG phải là một giai đoạn trong quy trình khai phá dữ liệu điển hình?
A. Hiểu bài toán nghiệp vụ
B. Triển khai và đánh giá kết quả
C. Xây dựng phần mềm ứng dụng
D. Chuẩn bị dữ liệu
7. Trong khai phá luật kết hợp, độ đo 'support′ (độ hỗ trợ) của một tập mục (itemset) thể hiện điều gì?
A. Mức độ phổ biến của tập mục trong dữ liệu
B. Mức độ tin cậy của luật kết hợp
C. Mức độ hữu ích của luật kết hợp
D. Mức độ chính xác của luật kết hợp
8. Kỹ thuật 'data imputation′ (điền giá trị thiếu) được sử dụng để giải quyết vấn đề gì trong tiền xử lý dữ liệu?
A. Dữ liệu trùng lặp
B. Dữ liệu nhiễu
C. Dữ liệu bị thiếu giá trị
D. Dữ liệu không nhất quán
9. Phương pháp khai phá dữ liệu nào thường được sử dụng để nhóm các đối tượng tương tự nhau dựa trên thuộc tính của chúng?
A. Phân loại
B. Hồi quy
C. Phân cụm
D. Dự đoán chuỗi thời gian
10. Trong khai phá dữ liệu, 'lift ratio′ là độ đo quan trọng trong lĩnh vực nào?
A. Phân loại
B. Phân cụm
C. Khai phá luật kết hợp
D. Hồi quy
11. Phương pháp 'gradient boosting′ thuộc loại thuật toán học máy nào?
A. Bagging
B. Boosting
C. Stacking
D. Voting
12. Đâu là thách thức lớn nhất khi khai phá dữ liệu 'big data′?
A. Sự thiếu hụt công cụ khai phá dữ liệu
B. Khả năng mở rộng và hiệu suất tính toán
C. Sự đơn giản của các thuật toán khai phá dữ liệu
D. Chi phí lưu trữ dữ liệu thấp
13. Trong khai phá dữ liệu, kỹ thuật 'ensemble learning′ (học tập kết hợp) nhằm mục đích gì?
A. Đơn giản hóa mô hình học máy
B. Kết hợp nhiều mô hình học máy để cải thiện hiệu suất
C. Giảm thời gian huấn luyện mô hình
D. Tăng khả năng diễn giải của mô hình
14. Trong khai phá dữ liệu, 'overfitting′ (quá khớp) thường xảy ra khi nào?
A. Mô hình quá đơn giản
B. Dữ liệu huấn luyện quá ít
C. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới
D. Thuật toán khai phá dữ liệu không hiệu quả
15. Trong khai phá dữ liệu, bước nào liên quan đến việc chuyển đổi dữ liệu thô sang định dạng phù hợp để phân tích?
A. Lựa chọn mô hình
B. Tiền xử lý dữ liệu
C. Đánh giá mô hình
D. Triển khai mô hình
16. Trong ngữ cảnh khai phá dữ liệu văn bản, TF-IDF được sử dụng để làm gì?
A. Phân loại văn bản
B. Phân cụm văn bản
C. Trích xuất đặc trưng từ văn bản
D. Tóm tắt văn bản
17. Trong khai phá dữ liệu, thuật ngữ 'black box model′ (mô hình hộp đen) thường được dùng để chỉ loại mô hình nào?
A. Mô hình dễ diễn giải và giải thích
B. Mô hình có độ chính xác cao nhưng khó giải thích cơ chế hoạt động
C. Mô hình được mã hóa nguồn mở
D. Mô hình chỉ hoạt động trên dữ liệu văn bản
18. Đâu là nhược điểm chính của thuật toán K-means clustering?
A. Không hiệu quả với dữ liệu lớn
B. Yêu cầu xác định trước số lượng cụm (K)
C. Chỉ hoạt động với dữ liệu số
D. Khó diễn giải kết quả
19. Độ đo 'recall′ (độ phủ) trong đánh giá mô hình phân loại được tính bằng công thức nào?
A. TP ∕ (TP + FN)
B. TN ∕ (TN + FP)
C. TP ∕ (TP + FP)
D. TN ∕ (TN + FN)
20. Độ đo 'precision′ (độ chính xác) trong đánh giá mô hình phân loại được tính bằng công thức nào?
A. TP ∕ (TP + FN)
B. TN ∕ (TN + FP)
C. TP ∕ (TP + FP)
D. TN ∕ (TN + FN)
21. Mục đích của việc sử dụng 'cross-validation′ (kiểm định chéo) trong đánh giá mô hình là gì?
A. Tăng tốc độ huấn luyện mô hình
B. Giảm overfitting và đánh giá khả năng khái quát hóa của mô hình
C. Tối ưu hóa siêu tham số của mô hình
D. Làm sạch dữ liệu huấn luyện
22. Phương pháp nào sau đây thuộc nhóm thuật toán phân loại?
A. PCA
B. K-means
C. Support Vector Machine (SVM)
D. Apriori
23. Phương pháp giảm chiều dữ liệu (dimensionality reduction) nào sau đây KHÔNG thuộc nhóm phương pháp chọn thuộc tính (feature selection)?
A. Principal Component Analysis (PCA)
B. Filter methods
C. Wrapper methods
D. Embedded methods
24. Trong khai phá dữ liệu mạng xã hội, phân tích 'sentiment analysis′ (phân tích cảm xúc) nhằm mục đích gì?
A. Phân tích cấu trúc mạng xã hội
B. Xác định cộng đồng người dùng trên mạng xã hội
C. Xác định thái độ, cảm xúc của người dùng đối với một chủ đề
D. Dự đoán xu hướng lan truyền thông tin trên mạng xã hội
25. Trong khai phá dữ liệu không gian, thuật toán nào thường được sử dụng để phát hiện các cụm điểm dữ liệu có mật độ cao?
A. K-means
B. DBSCAN
C. Apriori
D. Naive Bayes
26. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân cụm?
A. K-means
B. DBSCAN
C. Apriori
D. Hierarchical Clustering
27. Mục tiêu chính của khai phá dữ liệu là gì?
A. Tạo ra dữ liệu mới
B. Lưu trữ dữ liệu hiệu quả hơn
C. Trích xuất tri thức hữu ích từ dữ liệu
D. Mã hóa dữ liệu an toàn hơn
28. Trong ngữ cảnh khai phá dữ liệu chuỗi thời gian, ARIMA là thuật toán thuộc loại nào?
A. Phân loại
B. Phân cụm
C. Hồi quy
D. Dự báo chuỗi thời gian
29. Trong khai phá dữ liệu, 'bias-variance tradeoff′ (đánh đổi giữa độ chệch và phương sai) đề cập đến vấn đề gì?
A. Đánh đổi giữa tốc độ và độ chính xác của thuật toán
B. Đánh đổi giữa khả năng diễn giải và độ phức tạp của mô hình
C. Đánh đổi giữa overfitting và underfitting
D. Đánh đổi giữa chi phí lưu trữ và chi phí tính toán
30. Phương pháp nào sau đây có thể giúp giảm thiểu tác động của dữ liệu nhiễu (noisy data) trong khai phá dữ liệu?
A. Tăng kích thước tập dữ liệu
B. Sử dụng thuật toán phân loại phức tạp hơn
C. Làm sạch dữ liệu và tiền xử lý dữ liệu
D. Giảm số lượng thuộc tính