1. Độ đo 'recall′ (độ phủ) trong đánh giá mô hình phân lớp tập trung vào điều gì?
A. Tỷ lệ dự đoán đúng lớp dương tính trên tổng số mẫu được dự đoán là lớp dương tính.
B. Tỷ lệ dự đoán đúng lớp dương tính trên tổng số mẫu thực tế là lớp dương tính.
C. Tỷ lệ dự đoán sai lớp âm tính trên tổng số mẫu thực tế là lớp âm tính.
D. Tỷ lệ dự đoán sai lớp dương tính trên tổng số mẫu thực tế là lớp dương tính.
2. Phương pháp 'cross-validation′ (kiểm định chéo) được sử dụng để làm gì trong khai phá dữ liệu?
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khả năng tổng quát hóa của mô hình trên dữ liệu mới.
C. Làm sạch dữ liệu huấn luyện.
D. Chọn thuật toán khai phá dữ liệu phù hợp nhất.
3. Kỹ thuật 'feature scaling′ (tỉ lệ hóa thuộc tính) thường được áp dụng trước khi sử dụng thuật toán nào?
A. Cây quyết định.
B. K-means.
C. Luật kết hợp Apriori.
D. Naive Bayes.
4. Đâu là mục tiêu chính của khai phá dữ liệu?
A. Tăng cường bảo mật dữ liệu.
B. Tìm kiếm tri thức và mẫu ẩn hữu ích từ dữ liệu.
C. Nâng cao hiệu suất phần cứng máy tính.
D. Xây dựng cơ sở dữ liệu quan hệ.
5. Kỹ thuật khai phá dữ liệu nào phù hợp để dự đoán giá nhà dựa trên các đặc điểm như diện tích, vị trí, số phòng ngủ?
A. Phân cụm (Clustering).
B. Hồi quy (Regression).
C. Phân lớp (Classification).
D. Khai thác luật kết hợp (Association Rule Mining).
6. Phương pháp khai phá dữ liệu nào thường được dùng để đề xuất sản phẩm cho khách hàng dựa trên lịch sử mua hàng của họ?
A. Phân tích cụm.
B. Hồi quy.
C. Phân lớp.
D. Khai thác luật kết hợp.
7. Thuật toán DBSCAN thuộc loại kỹ thuật khai phá dữ liệu nào?
A. Phân lớp (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Khai thác luật kết hợp (Association Rule Mining).
8. Trong khai phá dữ liệu, 'tiền xử lý dữ liệu′ bao gồm công đoạn nào quan trọng?
A. Xây dựng mô hình dự đoán.
B. Trực quan hóa dữ liệu.
C. Làm sạch và chuyển đổi dữ liệu.
D. Đánh giá mô hình.
9. Đâu là một ứng dụng phổ biến của khai phá dữ liệu trong lĩnh vực y tế?
A. Tự động hóa quy trình sản xuất.
B. Phân tích dữ liệu giao dịch ngân hàng.
C. Dự đoán nguy cơ mắc bệnh của bệnh nhân.
D. Quản lý chuỗi cung ứng.
10. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân loại email vào hộp thư 'spam′ hoặc 'không spam′?
A. Phân cụm (Clustering).
B. Hồi quy (Regression).
C. Phân lớp (Classification).
D. Khai thác luật kết hợp (Association Rule Mining).
11. Kỹ thuật khai phá dữ liệu nào giúp tìm ra các nhóm khách hàng có hành vi mua sắm tương tự nhau?
A. Phân tích hồi quy.
B. Phân tích cụm.
C. Phân tích chuỗi thời gian.
D. Phân tích luật kết hợp.
12. Trong khai phá dữ liệu, 'mô hình hộp đen′ (black box model) có đặc điểm gì?
A. Dễ dàng diễn giải logic bên trong.
B. Khó hoặc không thể diễn giải cách mô hình đưa ra quyết định.
C. Luôn cho kết quả chính xác.
D. Chỉ áp dụng cho dữ liệu văn bản.
13. Trong bối cảnh khai phá dữ liệu, 'dữ liệu nhiễu′ (noisy data) là loại dữ liệu như thế nào?
A. Dữ liệu đã được mã hóa.
B. Dữ liệu không đầy đủ.
C. Dữ liệu chứa lỗi hoặc giá trị bất thường.
D. Dữ liệu có cấu trúc phức tạp.
14. Trong khai phá dữ liệu chuỗi thời gian, phương pháp 'ARIMA′ thường được sử dụng để làm gì?
A. Phân cụm chuỗi thời gian.
B. Dự báo chuỗi thời gian.
C. Phân loại chuỗi thời gian.
D. Tìm luật kết hợp trong chuỗi thời gian.
15. Trong khai phá dữ liệu, 'overfitting′ (quá khớp) xảy ra khi nào?
A. Mô hình hoạt động kém trên dữ liệu huấn luyện.
B. Mô hình quá phức tạp và khớp quá sát với dữ liệu huấn luyện.
C. Mô hình quá đơn giản và không nắm bắt được mẫu trong dữ liệu.
D. Dữ liệu huấn luyện quá lớn.
16. Độ đo 'precision′ (độ chuẩn xác) trong đánh giá mô hình phân lớp tập trung vào điều gì?
A. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế là lớp dương tính.
B. Tỷ lệ dự đoán đúng lớp dương tính trên tổng số mẫu được dự đoán là lớp dương tính.
C. Tỷ lệ dự đoán sai lớp âm tính trên tổng số mẫu thực tế là lớp âm tính.
D. Tỷ lệ dự đoán sai lớp dương tính trên tổng số mẫu thực tế là lớp dương tính.
17. Trong khai phá dữ liệu, 'dữ liệu rời rạc′ (discrete data) khác biệt với 'dữ liệu liên tục′ (continuous data) như thế nào?
A. Dữ liệu rời rạc có thể nhận vô số giá trị, dữ liệu liên tục chỉ nhận giá trị nguyên.
B. Dữ liệu rời rạc chỉ nhận giá trị hữu hạn hoặc đếm được, dữ liệu liên tục nhận giá trị trong một khoảng.
C. Dữ liệu rời rạc có cấu trúc, dữ liệu liên tục không có cấu trúc.
D. Dữ liệu rời rạc luôn là số, dữ liệu liên tục có thể là văn bản.
18. Trong khai phá dữ liệu văn bản, kỹ thuật 'TF-IDF′ được sử dụng để làm gì?
A. Phân loại văn bản.
B. Trích xuất thông tin từ văn bản.
C. Đánh trọng số từ trong văn bản.
D. Tóm tắt văn bản.
19. Trong khai phá dữ liệu đồ thị, thuật toán 'PageRank′ được sử dụng để làm gì?
A. Phân cụm các nút trong đồ thị.
B. Tìm đường đi ngắn nhất trong đồ thị.
C. Đánh giá độ quan trọng của các nút trong đồ thị.
D. Phát hiện cộng đồng trong đồ thị.
20. Trong quá trình đánh giá mô hình phân lớp, 'ma trận nhầm lẫn′ (confusion matrix) cung cấp thông tin gì?
A. Độ chính xác tổng thể của mô hình.
B. Tỷ lệ dự đoán đúng cho từng lớp và các loại lỗi phân lớp.
C. Thời gian huấn luyện mô hình.
D. Độ phức tạp của mô hình.
21. Thuật toán K-means thường được sử dụng trong kỹ thuật khai phá dữ liệu nào?
A. Phân lớp (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Khai thác luật kết hợp (Association Rule Mining).
22. Đâu là một thách thức lớn khi khai phá dữ liệu 'big data′?
A. Sự thiếu hụt các thuật toán khai phá dữ liệu.
B. Khả năng mở rộng và hiệu suất tính toán.
C. Sự đơn giản của dữ liệu.
D. Chi phí lưu trữ dữ liệu thấp.
23. Trong khai phá dữ liệu đa phương tiện, thách thức đặc trưng nào xuất hiện do tính chất của dữ liệu?
A. Dữ liệu luôn có cấu trúc rõ ràng.
B. Sự khác biệt về định dạng và ngữ nghĩa giữa các loại dữ liệu (ảnh, video, âm thanh, văn bản).
C. Dữ liệu đa phương tiện luôn có kích thước nhỏ.
D. Các thuật toán khai phá dữ liệu văn bản có thể áp dụng trực tiếp.
24. Phương pháp nào sau đây không thuộc nhóm kỹ thuật tiền xử lý dữ liệu?
A. Chuẩn hóa dữ liệu.
B. Giảm chiều dữ liệu.
C. Xây dựng mô hình phân lớp.
D. Làm sạch dữ liệu.
25. Kỹ thuật 'giảm chiều dữ liệu′ (dimensionality reduction) được sử dụng khi dữ liệu có đặc điểm gì?
A. Dữ liệu bị thiếu giá trị.
B. Dữ liệu có quá nhiều thuộc tính (features).
C. Dữ liệu không có cấu trúc.
D. Dữ liệu bị nhiễu.
26. Độ đo 'độ chính xác′ (accuracy) thường được sử dụng để đánh giá hiệu quả của mô hình khai phá dữ liệu nào?
A. Mô hình phân cụm.
B. Mô hình hồi quy.
C. Mô hình phân lớp.
D. Mô hình luật kết hợp.
27. Trong thuật toán cây quyết định (decision tree), 'entropy′ (độ hỗn loạn) được sử dụng để làm gì?
A. Đo lường độ chính xác của cây.
B. Chọn thuộc tính tốt nhất để phân chia nút.
C. Cân bằng cây quyết định.
D. Giảm độ phức tạp của cây.
28. Trong khai thác luật kết hợp, độ đo 'độ hỗ trợ' (support) thể hiện điều gì?
A. Xác suất luật là đúng.
B. Tần suất xuất hiện của tập mục trong cơ sở dữ liệu.
C. Độ tin cậy của luật.
D. Mức độ quan trọng của luật.
29. Kỹ thuật 'ensemble learning′ (học ансамбль) trong khai phá dữ liệu nhằm mục đích gì?
A. Đơn giản hóa mô hình.
B. Kết hợp nhiều mô hình yếu để tạo ra mô hình mạnh hơn.
C. Tăng tốc độ tính toán.
D. Giảm dung lượng dữ liệu.
30. Kỹ thuật 'feature selection′ (lựa chọn thuộc tính) khác với 'feature extraction′ (trích xuất thuộc tính) như thế nào?
A. Feature selection tạo ra thuộc tính mới, feature extraction chọn thuộc tính hiện có.
B. Feature selection chọn một tập con các thuộc tính hiện có, feature extraction biến đổi thuộc tính gốc thành thuộc tính mới.
C. Feature selection áp dụng cho dữ liệu số, feature extraction cho dữ liệu văn bản.
D. Feature selection luôn cải thiện độ chính xác, feature extraction thì không.