1. Kỹ thuật 'ensemble learning′ (học tập kết hợp) nhằm mục đích gì?
A. Đơn giản hóa mô hình
B. Tăng cường độ chính xác và độ ổn định của mô hình bằng cách kết hợp nhiều mô hình yếu
C. Giảm thời gian huấn luyện mô hình
D. Giảm kích thước dữ liệu
2. Phương pháp 'cross-validation′ (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình khai phá dữ liệu?
A. Tăng kích thước dữ liệu huấn luyện
B. Đánh giá độ tin cậy và khả năng khái quát hóa của mô hình
C. Chọn lọc đặc trưng
D. Giảm chiều dữ liệu
3. Kỹ thuật 'feature selection′ (chọn lọc đặc trưng) trong tiền xử lý dữ liệu nhằm mục đích chính là gì?
A. Tăng kích thước dữ liệu
B. Giảm độ phức tạp tính toán và cải thiện hiệu suất mô hình
C. Tạo ra các đặc trưng mới từ dữ liệu hiện có
D. Thay đổi định dạng dữ liệu
4. Mục tiêu chính của việc trực quan hóa dữ liệu (data visualization) trong khai phá dữ liệu là gì?
A. Lưu trữ dữ liệu hiệu quả hơn
B. Tăng tốc độ xử lý dữ liệu
C. Giúp con người dễ dàng hiểu và khám phá các mẫu và tri thức từ dữ liệu
D. Thay thế các thuật toán khai phá dữ liệu
5. Khai phá dữ liệu (Data Mining) chủ yếu tập trung vào giai đoạn nào trong quy trình khám phá tri thức từ cơ sở dữ liệu (KDD)?
A. Làm sạch dữ liệu (Data Cleaning)
B. Chọn lọc dữ liệu (Data Selection)
C. Biến đổi dữ liệu (Data Transformation)
D. Khai thác dữ liệu (Data Mining)
6. Trong khai phá dữ liệu, 'lift′ (độ nâng) trong luật kết hợp đo lường điều gì?
A. Tần suất xuất hiện của luật
B. Mức độ tin cậy của luật
C. Mức độ tương quan giữa tiền đề và kết luận của luật so với kỳ vọng ngẫu nhiên
D. Độ thú vị tổng thể của luật
7. Trong khai phá dữ liệu, phương pháp nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm tương tự?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
8. Trong khai phá dữ liệu văn bản (text mining), kỹ thuật 'TF-IDF′ được sử dụng để làm gì?
A. Phân loại văn bản
B. Trích xuất thông tin từ văn bản
C. Đánh trọng số cho từ trong văn bản dựa trên tần suất và độ phổ biến
D. Phân cụm văn bản
9. Kỹ thuật 'Principal Component Analysis′ (PCA) được sử dụng để làm gì?
A. Phân loại dữ liệu
B. Giảm chiều dữ liệu và trích xuất đặc trưng quan trọng nhất
C. Phân cụm dữ liệu
D. Dự báo giá trị tương lai
10. Kỹ thuật 'dimensionality reduction′ (giảm chiều dữ liệu) có lợi ích gì trong khai phá dữ liệu?
A. Tăng độ chính xác của mô hình
B. Giảm nhiễu và tăng tốc độ xử lý
C. Tạo ra dữ liệu mới
D. Đơn giản hóa việc trực quan hóa dữ liệu và giảm chi phí tính toán.
11. Phương pháp nào sau đây thường được dùng để xử lý dữ liệu bị thiếu (missing values)?
A. Phân tích hồi quy
B. Phân tích phương sai
C. Điền giá trị trung bình hoặc loại bỏ bản ghi
D. Phân tích thành phần chính
12. Trong bài toán phân loại, 'confusion matrix′ (ma trận nhầm lẫn) được sử dụng để làm gì?
A. Trực quan hóa dữ liệu đầu vào
B. Đánh giá hiệu suất của mô hình phân loại
C. Chọn lọc đặc trưng
D. Phân cụm dữ liệu
13. Đâu là một thách thức về mặt đạo đức trong khai phá dữ liệu?
A. Sự phức tạp của thuật toán
B. Vấn đề bảo mật và quyền riêng tư dữ liệu
C. Chi phí triển khai cao
D. Sự thiếu hụt chuyên gia
14. Thuật toán DBSCAN thuộc loại kỹ thuật khai phá dữ liệu nào?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm dựa trên mật độ (Density-based Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
15. Đâu là thách thức chính khi khai phá dữ liệu từ các nguồn dữ liệu lớn và phức tạp (Big Data)?
A. Sự thiếu hụt các thuật toán khai phá dữ liệu
B. Khả năng mở rộng và hiệu suất tính toán
C. Chi phí lưu trữ dữ liệu thấp
D. Dễ dàng trực quan hóa dữ liệu
16. Trong khai phá dữ liệu web, 'web usage mining′ (khai phá sử dụng web) tập trung vào việc phân tích dữ liệu nào?
A. Nội dung trang web
B. Cấu trúc liên kết giữa các trang web
C. Hành vi duyệt web của người dùng (nhật ký truy cập web)
D. Metadata của trang web
17. Trong mô hình cây quyết định (Decision Tree), tiêu chí phân tách nút nào thường được sử dụng để chọn thuộc tính phân chia?
A. Độ chính xác (Accuracy)
B. Entropy hoặc Gini impurity
C. Độ thu hồi (Recall)
D. Độ đo F1 (F1-score)
18. Trong khai phá luật kết hợp, độ đo 'support′ (hỗ trợ) của một luật cho biết điều gì?
A. Độ chính xác của luật
B. Tần suất xuất hiện của luật trong dữ liệu
C. Mức độ tin cậy của luật
D. Độ thú vị của luật
19. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của khai phá dữ liệu?
A. Phân tích cảm xúc khách hàng từ bình luận trên mạng xã hội
B. Dự báo thời tiết dựa trên dữ liệu khí tượng lịch sử
C. Quản lý cơ sở dữ liệu giao dịch hàng ngày
D. Đề xuất sản phẩm cho khách hàng dựa trên lịch sử mua hàng
20. Phương pháp đánh giá mô hình phân loại nào đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán?
A. Độ chính xác (Accuracy)
B. Độ thu hồi (Recall)
C. Độ đo F1 (F1-score)
D. AUC-ROC
21. Trong khai phá dữ liệu chuỗi thời gian (time series data mining), kỹ thuật nào thường được sử dụng để dự báo giá trị tương lai?
A. Phân tích cụm
B. Hồi quy ARIMA (Autoregressive Integrated Moving Average)
C. Phân loại cây quyết định
D. Khai thác luật kết hợp
22. Phương pháp nào sau đây thường được sử dụng để đánh giá chất lượng phân cụm?
A. Độ chính xác (Accuracy)
B. Silhouette coefficient hoặc Davies-Bouldin index
C. Độ thu hồi (Recall)
D. Độ đo F1 (F1-score)
23. Trong khai phá dữ liệu y sinh (biomedical data mining), ứng dụng nào sau đây là phổ biến?
A. Dự báo giá cổ phiếu
B. Phát hiện gian lận thẻ tín dụng
C. Phát hiện bệnh tật và dự đoán nguy cơ bệnh
D. Đề xuất phim cho người dùng
24. Trong bối cảnh khai phá dữ liệu, 'overfitting′ (quá khớp) thường xảy ra khi nào?
A. Mô hình quá đơn giản so với dữ liệu
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới
C. Dữ liệu huấn luyện quá ít
D. Thuật toán khai phá dữ liệu không hiệu quả
25. Kỹ thuật 'outlier detection′ (phát hiện ngoại lệ) trong khai phá dữ liệu có mục đích gì?
A. Phân loại dữ liệu
B. Tìm kiếm các mẫu dữ liệu phổ biến
C. Xác định các điểm dữ liệu bất thường hoặc dị biệt
D. Dự báo giá trị tương lai
26. Trong ngữ cảnh khai phá dữ liệu, 'bias′ (thiên vị) trong dữ liệu huấn luyện có thể dẫn đến hậu quả gì?
A. Mô hình hoạt động tốt hơn trên dữ liệu mới
B. Mô hình đưa ra dự đoán không công bằng hoặc không chính xác cho một số nhóm đối tượng
C. Tăng tốc độ huấn luyện mô hình
D. Giảm độ phức tạp của mô hình
27. Trong khai phá dữ liệu, 'concept drift′ (trôi khái niệm) đề cập đến hiện tượng gì?
A. Sự thay đổi trong phân phối dữ liệu theo thời gian
B. Sự thay đổi trong thuật toán khai phá dữ liệu
C. Sự thay đổi trong phần cứng máy tính
D. Sự thay đổi trong mục tiêu kinh doanh
28. Phương pháp nào sau đây thuộc nhóm học không giám sát (unsupervised learning)?
A. Cây quyết định (Decision Tree)
B. Mạng nơ-ron (Neural Network) trong bài toán phân loại
C. K-Means Clustering
D. Hồi quy tuyến tính (Linear Regression)
29. Thuật toán Apriori được sử dụng phổ biến trong kỹ thuật khai phá dữ liệu nào?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
30. Thuật toán k-Nearest Neighbors (k-NN) thuộc loại kỹ thuật học máy nào?
A. Học tăng cường (Reinforcement Learning)
B. Học sâu (Deep Learning)
C. Học có giám sát (Supervised Learning)
D. Học không giám sát (Unsupervised Learning)