1. Kỹ thuật giảm chiều dữ liệu (Dimensionality Reduction) được sử dụng để làm gì trong khai phá dữ liệu?
A. Tăng độ phức tạp của mô hình.
B. Giảm số lượng thuộc tính của dữ liệu trong khi vẫn giữ thông tin quan trọng.
C. Tăng kích thước tập dữ liệu.
D. Cải thiện chất lượng dữ liệu đầu vào.
2. Phương pháp 'Hierarchical Clustering′ (Phân cụm phân cấp) tạo ra kết quả phân cụm dưới dạng:
A. Một tập hợp các cụm phẳng.
B. Một cây phân cấp (dendrogram) thể hiện mối quan hệ giữa các cụm.
C. Các cụm dựa trên mật độ.
D. Các cụm tuyến tính.
3. Trong khai thác luật kết hợp, độ đo 'Support′ của một luật {A} → {B} thể hiện điều gì?
A. Mức độ phổ biến của luật trong tập dữ liệu.
B. Độ tin cậy của luật khi dự đoán B từ A.
C. Tỷ lệ các giao dịch chứa cả A và B.
D. Mức độ hữu ích của luật trong thực tế.
4. Độ đo 'Recall′ trong đánh giá mô hình phân loại thể hiện điều gì?
A. Tỷ lệ dự đoán đúng trên tổng số dự đoán.
B. Tỷ lệ dự đoán đúng 'positive′ trên tổng số thực tế là 'positive′.
C. Tỷ lệ dự đoán đúng 'negative′ trên tổng số thực tế là 'negative′.
D. Trung bình hài hòa giữa Precision và Accuracy.
5. Trong quá trình tiền xử lý dữ liệu, 'chuẩn hóa dữ liệu′ (Data Normalization) thường được thực hiện để:
A. Loại bỏ dữ liệu trùng lặp.
B. Chuyển đổi dữ liệu sang định dạng khác.
C. Đưa các thuộc tính về cùng một thang đo, tránh thuộc tính có giá trị lớn chi phối.
D. Xử lý dữ liệu bị thiếu.
6. Trong khai phá dữ liệu, 'Overfitting′ thường xảy ra khi nào?
A. Mô hình quá đơn giản so với dữ liệu.
B. Dữ liệu huấn luyện quá ít.
C. Mô hình học quá kỹ trên dữ liệu huấn luyện, kém hiệu quả trên dữ liệu mới.
D. Thuật toán khai phá dữ liệu không phù hợp.
7. Mục đích của việc chia tập dữ liệu thành 'tập huấn luyện′ (training set) và 'tập kiểm thử' (test set) là gì?
A. Để tăng tốc độ huấn luyện mô hình.
B. Để đánh giá khả năng khái quát hóa của mô hình trên dữ liệu mới, chưa từng thấy.
C. Để chuẩn hóa dữ liệu.
D. Để giảm kích thước dữ liệu huấn luyện.
8. Trong khai phá dữ liệu chuỗi thời gian (Time Series Data Mining), mục tiêu chính thường là gì?
A. Phân cụm các chuỗi thời gian.
B. Dự báo giá trị tương lai của chuỗi thời gian.
C. Giảm chiều dữ liệu chuỗi thời gian.
D. Khai thác luật kết hợp từ chuỗi thời gian.
9. Trong khai phá dữ liệu văn bản (Text Mining), kỹ thuật 'TF-IDF′ được sử dụng để làm gì?
A. Phân loại văn bản.
B. Phân cụm văn bản.
C. Đánh giá tầm quan trọng của từ trong một văn bản so với toàn bộ tập văn bản.
D. Trích xuất thông tin từ văn bản.
10. Phân biệt giữa 'học có giám sát′ (Supervised Learning) và 'học không giám sát′ (Unsupervised Learning) trong khai phá dữ liệu.
A. Học có giám sát sử dụng dữ liệu có nhãn, học không giám sát thì không.
B. Học có giám sát chỉ dùng cho dữ liệu số, học không giám sát cho mọi loại dữ liệu.
C. Học có giám sát nhanh hơn học không giám sát.
D. Học có giám sát cho kết quả chính xác hơn học không giám sát.
11. Khái niệm 'Feature Engineering′ trong khai phá dữ liệu đề cập đến:
A. Quá trình lựa chọn thuật toán khai phá dữ liệu phù hợp.
B. Quá trình biến đổi và tạo ra các thuộc tính (features) mới từ dữ liệu thô để cải thiện hiệu suất mô hình.
C. Quá trình đánh giá mô hình khai phá dữ liệu.
D. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
12. Phương pháp 'Support Vector Machine′ (SVM) chủ yếu được sử dụng cho bài toán nào trong khai phá dữ liệu?
A. Phân cụm (Clustering).
B. Phân loại (Classification) và Hồi quy (Regression).
C. Giảm chiều dữ liệu (Dimensionality Reduction).
D. Khai thác luật kết hợp (Association Rule Mining).
13. Phương pháp 'Principal Component Analysis′ (PCA) thuộc nhóm kỹ thuật khai phá dữ liệu nào?
A. Phân loại (Classification).
B. Phân cụm (Clustering).
C. Giảm chiều dữ liệu (Dimensionality Reduction).
D. Khai thác luật kết hợp (Association Rule Mining).
14. Kỹ thuật 'Anomaly Detection′ (Phát hiện bất thường) được sử dụng để làm gì trong khai phá dữ liệu?
A. Phân loại dữ liệu thành các nhóm.
B. Tìm các điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu còn lại.
C. Dự đoán giá trị tương lai của dữ liệu.
D. Giảm chiều dữ liệu.
15. Phương pháp đánh giá mô hình phân loại nào đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán?
A. Độ chính xác (Accuracy).
B. Độ thu hồi (Recall).
C. Độ đo F1 (F1-Score).
D. Độ chuẩn xác (Precision).
16. Trong mô hình mạng nơ-ron (Neural Network), hàm kích hoạt (activation function) có vai trò gì?
A. Tăng tốc độ huấn luyện mạng.
B. Giới thiệu tính phi tuyến vào mạng, cho phép mô hình học các quan hệ phức tạp.
C. Giảm số lượng tham số của mạng.
D. Chuẩn hóa dữ liệu đầu vào.
17. Trong quá trình khai phá dữ liệu, 'Data Cleaning′ (Làm sạch dữ liệu) bao gồm các công việc nào?
A. Chọn thuật toán khai phá dữ liệu.
B. Xử lý dữ liệu thiếu, loại bỏ nhiễu, sửa lỗi dữ liệu.
C. Đánh giá mô hình khai phá dữ liệu.
D. Trực quan hóa dữ liệu.
18. Phương pháp phân cụm K-Means hoạt động dựa trên nguyên tắc nào?
A. Tìm các cụm có mật độ điểm dữ liệu cao.
B. Phân chia dữ liệu thành k cụm sao cho tổng khoảng cách từ các điểm đến trung tâm cụm là nhỏ nhất.
C. Xây dựng cây phân cấp để nhóm các điểm dữ liệu.
D. Tìm các cụm dựa trên khoảng cách Manhattan.
19. Ứng dụng nào sau đây KHÔNG phải là ứng dụng điển hình của khai phá dữ liệu?
A. Dự đoán xu hướng thị trường chứng khoán.
B. Phát hiện gian lận thẻ tín dụng.
C. Thiết kế vi mạch điện tử.
D. Gợi ý sản phẩm cho khách hàng mua sắm trực tuyến.
20. Thuật toán Apriori được sử dụng phổ biến trong kỹ thuật khai phá dữ liệu nào?
A. Phân loại (Classification).
B. Phân cụm (Clustering).
C. Khai thác luật kết hợp (Association Rule Mining).
D. Hồi quy (Regression).
21. Ứng dụng của khai phá dữ liệu trong lĩnh vực y tế là gì?
A. Dự báo thời tiết.
B. Chẩn đoán bệnh và dự đoán nguy cơ bệnh tật.
C. Quản lý giao thông đô thị.
D. Sản xuất ô tô tự lái.
22. Mục đích của việc sử dụng 'Cross-validation′ trong đánh giá mô hình là gì?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Giảm overfitting và đánh giá mô hình một cách khách quan hơn bằng cách sử dụng nhiều phần dữ liệu khác nhau làm tập kiểm thử.
C. Tối ưu hóa tham số mô hình.
D. Chuẩn hóa dữ liệu đầu vào.
23. Đâu là nhược điểm chính của thuật toán phân cụm K-Means?
A. Luôn tìm ra cụm tốt nhất.
B. Dễ bị ảnh hưởng bởi nhiễu.
C. Yêu cầu xác định trước số lượng cụm (k).
D. Không hiệu quả với dữ liệu số chiều thấp.
24. Trong khai thác luật kết hợp, độ đo 'Lift′ lớn hơn 1 cho thấy điều gì về mối quan hệ giữa tập mục A và B trong luật {A} → {B}?
A. A và B độc lập với nhau.
B. A và B có mối quan hệ nghịch đảo.
C. A và B có mối quan hệ tương quan dương (xuất hiện cùng nhau thường xuyên hơn dự kiến).
D. Luật {A} → {B} không có ý nghĩa.
25. Kỹ thuật nào sau đây KHÔNG thuộc nhóm kỹ thuật khai phá dữ liệu?
A. Phân cụm (Clustering).
B. Phân loại (Classification).
C. Nén dữ liệu (Data Compression).
D. Khai thác luật kết hợp (Association Rule Mining).
26. Thuật toán DBSCAN (Density-Based Spatial Clustering of Applications with Noise) có ưu điểm gì so với K-Means?
A. Nhanh hơn K-Means.
B. Không yêu cầu xác định trước số cụm và có thể phát hiện các cụm có hình dạng bất kỳ, đồng thời xử lý nhiễu.
C. Luôn cho kết quả phân cụm tốt hơn K-Means.
D. Dễ cài đặt và sử dụng hơn K-Means.
27. Trong ngữ cảnh 'dữ liệu lớn′ (Big Data), thách thức chính đối với khai phá dữ liệu là gì?
A. Sự thiếu hụt thuật toán khai phá dữ liệu.
B. Khả năng mở rộng và hiệu suất tính toán với lượng dữ liệu khổng lồ.
C. Sự đơn giản của dữ liệu lớn.
D. Chi phí lưu trữ dữ liệu thấp.
28. Khái niệm 'Ensemble Learning′ trong khai phá dữ liệu là gì?
A. Phương pháp giảm kích thước dữ liệu.
B. Phương pháp kết hợp kết quả của nhiều mô hình học máy yếu (weak learners) để tạo ra một mô hình mạnh (strong learner).
C. Phương pháp chuẩn hóa dữ liệu.
D. Phương pháp đánh giá mô hình học máy.
29. Trong mô hình cây quyết định (Decision Tree), tiêu chí phân tách nút (splitting criterion) thường được sử dụng là gì?
A. Khoảng cách Euclidean.
B. Entropy hoặc Gini Impurity.
C. Độ tương quan Pearson.
D. Sai số bình phương trung bình.
30. Đâu là mục tiêu chính của khai phá dữ liệu?
A. Tăng cường bảo mật dữ liệu.
B. Phân tích dữ liệu để tìm ra các mẫu và tri thức hữu ích.
C. Tối ưu hóa hiệu suất phần cứng máy tính.
D. Chuẩn hóa định dạng dữ liệu đầu vào.