1. Phương pháp nào sau đây giúp giảm ảnh hưởng của các giá trị ngoại lai (outliers) trong dữ liệu?
A. Chuẩn hóa Z-score (Z-score Normalization)
B. Rời rạc hóa dữ liệu (Data Discretization)
C. Rời bỏ giá trị ngoại lai (Outlier Removal)
D. Tổng hợp dữ liệu (Data Aggregation)
2. Độ đo 'recall′ (độ phủ) trong đánh giá mô hình phân loại đo lường điều gì?
A. Tỷ lệ dự đoán đúng trên tổng số dự đoán
B. Tỷ lệ dự đoán dương tính đúng trên tổng số dự đoán dương tính
C. Tỷ lệ dự đoán dương tính đúng trên tổng số thực tế là dương tính
D. Tỷ lệ dự đoán âm tính đúng trên tổng số thực tế là âm tính
3. Trong khai phá dữ liệu văn bản, kỹ thuật 'TF-IDF′ được sử dụng để làm gì?
A. Phân tích cảm xúc văn bản
B. Trích xuất thực thể văn bản
C. Tính trọng số quan trọng của từ trong văn bản
D. Phân loại văn bản
4. Kỹ thuật nào sau đây KHÔNG phải là phương pháp tiền xử lý dữ liệu?
A. Chuẩn hóa dữ liệu (Data Normalization)
B. Rời rạc hóa dữ liệu (Data Discretization)
C. Phân loại dữ liệu (Data Classification)
D. Làm sạch dữ liệu (Data Cleaning)
5. Trong quá trình khai phá dữ liệu, 'dữ liệu nhiễu′ (noise data) đề cập đến điều gì?
A. Dữ liệu được thu thập từ nhiều nguồn khác nhau
B. Dữ liệu bị thiếu giá trị
C. Dữ liệu không chính xác hoặc không liên quan đến mục tiêu khai phá
D. Dữ liệu có kích thước quá lớn
6. Vấn đề 'quá khớp′ (overfitting) trong mô hình học máy xảy ra khi nào?
A. Mô hình quá đơn giản và không nắm bắt được cấu trúc dữ liệu
B. Mô hình hoạt động kém trên cả tập huấn luyện và tập kiểm thử
C. Mô hình hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm thử
D. Mô hình hoạt động tốt trên tập kiểm thử nhưng kém trên tập huấn luyện
7. Khi nào thì 'độ đo F1′ (F1-score) trở thành độ đo đánh giá mô hình phân loại quan trọng hơn độ chính xác (accuracy)?
A. Khi dữ liệu có số lượng lớn thuộc tính
B. Khi dữ liệu bị nhiễu
C. Khi dữ liệu bị mất cân bằng lớp (imbalanced classes)
D. Khi mô hình có độ phức tạp cao
8. Độ đo 'precision′ (độ chính xác) trong đánh giá mô hình phân loại đo lường điều gì?
A. Tỷ lệ dự đoán đúng trên tổng số dự đoán
B. Tỷ lệ dự đoán dương tính đúng trên tổng số dự đoán dương tính
C. Tỷ lệ dự đoán dương tính đúng trên tổng số thực tế là dương tính
D. Tỷ lệ dự đoán âm tính đúng trên tổng số thực tế là âm tính
9. Phương pháp nào sau đây giúp xử lý dữ liệu bị thiếu giá trị?
A. Rời rạc hóa dữ liệu (Data Discretization)
B. Chuẩn hóa dữ liệu (Data Normalization)
C. Điền giá trị trung bình (Mean Imputation)
D. Giảm chiều dữ liệu (Dimensionality Reduction)
10. Trong khai phá dữ liệu, mục tiêu của việc 'trực quan hóa dữ liệu′ (data visualization) là gì?
A. Tăng tốc độ xử lý dữ liệu
B. Biến đổi dữ liệu thành dạng số
C. Giúp con người dễ dàng hiểu và khám phá dữ liệu
D. Giảm dung lượng lưu trữ dữ liệu
11. Phương pháp khai phá dữ liệu nào thường được sử dụng để dự đoán giá nhà dựa trên các đặc trưng như diện tích, vị trí và số phòng ngủ?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
12. Kỹ thuật 'giảm chiều dữ liệu′ (dimensionality reduction) có mục đích chính là gì trong khai phá dữ liệu?
A. Tăng số lượng thuộc tính của dữ liệu
B. Loại bỏ các mẫu nhiễu trong dữ liệu
C. Giảm số lượng thuộc tính nhưng vẫn giữ thông tin quan trọng
D. Cải thiện độ chính xác của dữ liệu
13. Kỹ thuật 'phân tích thành phần chính′ (PCA) chủ yếu được sử dụng cho mục đích gì?
A. Phân loại dữ liệu
B. Phân cụm dữ liệu
C. Giảm chiều dữ liệu
D. Khai thác luật kết hợp
14. Trong khai phá luật kết hợp, 'support′ (độ hỗ trợ) của một tập mục thể hiện điều gì?
A. Xác suất mục B xuất hiện khi mục A đã xuất hiện
B. Tần suất xuất hiện đồng thời của các mục trong tập mục
C. Mức độ thú vị của một luật kết hợp
D. Độ tin cậy của luật kết hợp
15. Phương pháp nào sau đây thuộc nhóm 'học có giám sát′ (supervised learning)?
A. K-Means
B. Apriori
C. Cây quyết định (Decision Tree)
D. PCA (Principal Component Analysis)
16. Trong khai phá dữ liệu, 'tập huấn luyện′ (training set) được sử dụng cho mục đích gì?
A. Đánh giá hiệu suất mô hình
B. Xây dựng mô hình khai phá dữ liệu
C. Tiền xử lý dữ liệu
D. Trực quan hóa dữ liệu
17. Bước nào sau đây KHÔNG thuộc quy trình CRISP-DM (Cross-Industry Standard Process for Data Mining)?
A. Hiểu nghiệp vụ (Business Understanding)
B. Triển khai (Deployment)
C. Lập trình (Programming)
D. Đánh giá (Evaluation)
18. Kỹ thuật 'boosting′ trong học máy thuộc loại phương pháp nào?
A. Phương pháp phân cụm
B. Phương pháp giảm chiều dữ liệu
C. Phương pháp học tập hợp (ensemble learning)
D. Phương pháp tiền xử lý dữ liệu
19. Mục đích của việc 'chia dữ liệu′ (data splitting) thành tập huấn luyện, tập kiểm thử và tập xác thực (validation set) là gì?
A. Tăng dung lượng dữ liệu
B. Đảm bảo mô hình hoạt động tốt trên dữ liệu mới và tránh quá khớp
C. Giảm thời gian huấn luyện mô hình
D. Đơn giản hóa quá trình tiền xử lý dữ liệu
20. Thuật toán K-Means thuộc loại kỹ thuật khai phá dữ liệu nào?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
21. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm tương tự?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
22. Độ đo nào thường được sử dụng để đánh giá hiệu quả của mô hình phân loại?
A. RMSE (Root Mean Squared Error)
B. MAE (Mean Absolute Error)
C. Độ chính xác (Accuracy)
D. SSE (Sum of Squared Errors)
23. Mục tiêu chính của tiền xử lý dữ liệu trong khai phá dữ liệu là gì?
A. Tăng tốc độ thực thi thuật toán khai phá
B. Nâng cao chất lượng dữ liệu đầu vào cho quá trình khai phá
C. Giảm dung lượng lưu trữ dữ liệu
D. Đơn giản hóa việc trực quan hóa dữ liệu
24. Trong khai phá dữ liệu, 'dữ liệu thứ bậc′ (hierarchical data) thường được biểu diễn bằng cấu trúc nào?
A. Bảng
B. Đồ thị
C. Cây
D. Ma trận
25. Thuật toán Apriori được sử dụng trong loại bài toán khai phá dữ liệu nào?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)
26. Trong khai phá dữ liệu, 'dữ liệu định danh′ (categorical data) là loại dữ liệu nào?
A. Dữ liệu số có thứ tự
B. Dữ liệu số liên tục
C. Dữ liệu biểu diễn các nhóm hoặc danh mục
D. Dữ liệu thời gian
27. Trong khai thác luật kết hợp, độ đo 'độ tin cậy′ (confidence) thể hiện điều gì?
A. Tần suất xuất hiện của tập mục phổ biến
B. Xác suất mục B xuất hiện khi mục A đã xuất hiện
C. Mức độ thú vị của một luật kết hợp
D. Tỷ lệ giao dịch chứa cả mục A và mục B so với tổng số giao dịch
28. Trong ngữ cảnh khai phá dữ liệu, 'kho dữ liệu′ (data warehouse) có vai trò chính là gì?
A. Thu thập dữ liệu thời gian thực
B. Lưu trữ dữ liệu giao dịch trực tuyến
C. Lưu trữ dữ liệu tích hợp từ nhiều nguồn cho mục đích phân tích
D. Xử lý dữ liệu giao dịch hàng ngày
29. Kỹ thuật nào sau đây thường được sử dụng để phát hiện gian lận thẻ tín dụng?
A. Phân loại (Classification)
B. Phân cụm (Clustering)
C. Phát hiện dị thường (Anomaly Detection)
D. Hồi quy (Regression)
30. Loại dữ liệu nào sau đây phù hợp nhất với thuật toán K-Nearest Neighbors (KNN)?
A. Dữ liệu rời rạc
B. Dữ liệu liên tục
C. Dữ liệu văn bản
D. Dữ liệu đồ thị