1. Trong quá trình khai phá dữ liệu, bước 'lựa chọn thuộc tính′ (feature selection) nhằm mục đích gì?
A. Tăng kích thước dữ liệu
B. Giảm số lượng thuộc tính không liên quan hoặc dư thừa
C. Tạo ra thuộc tính mới từ thuộc tính hiện có
D. Chuẩn hóa dữ liệu
2. Loại dữ liệu nào sau đây thường KHÔNG phù hợp cho khai phá dữ liệu phân cụm?
A. Dữ liệu văn bản
B. Dữ liệu số
C. Dữ liệu có nhãn lớp rõ ràng
D. Dữ liệu giao dịch
3. Phương pháp giảm chiều dữ liệu nào nhằm mục đích tìm ra một tập hợp các thuộc tính mới là tổ hợp tuyến tính của các thuộc tính ban đầu, giữ lại phương sai lớn nhất?
A. Chọn lọc thuộc tính
B. Phân tích thành phần chính (PCA)
C. Rời rạc hóa dữ liệu
D. Chuẩn hóa dữ liệu
4. Trong khai phá dữ liệu, 'dữ liệu nhiễu′ (noisy data) thường đề cập đến loại dữ liệu nào?
A. Dữ liệu có cấu trúc phức tạp
B. Dữ liệu bị lỗi, không chính xác hoặc không đầy đủ
C. Dữ liệu có kích thước lớn
D. Dữ liệu được mã hóa
5. Ứng dụng nào sau đây KHÔNG phải là ứng dụng điển hình của khai phá dữ liệu?
A. Phân tích rủi ro tín dụng
B. Dự báo thời tiết
C. Thiết kế cơ sở dữ liệu quan hệ
D. Đề xuất sản phẩm trong thương mại điện tử
6. Mô hình khai phá dữ liệu nào được sử dụng để phân loại dữ liệu dựa trên một tập hợp các quy tắc 'nếu-thì'?
A. Mạng nơ-ron
B. Cây quyết định
C. Máy vector hỗ trợ (SVM)
D. Thuật toán k-láng giềng gần nhất (k-NN)
7. Phương pháp 'cross-validation′ (kiểm định chéo) được sử dụng để làm gì trong khai phá dữ liệu?
A. Tăng kích thước dữ liệu huấn luyện
B. Đánh giá khả năng khái quát hóa của mô hình và tránh overfitting
C. Giảm số chiều dữ liệu
D. Xử lý dữ liệu ngoại lai
8. Trong ngữ cảnh đánh giá mô hình phân loại, độ đo 'precision′ (độ chính xác) được tính như thế nào?
A. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế thuộc lớp đó
B. Tỷ lệ dự đoán đúng trên tổng số mẫu được dự đoán thuộc lớp đó
C. Tỷ lệ dự đoán đúng trên tổng số mẫu
D. Tỷ lệ mẫu thực tế thuộc lớp đó được dự đoán đúng
9. Trong thuật toán k-means, giá trị 'k′ đại diện cho điều gì?
A. Số lượng thuộc tính đầu vào
B. Số lượng cụm mong muốn
C. Số lần lặp tối đa của thuật toán
D. Kích thước của tập dữ liệu
10. Trong khai phá dữ liệu văn bản, kỹ thuật 'TF-IDF′ được sử dụng để làm gì?
A. Phân tích cảm xúc văn bản
B. Trích xuất thực thể có tên
C. Tính trọng số của từ trong văn bản
D. Phân loại văn bản
11. Mục tiêu chính của khai phá dữ liệu là gì?
A. Tạo ra dữ liệu mới
B. Lưu trữ dữ liệu hiệu quả hơn
C. Trích xuất tri thức hữu ích từ dữ liệu
D. Tăng tốc độ truy vấn dữ liệu
12. Kỹ thuật nào thường được sử dụng để dự đoán giá trị số liên tục dựa trên các biến đầu vào?
A. Phân loại
B. Hồi quy
C. Phân cụm
D. Khai thác luật kết hợp
13. Vấn đề 'imbalanced dataset′ (dữ liệu mất cân bằng) thường gây khó khăn gì trong phân loại?
A. Mô hình khó học được từ lớp thiểu số và dự đoán kém
B. Tăng tốc độ huấn luyện mô hình
C. Giảm độ chính xác của mô hình trên lớp đa số
D. Dữ liệu trở nên nhiễu hơn
14. Đâu là thách thức lớn nhất khi khai phá dữ liệu trên dữ liệu lớn (Big Data)?
A. Sự phức tạp của thuật toán khai phá dữ liệu
B. Khả năng mở rộng và hiệu suất tính toán
C. Sự khan hiếm của công cụ khai phá dữ liệu
D. Chi phí lưu trữ dữ liệu
15. Độ đo 'support′ trong khai thác luật kết hợp thể hiện điều gì?
A. Độ phổ biến của một tập hợp các mục trong cơ sở dữ liệu
B. Độ tin cậy của luật kết hợp
C. Mức độ quan tâm của luật kết hợp
D. Sai số dự đoán của luật kết hợp
16. Độ đo 'lift′ trong khai thác luật kết hợp được sử dụng để đánh giá điều gì?
A. Độ phổ biến của các mục riêng lẻ
B. Độ tin cậy của luật
C. Mức độ cải thiện khi sử dụng luật so với không sử dụng luật
D. Độ phức tạp của luật
17. Trong khai phá dữ liệu, bước nào sau đây thường liên quan đến việc loại bỏ nhiễu và xử lý dữ liệu bị thiếu?
A. Lựa chọn mô hình
B. Tiền xử lý dữ liệu
C. Đánh giá mô hình
D. Triển khai mô hình
18. Phương pháp khai phá dữ liệu nào tập trung vào việc tìm ra các mẫu chuỗi sự kiện xảy ra theo thời gian?
A. Phân tích chuỗi thời gian
B. Phân tích luật kết hợp
C. Phân cụm
D. Phân loại
19. Phương pháp nào sau đây KHÔNG thuộc nhóm kỹ thuật tiền xử lý dữ liệu?
A. Chuẩn hóa dữ liệu
B. Phân cụm dữ liệu
C. Rời rạc hóa dữ liệu
D. Xử lý dữ liệu thiếu
20. Trong khai phá dữ liệu, 'overfitting′ đề cập đến vấn đề gì?
A. Mô hình quá phức tạp và hoạt động kém trên dữ liệu mới
B. Dữ liệu huấn luyện quá nhỏ
C. Mô hình quá đơn giản và không nắm bắt được mẫu trong dữ liệu
D. Thiếu dữ liệu kiểm thử
21. Trong quá trình khai phá dữ liệu, bước 'đánh giá mô hình′ quan trọng vì sao?
A. Để tăng tốc độ huấn luyện mô hình
B. Để đảm bảo mô hình đáp ứng yêu cầu và có thể triển khai
C. Để tiền xử lý dữ liệu hiệu quả hơn
D. Để lựa chọn thuật toán khai phá dữ liệu phù hợp
22. Trong khai phá dữ liệu, 'feature engineering′ (kỹ thuật tạo đặc trưng) đề cập đến quá trình nào?
A. Chọn thuật toán khai phá dữ liệu
B. Biến đổi và tạo ra các thuộc tính mới từ dữ liệu hiện có
C. Làm sạch dữ liệu
D. Trực quan hóa dữ liệu
23. Công cụ khai phá dữ liệu nào thường được sử dụng để trực quan hóa dữ liệu và kết quả khai phá?
A. SQL
B. Python (với thư viện như Matplotlib, Seaborn)
C. Java
D. C++
24. Trong ngữ cảnh phân loại, 'confusion matrix′ được sử dụng để làm gì?
A. Trực quan hóa dữ liệu đầu vào
B. Đánh giá hiệu suất của mô hình phân loại
C. Chọn thuộc tính quan trọng nhất
D. Xử lý dữ liệu bị thiếu
25. Kỹ thuật 'bootstrap′ trong khai phá dữ liệu thường được sử dụng cho mục đích gì?
A. Giảm chiều dữ liệu
B. Ước lượng độ tin cậy của mô hình và cải thiện độ ổn định
C. Phân cụm dữ liệu lớn
D. Tìm luật kết hợp mạnh
26. Trong thuật toán phân loại Naive Bayes, giả định 'naive′ (ngây thơ) đề cập đến điều gì?
A. Dữ liệu đầu vào phải được chuẩn hóa
B. Các thuộc tính đầu vào là độc lập có điều kiện với nhau khi biết nhãn lớp
C. Mô hình phải đơn giản nhất có thể
D. Dữ liệu phải được phân bố chuẩn
27. Mục tiêu của việc 'triển khai mô hình′ (model deployment) trong quy trình khai phá dữ liệu là gì?
A. Đánh giá mô hình lần cuối
B. Tích hợp mô hình vào hệ thống thực tế để sử dụng
C. Huấn luyện lại mô hình với dữ liệu mới
D. Trực quan hóa kết quả mô hình
28. Phương pháp khai phá dữ liệu nào nhằm mục đích khám phá các nhóm dữ liệu tương tự nhau dựa trên các thuộc tính của chúng?
A. Phân loại
B. Hồi quy
C. Phân cụm
D. Khai thác luật kết hợp
29. Thuật toán DBSCAN thuộc loại phương pháp phân cụm nào?
A. Phân cụm phân cấp
B. Phân cụm dựa trên trung tâm
C. Phân cụm dựa trên mật độ
D. Phân cụm dựa trên mô hình
30. Trong khai phá dữ liệu, 'mô hình hộp đen′ (black box model) thường được dùng để chỉ loại mô hình nào?
A. Mô hình dễ diễn giải và giải thích quyết định
B. Mô hình phức tạp mà khó hiểu cách thức đưa ra dự đoán
C. Mô hình được huấn luyện trên dữ liệu mật
D. Mô hình chỉ hoạt động trên dữ liệu số