1. Trong khai phá dữ liệu đa phương tiện, dữ liệu nào KHÔNG thuộc loại dữ liệu đa phương tiện?
A. Hình ảnh.
B. Video.
C. Văn bản thuần túy.
D. Âm thanh.
2. Độ đo 'độ chính xác′ (accuracy) trong phân loại thường được tính bằng:
A. Tỷ lệ dự đoán sai trên tổng số mẫu.
B. Tỷ lệ dự đoán đúng trên tổng số mẫu.
C. Tỷ lệ dự đoán đúng trên số mẫu thực tế là dương tính.
D. Tỷ lệ mẫu thực tế là dương tính được dự đoán đúng.
3. Trong kiến trúc dữ liệu lớn, 'Hadoop Distributed File System′ (HDFS) được sử dụng để:
A. Thực hiện các thuật toán khai phá dữ liệu.
B. Lưu trữ và quản lý dữ liệu phân tán trên nhiều máy tính.
C. Trực quan hóa dữ liệu lớn.
D. Kết nối với các nguồn dữ liệu khác nhau.
4. Trong khai phá dữ liệu, 'độ đo hỗ trợ' (support) thường được sử dụng trong thuật toán nào?
A. Cây quyết định (Decision Tree)
B. K-Means Clustering
C. Apriori
D. Hồi quy tuyến tính (Linear Regression)
5. Trong khai phá dữ liệu chuỗi thời gian, mục tiêu chính thường là:
A. Phân loại các chuỗi thời gian vào các danh mục khác nhau.
B. Dự đoán giá trị tương lai của chuỗi thời gian.
C. Phân cụm các chuỗi thời gian dựa trên hình dạng.
D. Tất cả các đáp án trên.
6. Trong khai phá dữ liệu, 'mô hình hộp đen′ (black box model) thường được nhắc đến khi nói về thuật toán nào?
A. Cây quyết định.
B. Mạng nơ-ron sâu (Deep Neural Networks).
C. Hồi quy tuyến tính.
D. Luật kết hợp.
7. Trong quy trình khai phá dữ liệu, giai đoạn nào tập trung vào việc làm sạch và chuyển đổi dữ liệu?
A. Lựa chọn dữ liệu
B. Tiền xử lý dữ liệu
C. Khai thác mẫu
D. Đánh giá mẫu
8. Khi mô hình phân loại dự đoán sai một mẫu dương tính là âm tính, đây được gọi là lỗi loại nào?
A. Lỗi loại I (False Positive).
B. Lỗi loại II (False Negative).
C. Độ chính xác thấp.
D. Overfitting.
9. Độ đo 'F1-score′ là trung bình điều hòa của độ đo nào?
A. Độ chính xác (accuracy) và độ bao phủ (recall).
B. Độ chính xác (precision) và độ bao phủ (recall).
C. Độ chính xác (precision) và độ đo F2.
D. Độ bao phủ (recall) và độ đo ROC AUC.
10. Khi nào nên sử dụng phương pháp 'phân tích thành phần chính′ (PCA)?
A. Khi muốn phân cụm dữ liệu.
B. Khi muốn giảm chiều dữ liệu và loại bỏ nhiễu.
C. Khi muốn dự đoán giá trị thời gian.
D. Khi muốn tìm luật kết hợp.
11. Phương pháp xử lý dữ liệu ngoại lai (outlier) nào sau đây có thể làm mất thông tin?
A. Winsorizing (điều chỉnh giá trị ngoại lai về giá trị gần nhất không ngoại lai).
B. Z-score standardization (chuẩn hóa Z-score).
C. Loại bỏ hoàn toàn dữ liệu ngoại lai.
D. Sử dụng các thuật toán mạnh mẽ với ngoại lai (robust algorithms).
12. Phương pháp 'gradient boosting′ thuộc loại thuật toán học máy nào?
A. Phân cụm.
B. Phân loại.
C. Hồi quy.
D. Cả phân loại và hồi quy.
13. Đâu là thách thức lớn nhất khi khai phá dữ liệu từ mạng xã hội?
A. Dung lượng dữ liệu quá nhỏ.
B. Thiếu công cụ phân tích dữ liệu mạng xã hội.
C. Dữ liệu nhiễu, không cấu trúc và tính riêng tư.
D. Chi phí thu thập dữ liệu quá cao.
14. Phương pháp 'cross-validation′ (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình khai phá dữ liệu?
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá hiệu năng của mô hình trên dữ liệu chưa từng thấy.
C. Giảm overfitting cho mô hình.
D. Làm sạch dữ liệu huấn luyện.
15. Kỹ thuật giảm chiều dữ liệu (dimensionality reduction) có vai trò gì trong khai phá dữ liệu?
A. Tăng số lượng thuộc tính của dữ liệu để mô hình phức tạp hơn.
B. Giảm số lượng thuộc tính của dữ liệu mà vẫn giữ được thông tin quan trọng.
C. Tăng kích thước của tập dữ liệu để cải thiện độ chính xác.
D. Chuyển đổi dữ liệu sang định dạng hình ảnh để dễ phân tích hơn.
16. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là:
A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình chuyển đổi dữ liệu thô thành thông tin hữu ích.
C. Quá trình khám phá tri thức hữu ích từ lượng lớn dữ liệu.
D. Quá trình trực quan hóa dữ liệu để dễ dàng phân tích.
17. Trong ngữ cảnh khai phá dữ liệu, 'overfitting′ (quá khớp) đề cập đến vấn đề gì?
A. Mô hình hoạt động quá chậm do dữ liệu quá lớn.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
C. Dữ liệu huấn luyện không đủ để xây dựng mô hình.
D. Mô hình quá đơn giản nên không nắm bắt được thông tin quan trọng.
18. Khái niệm 'confidence′ (độ tin cậy) trong khai thác luật kết hợp đo lường điều gì?
A. Tần suất xuất hiện của một tập mục phổ biến.
B. Xác suất một mục Y xuất hiện khi mục X đã xuất hiện.
C. Mức độ thú vị của một luật kết hợp.
D. Độ phổ biến của một mục trong tập dữ liệu.
19. Trong khai phá dữ liệu văn bản, 'TF-IDF′ được sử dụng để:
A. Phân cụm các văn bản dựa trên chủ đề.
B. Đo lường tầm quan trọng của từ trong một văn bản so với tập hợp văn bản.
C. Loại bỏ các từ dừng (stop words) khỏi văn bản.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
20. Phương pháp 'bootstrap aggregating′ (bagging) trong học máy nhằm mục đích:
A. Tăng độ phức tạp của mô hình.
B. Giảm phương sai và cải thiện tính ổn định của mô hình.
C. Tăng độ chính xác trên dữ liệu huấn luyện.
D. Giảm thời gian huấn luyện mô hình.
21. Trong mô hình cây quyết định, 'entropy′ (entropi) được sử dụng để:
A. Đo lường độ chính xác của cây quyết định.
B. Chọn thuộc tính tốt nhất để phân chia nút.
C. Giảm độ phức tạp của cây quyết định.
D. Xác định độ sâu tối đa của cây quyết định.
22. Thuật toán phân cụm (Clustering) được sử dụng trong khai phá dữ liệu nhằm mục đích:
A. Dự đoán giá trị của một biến số dựa trên các biến số khác.
B. Phân loại các đối tượng vào các nhóm định trước.
C. Tìm kiếm các mẫu hoặc quy tắc kết hợp giữa các mục dữ liệu.
D. Phân chia dữ liệu thành các nhóm dựa trên sự tương đồng.
23. Trong khai phá dữ liệu không gian, kỹ thuật nào thường được sử dụng để tìm kiếm các cụm có hình dạng bất kỳ?
A. K-Means.
B. DBSCAN.
C. Hierarchical Clustering.
D. PCA.
24. Ứng dụng nào sau đây KHÔNG phải là ứng dụng của khai phá dữ liệu?
A. Phát hiện gian lận thẻ tín dụng.
B. Dự báo thời tiết hàng ngày.
C. Gợi ý sản phẩm cho khách hàng mua sắm trực tuyến.
D. Chẩn đoán bệnh dựa trên hồ sơ bệnh án điện tử.
25. Thuật toán 'Support Vector Machine′ (SVM) hoạt động tốt nhất trong bài toán nào?
A. Phân cụm dữ liệu lớn.
B. Phân loại dữ liệu có chiều cao.
C. Phân loại dữ liệu có biên quyết định phức tạp.
D. Khai thác luật kết hợp từ dữ liệu giao dịch.
26. Trong ngữ cảnh khai phá web, 'web usage mining′ (khai phá sử dụng web) tập trung vào việc phân tích dữ liệu nào?
A. Nội dung trang web.
B. Cấu trúc liên kết giữa các trang web.
C. Hành vi duyệt web của người dùng.
D. Thiết kế giao diện trang web.
27. Mục tiêu của 'feature scaling′ (tỷ lệ hóa thuộc tính) trong tiền xử lý dữ liệu là gì?
A. Tăng số lượng thuộc tính.
B. Đưa các thuộc tính về cùng một thang đo.
C. Loại bỏ các thuộc tính không liên quan.
D. Chuyển đổi dữ liệu định tính thành định lượng.
28. Phương pháp khai phá dữ liệu nào thường được sử dụng để dự đoán xu hướng bán hàng trong tương lai?
A. Phân tích hồi quy
B. Phân cụm
C. Phân loại
D. Khai thác luật kết hợp
29. Điểm khác biệt chính giữa khai phá dữ liệu và thống kê truyền thống là gì?
A. Khai phá dữ liệu sử dụng ít dữ liệu hơn thống kê.
B. Thống kê tập trung vào mô tả, còn khai phá dữ liệu tập trung vào khám phá.
C. Khai phá dữ liệu chỉ sử dụng dữ liệu định lượng, thống kê thì không.
D. Thống kê không thể xử lý dữ liệu lớn như khai phá dữ liệu.
30. Trong thuật toán K-Means, giá trị 'K′ đại diện cho điều gì?
A. Số chiều của dữ liệu.
B. Số lượng cụm mong muốn.
C. Số lần lặp tối đa của thuật toán.
D. Kích thước của tập dữ liệu.