Đề 4 – Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Khai phá dữ liệu

Đề 4 - Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

1. Trong bài toán phân loại, 'confusion matrix′ (ma trận nhầm lẫn) cung cấp thông tin gì?

A. Độ phức tạp của mô hình phân loại.
B. Thời gian huấn luyện mô hình phân loại.
C. Số lượng dự đoán đúng và sai cho từng lớp.
D. Mức độ tương quan giữa các thuộc tính đầu vào.

2. Đâu là một công cụ khai phá dữ liệu mã nguồn mở phổ biến?

A. SPSS.
B. SAS.
C. RapidMiner.
D. Tableau.

3. ROC curve (đường cong ROC) thường được sử dụng để đánh giá hiệu suất của mô hình nào?

A. Mô hình hồi quy.
B. Mô hình phân cụm.
C. Mô hình phân loại.
D. Mô hình dự báo chuỗi thời gian.

4. Đâu là một thách thức lớn khi khai phá dữ liệu từ mạng xã hội?

A. Dữ liệu thường có cấu trúc rõ ràng.
B. Dung lượng dữ liệu tương đối nhỏ.
C. Dữ liệu thường nhiễu và không có cấu trúc.
D. Người dùng mạng xã hội luôn sẵn sàng chia sẻ thông tin.

5. Kỹ thuật 'dimensionality reduction′ (giảm chiều dữ liệu) có lợi ích gì trong khai phá dữ liệu?

A. Tăng độ chính xác của mô hình.
B. Giảm độ phức tạp tính toán và lưu trữ.
C. Cải thiện khả năng diễn giải của dữ liệu.
D. Tất cả các đáp án trên.

6. Trong khai phá dữ liệu, 'bias-variance tradeoff′ đề cập đến sự đánh đổi giữa yếu tố nào?

A. Độ chính xác và tốc độ của mô hình.
B. Khả năng diễn giải và độ phức tạp của mô hình.
C. Sai lệch (bias) và phương sai (variance) của mô hình.
D. Dữ liệu huấn luyện và dữ liệu kiểm tra.

7. Thuật toán Apriori được sử dụng trong lĩnh vực khai phá dữ liệu nào?

A. Phân tích chuỗi thời gian.
B. Phân tích luật kết hợp.
C. Phân cụm dữ liệu.
D. Phân loại văn bản.

8. Phương pháp 'principal component analysis′ (PCA) là một ví dụ của kỹ thuật nào?

A. Feature scaling ( масштабирование признаков).
B. Feature selection (отбор признаков).
C. Feature extraction (извлечение признаков).
D. Feature engineering (проектирование признаков).

9. Mục tiêu của 'anomaly detection′ (phát hiện bất thường) trong khai phá dữ liệu là gì?

A. Phân loại dữ liệu vào các nhóm.
B. Dự đoán giá trị tương lai.
C. Xác định các điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu.
D. Tìm kiếm các mối quan hệ giữa các thuộc tính.

10. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?

A. Dự báo thời tiết.
B. Phân tích thị trường chứng khoán.
C. Phát hiện gian lận thẻ tín dụng.
D. Dự đoán nguy cơ mắc bệnh dựa trên hồ sơ bệnh án.

11. Trong khai phá dữ liệu chuỗi thời gian, 'ARIMA′ là mô hình được sử dụng để làm gì?

A. Phân loại chuỗi thời gian.
B. Phân cụm chuỗi thời gian.
C. Dự báo chuỗi thời gian.
D. Phát hiện bất thường trong chuỗi thời gian.

12. Trong thuật toán K-means, giá trị 'K′ đại diện cho điều gì?

A. Số chiều của dữ liệu.
B. Số lượng cụm mong muốn.
C. Số lần lặp tối đa của thuật toán.
D. Kích thước của bộ dữ liệu huấn luyện.

13. Kỹ thuật 'feature selection′ (lựa chọn thuộc tính) trong khai phá dữ liệu nhằm mục đích gì?

A. Tạo ra các thuộc tính mới từ các thuộc tính hiện có.
B. Giảm số lượng thuộc tính đầu vào cho mô hình.
C. Tăng cường tính bảo mật của dữ liệu thuộc tính.
D. Chuẩn hóa giá trị của các thuộc tính.

14. Phương pháp khai phá luật kết hợp (association rule mining) thường được sử dụng để giải quyết bài toán nào?

A. Dự đoán giá trị liên tục của một biến.
B. Tìm kiếm mối quan hệ giữa các mục trong một tập dữ liệu giao dịch.
C. Phân loại dữ liệu vào các nhóm đã biết trước.
D. Phát hiện các điểm dữ liệu bất thường.

15. Trong mô hình cây quyết định (decision tree), 'entropy′ được sử dụng để làm gì?

A. Đo lường độ chính xác của mô hình.
B. Đo lường độ không chắc chắn hoặc hỗn loạn của dữ liệu.
C. Xác định độ sâu tối ưu của cây.
D. Tính toán mức độ quan trọng của các thuộc tính.

16. Độ đo 'precision′ trong đánh giá mô hình phân loại đo lường điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế là tích cực.
B. Tỷ lệ dự đoán đúng trên tổng số mẫu được dự đoán là tích cực.
C. Tỷ lệ mẫu thực tế là tích cực được dự đoán đúng.
D. Tỷ lệ mẫu thực tế là tiêu cực bị dự đoán sai.

17. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân cụm?

A. K-means.
B. DBSCAN.
C. Support Vector Machine (SVM).
D. Hierarchical Clustering.

18. Kỹ thuật 'bagging′ và 'boosting′ thuộc nhóm phương pháp học máy nào?

A. Học không giám sát (Unsupervised learning).
B. Học tăng cường (Reinforcement learning).
C. Học tập hợp (Ensemble learning).
D. Học sâu (Deep learning).

19. Đâu là nhược điểm chính của thuật toán K-Nearest Neighbors (KNN)?

A. Khó diễn giải kết quả.
B. Độ phức tạp tính toán cao khi dữ liệu lớn.
C. Yêu cầu dữ liệu phải được chuẩn hóa.
D. Không hiệu quả với dữ liệu nhiễu.

20. Phương pháp 'cross-validation′ (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình khai phá dữ liệu?

A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khả năng khái quát hóa của mô hình.
C. Cải thiện độ chính xác của dữ liệu huấn luyện.
D. Giảm thiểu overfitting trên dữ liệu huấn luyện.

21. Trong khai phá dữ liệu, 'overfitting′ đề cập đến vấn đề gì?

A. Mô hình hoạt động quá chậm do dữ liệu lớn.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
C. Dữ liệu huấn luyện không đủ lớn để mô hình học hiệu quả.
D. Mô hình không thể hội tụ do cấu trúc dữ liệu phức tạp.

22. Trong quá trình tiền xử lý dữ liệu, kỹ thuật 'chuẩn hóa dữ liệu′ (data normalization) nhằm mục đích gì?

A. Loại bỏ các giá trị ngoại lai (outliers).
B. Chuyển đổi dữ liệu về dạng phù hợp cho phân tích.
C. Đưa các thuộc tính về cùng một thang đo giá trị.
D. Xử lý các giá trị bị thiếu (missing values).

23. Kỹ thuật khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm?

A. Phân loại (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Dự báo chuỗi thời gian (Time series forecasting).

24. Đâu là một ví dụ về 'semi-supervised learning′ (học bán giám sát) trong khai phá dữ liệu?

A. Phân loại email spam với dữ liệu đã được gán nhãn hoàn toàn.
B. Phân cụm khách hàng mà không có nhãn.
C. Sử dụng một lượng nhỏ dữ liệu đã gán nhãn và lượng lớn dữ liệu chưa gán nhãn để huấn luyện mô hình.
D. Dự đoán giá nhà dựa trên các thuộc tính và giá bán trước đó.

25. Mục đích chính của việc 'visualizing data mining results′ (trực quan hóa kết quả khai phá dữ liệu) là gì?

A. Tăng độ chính xác của mô hình.
B. Cải thiện tốc độ xử lý dữ liệu.
C. Giúp con người dễ dàng hiểu và diễn giải các mẫu và tri thức được khai phá.
D. Tự động hóa quá trình khai phá dữ liệu.

26. Trong khai phá dữ liệu web, 'web usage mining′ tập trung vào việc phân tích dữ liệu nào?

A. Nội dung văn bản trên các trang web.
B. Cấu trúc liên kết giữa các trang web.
C. Hành vi duyệt web của người dùng.
D. Hình ảnh và video trên các trang web.

27. Trong thuật toán DBSCAN, tham số 'epsilon′ (ε) xác định điều gì?

A. Số lượng cụm mong muốn.
B. Khoảng cách tối đa giữa các điểm trong một cụm.
C. Số điểm tối thiểu cần thiết để tạo thành một cụm.
D. Mức độ phân tán của dữ liệu.

28. Kỹ thuật 'one-hot encoding′ được sử dụng để xử lý loại dữ liệu nào trong khai phá dữ liệu?

A. Dữ liệu số liên tục.
B. Dữ liệu số rời rạc.
C. Dữ liệu phân loại (categorical data).
D. Dữ liệu văn bản tự do.

29. Đâu là mục tiêu chính của khai phá dữ liệu?

A. Tạo ra dữ liệu mới từ các nguồn khác nhau.
B. Làm sạch và chuẩn hóa dữ liệu hiện có.
C. Phát hiện các mẫu và tri thức hữu ích từ dữ liệu.
D. Mã hóa dữ liệu để bảo mật thông tin.

30. Trong khai phá dữ liệu văn bản, 'TF-IDF′ được sử dụng để làm gì?

A. Phân tích cảm xúc văn bản.
B. Trích xuất thực thể có tên (Named Entity Recognition).
C. Tính trọng số của từ trong một văn bản và tập văn bản.
D. Phân loại chủ đề văn bản.

1 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

1. Trong bài toán phân loại, `confusion matrix′ (ma trận nhầm lẫn) cung cấp thông tin gì?

2 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

2. Đâu là một công cụ khai phá dữ liệu mã nguồn mở phổ biến?

3 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

3. ROC curve (đường cong ROC) thường được sử dụng để đánh giá hiệu suất của mô hình nào?

4 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

4. Đâu là một thách thức lớn khi khai phá dữ liệu từ mạng xã hội?

5 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

5. Kỹ thuật `dimensionality reduction′ (giảm chiều dữ liệu) có lợi ích gì trong khai phá dữ liệu?

6 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

6. Trong khai phá dữ liệu, `bias-variance tradeoff′ đề cập đến sự đánh đổi giữa yếu tố nào?

7 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

7. Thuật toán Apriori được sử dụng trong lĩnh vực khai phá dữ liệu nào?

8 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

8. Phương pháp `principal component analysis′ (PCA) là một ví dụ của kỹ thuật nào?

9 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

9. Mục tiêu của `anomaly detection′ (phát hiện bất thường) trong khai phá dữ liệu là gì?

10 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

10. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?

11 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

11. Trong khai phá dữ liệu chuỗi thời gian, `ARIMA′ là mô hình được sử dụng để làm gì?

12 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

12. Trong thuật toán K-means, giá trị `K′ đại diện cho điều gì?

13 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

13. Kỹ thuật `feature selection′ (lựa chọn thuộc tính) trong khai phá dữ liệu nhằm mục đích gì?

14 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

14. Phương pháp khai phá luật kết hợp (association rule mining) thường được sử dụng để giải quyết bài toán nào?

15 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

15. Trong mô hình cây quyết định (decision tree), `entropy′ được sử dụng để làm gì?

16 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

16. Độ đo `precision′ trong đánh giá mô hình phân loại đo lường điều gì?

17 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

17. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân cụm?

18 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

18. Kỹ thuật `bagging′ và `boosting′ thuộc nhóm phương pháp học máy nào?

19 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

19. Đâu là nhược điểm chính của thuật toán K-Nearest Neighbors (KNN)?

20 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

20. Phương pháp `cross-validation′ (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình khai phá dữ liệu?

21 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

21. Trong khai phá dữ liệu, `overfitting′ đề cập đến vấn đề gì?

22 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

22. Trong quá trình tiền xử lý dữ liệu, kỹ thuật `chuẩn hóa dữ liệu′ (data normalization) nhằm mục đích gì?

23 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

23. Kỹ thuật khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm?

24 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

24. Đâu là một ví dụ về `semi-supervised learning′ (học bán giám sát) trong khai phá dữ liệu?

25 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

25. Mục đích chính của việc `visualizing data mining results′ (trực quan hóa kết quả khai phá dữ liệu) là gì?

26 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

26. Trong khai phá dữ liệu web, `web usage mining′ tập trung vào việc phân tích dữ liệu nào?

27 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

27. Trong thuật toán DBSCAN, tham số `epsilon′ (ε) xác định điều gì?

28 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

28. Kỹ thuật `one-hot encoding′ được sử dụng để xử lý loại dữ liệu nào trong khai phá dữ liệu?

29 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

29. Đâu là mục tiêu chính của khai phá dữ liệu?

30 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 4

30. Trong khai phá dữ liệu văn bản, `TF-IDF′ được sử dụng để làm gì?