Đề 15 - Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Khai phá dữ liệu

1. Phương pháp nào sau đây giúp giảm ảnh hưởng của các giá trị ngoại lai (outliers) trong dữ liệu?

A. Chuẩn hóa Z-score (Z-score Normalization)

B. Rời rạc hóa dữ liệu (Data Discretization)

C. Rời bỏ giá trị ngoại lai (Outlier Removal)

D. Tổng hợp dữ liệu (Data Aggregation)

2. Độ đo 'recall′ (độ phủ) trong đánh giá mô hình phân loại đo lường điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số dự đoán

B. Tỷ lệ dự đoán dương tính đúng trên tổng số dự đoán dương tính

C. Tỷ lệ dự đoán dương tính đúng trên tổng số thực tế là dương tính

D. Tỷ lệ dự đoán âm tính đúng trên tổng số thực tế là âm tính

3. Trong khai phá dữ liệu văn bản, kỹ thuật 'TF-IDF′ được sử dụng để làm gì?

A. Phân tích cảm xúc văn bản

B. Trích xuất thực thể văn bản

C. Tính trọng số quan trọng của từ trong văn bản

D. Phân loại văn bản

4. Kỹ thuật nào sau đây KHÔNG phải là phương pháp tiền xử lý dữ liệu?

A. Chuẩn hóa dữ liệu (Data Normalization)

B. Rời rạc hóa dữ liệu (Data Discretization)

C. Phân loại dữ liệu (Data Classification)

D. Làm sạch dữ liệu (Data Cleaning)

5. Trong quá trình khai phá dữ liệu, 'dữ liệu nhiễu′ (noise data) đề cập đến điều gì?

A. Dữ liệu được thu thập từ nhiều nguồn khác nhau

B. Dữ liệu bị thiếu giá trị

C. Dữ liệu không chính xác hoặc không liên quan đến mục tiêu khai phá

D. Dữ liệu có kích thước quá lớn

6. Vấn đề 'quá khớp′ (overfitting) trong mô hình học máy xảy ra khi nào?

A. Mô hình quá đơn giản và không nắm bắt được cấu trúc dữ liệu

B. Mô hình hoạt động kém trên cả tập huấn luyện và tập kiểm thử

C. Mô hình hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm thử

D. Mô hình hoạt động tốt trên tập kiểm thử nhưng kém trên tập huấn luyện

7. Khi nào thì 'độ đo F1′ (F1-score) trở thành độ đo đánh giá mô hình phân loại quan trọng hơn độ chính xác (accuracy)?

A. Khi dữ liệu có số lượng lớn thuộc tính

B. Khi dữ liệu bị nhiễu

C. Khi dữ liệu bị mất cân bằng lớp (imbalanced classes)

D. Khi mô hình có độ phức tạp cao

8. Độ đo 'precision′ (độ chính xác) trong đánh giá mô hình phân loại đo lường điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số dự đoán

B. Tỷ lệ dự đoán dương tính đúng trên tổng số dự đoán dương tính

C. Tỷ lệ dự đoán dương tính đúng trên tổng số thực tế là dương tính

D. Tỷ lệ dự đoán âm tính đúng trên tổng số thực tế là âm tính

9. Phương pháp nào sau đây giúp xử lý dữ liệu bị thiếu giá trị?

A. Rời rạc hóa dữ liệu (Data Discretization)

B. Chuẩn hóa dữ liệu (Data Normalization)

C. Điền giá trị trung bình (Mean Imputation)

D. Giảm chiều dữ liệu (Dimensionality Reduction)

10. Trong khai phá dữ liệu, mục tiêu của việc 'trực quan hóa dữ liệu′ (data visualization) là gì?

A. Tăng tốc độ xử lý dữ liệu

B. Biến đổi dữ liệu thành dạng số

C. Giúp con người dễ dàng hiểu và khám phá dữ liệu

D. Giảm dung lượng lưu trữ dữ liệu

11. Phương pháp khai phá dữ liệu nào thường được sử dụng để dự đoán giá nhà dựa trên các đặc trưng như diện tích, vị trí và số phòng ngủ?

A. Phân loại (Classification)

B. Hồi quy (Regression)

C. Phân cụm (Clustering)

D. Khai thác luật kết hợp (Association Rule Mining)

12. Kỹ thuật 'giảm chiều dữ liệu′ (dimensionality reduction) có mục đích chính là gì trong khai phá dữ liệu?

A. Tăng số lượng thuộc tính của dữ liệu

B. Loại bỏ các mẫu nhiễu trong dữ liệu

C. Giảm số lượng thuộc tính nhưng vẫn giữ thông tin quan trọng

D. Cải thiện độ chính xác của dữ liệu

13. Kỹ thuật 'phân tích thành phần chính′ (PCA) chủ yếu được sử dụng cho mục đích gì?

A. Phân loại dữ liệu

B. Phân cụm dữ liệu

C. Giảm chiều dữ liệu

D. Khai thác luật kết hợp

14. Trong khai phá luật kết hợp, 'support′ (độ hỗ trợ) của một tập mục thể hiện điều gì?

A. Xác suất mục B xuất hiện khi mục A đã xuất hiện

B. Tần suất xuất hiện đồng thời của các mục trong tập mục

C. Mức độ thú vị của một luật kết hợp

D. Độ tin cậy của luật kết hợp

15. Phương pháp nào sau đây thuộc nhóm 'học có giám sát′ (supervised learning)?

A. K-Means

B. Apriori

C. Cây quyết định (Decision Tree)

D. PCA (Principal Component Analysis)

16. Trong khai phá dữ liệu, 'tập huấn luyện′ (training set) được sử dụng cho mục đích gì?

A. Đánh giá hiệu suất mô hình

B. Xây dựng mô hình khai phá dữ liệu

C. Tiền xử lý dữ liệu

D. Trực quan hóa dữ liệu

17. Bước nào sau đây KHÔNG thuộc quy trình CRISP-DM (Cross-Industry Standard Process for Data Mining)?

A. Hiểu nghiệp vụ (Business Understanding)

B. Triển khai (Deployment)

C. Lập trình (Programming)

D. Đánh giá (Evaluation)

18. Kỹ thuật 'boosting′ trong học máy thuộc loại phương pháp nào?

A. Phương pháp phân cụm

B. Phương pháp giảm chiều dữ liệu

C. Phương pháp học tập hợp (ensemble learning)

D. Phương pháp tiền xử lý dữ liệu

19. Mục đích của việc 'chia dữ liệu′ (data splitting) thành tập huấn luyện, tập kiểm thử và tập xác thực (validation set) là gì?

A. Tăng dung lượng dữ liệu

B. Đảm bảo mô hình hoạt động tốt trên dữ liệu mới và tránh quá khớp

C. Giảm thời gian huấn luyện mô hình

D. Đơn giản hóa quá trình tiền xử lý dữ liệu

20. Thuật toán K-Means thuộc loại kỹ thuật khai phá dữ liệu nào?

A. Phân loại (Classification)

B. Hồi quy (Regression)

C. Phân cụm (Clustering)

D. Khai thác luật kết hợp (Association Rule Mining)

21. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm tương tự?

A. Phân loại (Classification)

B. Hồi quy (Regression)

C. Phân cụm (Clustering)

D. Khai thác luật kết hợp (Association Rule Mining)

22. Độ đo nào thường được sử dụng để đánh giá hiệu quả của mô hình phân loại?

A. RMSE (Root Mean Squared Error)

B. MAE (Mean Absolute Error)

C. Độ chính xác (Accuracy)

D. SSE (Sum of Squared Errors)

23. Mục tiêu chính của tiền xử lý dữ liệu trong khai phá dữ liệu là gì?

A. Tăng tốc độ thực thi thuật toán khai phá

B. Nâng cao chất lượng dữ liệu đầu vào cho quá trình khai phá

C. Giảm dung lượng lưu trữ dữ liệu

D. Đơn giản hóa việc trực quan hóa dữ liệu

24. Trong khai phá dữ liệu, 'dữ liệu thứ bậc′ (hierarchical data) thường được biểu diễn bằng cấu trúc nào?

A. Bảng

B. Đồ thị

C. Cây

D. Ma trận

25. Thuật toán Apriori được sử dụng trong loại bài toán khai phá dữ liệu nào?

A. Phân loại (Classification)

B. Hồi quy (Regression)

C. Phân cụm (Clustering)

D. Khai thác luật kết hợp (Association Rule Mining)

26. Trong khai phá dữ liệu, 'dữ liệu định danh′ (categorical data) là loại dữ liệu nào?

A. Dữ liệu số có thứ tự

B. Dữ liệu số liên tục

C. Dữ liệu biểu diễn các nhóm hoặc danh mục

D. Dữ liệu thời gian

27. Trong khai thác luật kết hợp, độ đo 'độ tin cậy′ (confidence) thể hiện điều gì?

A. Tần suất xuất hiện của tập mục phổ biến

B. Xác suất mục B xuất hiện khi mục A đã xuất hiện

C. Mức độ thú vị của một luật kết hợp

D. Tỷ lệ giao dịch chứa cả mục A và mục B so với tổng số giao dịch

28. Trong ngữ cảnh khai phá dữ liệu, 'kho dữ liệu′ (data warehouse) có vai trò chính là gì?

A. Thu thập dữ liệu thời gian thực

B. Lưu trữ dữ liệu giao dịch trực tuyến

C. Lưu trữ dữ liệu tích hợp từ nhiều nguồn cho mục đích phân tích

D. Xử lý dữ liệu giao dịch hàng ngày

29. Kỹ thuật nào sau đây thường được sử dụng để phát hiện gian lận thẻ tín dụng?

A. Phân loại (Classification)

B. Phân cụm (Clustering)

C. Phát hiện dị thường (Anomaly Detection)

D. Hồi quy (Regression)

30. Loại dữ liệu nào sau đây phù hợp nhất với thuật toán K-Nearest Neighbors (KNN)?

A. Dữ liệu rời rạc

B. Dữ liệu liên tục

C. Dữ liệu văn bản

D. Dữ liệu đồ thị

1 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

1. Phương pháp nào sau đây giúp giảm ảnh hưởng của các giá trị ngoại lai (outliers) trong dữ liệu?

A. Chuẩn hóa Z-score (Z-score Normalization)

B. Rời rạc hóa dữ liệu (Data Discretization)

C. Rời bỏ giá trị ngoại lai (Outlier Removal)

D. Tổng hợp dữ liệu (Data Aggregation)

2 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

2. Độ đo `recall′ (độ phủ) trong đánh giá mô hình phân loại đo lường điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số dự đoán

B. Tỷ lệ dự đoán dương tính đúng trên tổng số dự đoán dương tính

C. Tỷ lệ dự đoán dương tính đúng trên tổng số thực tế là dương tính

D. Tỷ lệ dự đoán âm tính đúng trên tổng số thực tế là âm tính

3 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

3. Trong khai phá dữ liệu văn bản, kỹ thuật `TF-IDF′ được sử dụng để làm gì?

A. Phân tích cảm xúc văn bản

B. Trích xuất thực thể văn bản

C. Tính trọng số quan trọng của từ trong văn bản

D. Phân loại văn bản

4 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

4. Kỹ thuật nào sau đây KHÔNG phải là phương pháp tiền xử lý dữ liệu?

A. Chuẩn hóa dữ liệu (Data Normalization)

B. Rời rạc hóa dữ liệu (Data Discretization)

C. Phân loại dữ liệu (Data Classification)

D. Làm sạch dữ liệu (Data Cleaning)

5 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

5. Trong quá trình khai phá dữ liệu, `dữ liệu nhiễu′ (noise data) đề cập đến điều gì?

A. Dữ liệu được thu thập từ nhiều nguồn khác nhau

B. Dữ liệu bị thiếu giá trị

C. Dữ liệu không chính xác hoặc không liên quan đến mục tiêu khai phá

D. Dữ liệu có kích thước quá lớn

6 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

6. Vấn đề `quá khớp′ (overfitting) trong mô hình học máy xảy ra khi nào?

A. Mô hình quá đơn giản và không nắm bắt được cấu trúc dữ liệu

B. Mô hình hoạt động kém trên cả tập huấn luyện và tập kiểm thử

C. Mô hình hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm thử

D. Mô hình hoạt động tốt trên tập kiểm thử nhưng kém trên tập huấn luyện

7 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

7. Khi nào thì `độ đo F1′ (F1-score) trở thành độ đo đánh giá mô hình phân loại quan trọng hơn độ chính xác (accuracy)?

A. Khi dữ liệu có số lượng lớn thuộc tính

B. Khi dữ liệu bị nhiễu

C. Khi dữ liệu bị mất cân bằng lớp (imbalanced classes)

D. Khi mô hình có độ phức tạp cao

8 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

8. Độ đo `precision′ (độ chính xác) trong đánh giá mô hình phân loại đo lường điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số dự đoán

B. Tỷ lệ dự đoán dương tính đúng trên tổng số dự đoán dương tính

C. Tỷ lệ dự đoán dương tính đúng trên tổng số thực tế là dương tính

D. Tỷ lệ dự đoán âm tính đúng trên tổng số thực tế là âm tính

9 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

9. Phương pháp nào sau đây giúp xử lý dữ liệu bị thiếu giá trị?

A. Rời rạc hóa dữ liệu (Data Discretization)

B. Chuẩn hóa dữ liệu (Data Normalization)

C. Điền giá trị trung bình (Mean Imputation)

D. Giảm chiều dữ liệu (Dimensionality Reduction)

10 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

10. Trong khai phá dữ liệu, mục tiêu của việc `trực quan hóa dữ liệu′ (data visualization) là gì?

A. Tăng tốc độ xử lý dữ liệu

B. Biến đổi dữ liệu thành dạng số

C. Giúp con người dễ dàng hiểu và khám phá dữ liệu

D. Giảm dung lượng lưu trữ dữ liệu

11 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

11. Phương pháp khai phá dữ liệu nào thường được sử dụng để dự đoán giá nhà dựa trên các đặc trưng như diện tích, vị trí và số phòng ngủ?

A. Phân loại (Classification)

B. Hồi quy (Regression)

C. Phân cụm (Clustering)

D. Khai thác luật kết hợp (Association Rule Mining)

12 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

12. Kỹ thuật `giảm chiều dữ liệu′ (dimensionality reduction) có mục đích chính là gì trong khai phá dữ liệu?

A. Tăng số lượng thuộc tính của dữ liệu

B. Loại bỏ các mẫu nhiễu trong dữ liệu

C. Giảm số lượng thuộc tính nhưng vẫn giữ thông tin quan trọng

D. Cải thiện độ chính xác của dữ liệu

13 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

13. Kỹ thuật `phân tích thành phần chính′ (PCA) chủ yếu được sử dụng cho mục đích gì?

A. Phân loại dữ liệu

B. Phân cụm dữ liệu

C. Giảm chiều dữ liệu

D. Khai thác luật kết hợp

14 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

14. Trong khai phá luật kết hợp, `support′ (độ hỗ trợ) của một tập mục thể hiện điều gì?

A. Xác suất mục B xuất hiện khi mục A đã xuất hiện

B. Tần suất xuất hiện đồng thời của các mục trong tập mục

C. Mức độ thú vị của một luật kết hợp

D. Độ tin cậy của luật kết hợp

15 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

15. Phương pháp nào sau đây thuộc nhóm `học có giám sát′ (supervised learning)?

A. K-Means

B. Apriori

C. Cây quyết định (Decision Tree)

D. PCA (Principal Component Analysis)

16 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

16. Trong khai phá dữ liệu, `tập huấn luyện′ (training set) được sử dụng cho mục đích gì?

A. Đánh giá hiệu suất mô hình

B. Xây dựng mô hình khai phá dữ liệu

C. Tiền xử lý dữ liệu

D. Trực quan hóa dữ liệu

17 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

17. Bước nào sau đây KHÔNG thuộc quy trình CRISP-DM (Cross-Industry Standard Process for Data Mining)?

A. Hiểu nghiệp vụ (Business Understanding)

B. Triển khai (Deployment)

C. Lập trình (Programming)

D. Đánh giá (Evaluation)

18 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

18. Kỹ thuật `boosting′ trong học máy thuộc loại phương pháp nào?

A. Phương pháp phân cụm

B. Phương pháp giảm chiều dữ liệu

C. Phương pháp học tập hợp (ensemble learning)

D. Phương pháp tiền xử lý dữ liệu

19 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

19. Mục đích của việc `chia dữ liệu′ (data splitting) thành tập huấn luyện, tập kiểm thử và tập xác thực (validation set) là gì?

A. Tăng dung lượng dữ liệu

B. Đảm bảo mô hình hoạt động tốt trên dữ liệu mới và tránh quá khớp

C. Giảm thời gian huấn luyện mô hình

D. Đơn giản hóa quá trình tiền xử lý dữ liệu

20 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

20. Thuật toán K-Means thuộc loại kỹ thuật khai phá dữ liệu nào?

A. Phân loại (Classification)

B. Hồi quy (Regression)

C. Phân cụm (Clustering)

D. Khai thác luật kết hợp (Association Rule Mining)

21 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

21. Trong khai phá dữ liệu, kỹ thuật nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm tương tự?

A. Phân loại (Classification)

B. Hồi quy (Regression)

C. Phân cụm (Clustering)

D. Khai thác luật kết hợp (Association Rule Mining)

22 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

22. Độ đo nào thường được sử dụng để đánh giá hiệu quả của mô hình phân loại?

A. RMSE (Root Mean Squared Error)

B. MAE (Mean Absolute Error)

C. Độ chính xác (Accuracy)

D. SSE (Sum of Squared Errors)

23 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

23. Mục tiêu chính của tiền xử lý dữ liệu trong khai phá dữ liệu là gì?

A. Tăng tốc độ thực thi thuật toán khai phá

B. Nâng cao chất lượng dữ liệu đầu vào cho quá trình khai phá

C. Giảm dung lượng lưu trữ dữ liệu

D. Đơn giản hóa việc trực quan hóa dữ liệu

24 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

24. Trong khai phá dữ liệu, `dữ liệu thứ bậc′ (hierarchical data) thường được biểu diễn bằng cấu trúc nào?

A. Bảng

B. Đồ thị

C. Cây

D. Ma trận

25 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

25. Thuật toán Apriori được sử dụng trong loại bài toán khai phá dữ liệu nào?

A. Phân loại (Classification)

B. Hồi quy (Regression)

C. Phân cụm (Clustering)

D. Khai thác luật kết hợp (Association Rule Mining)

26 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

26. Trong khai phá dữ liệu, `dữ liệu định danh′ (categorical data) là loại dữ liệu nào?

A. Dữ liệu số có thứ tự

B. Dữ liệu số liên tục

C. Dữ liệu biểu diễn các nhóm hoặc danh mục

D. Dữ liệu thời gian

27 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

27. Trong khai thác luật kết hợp, độ đo `độ tin cậy′ (confidence) thể hiện điều gì?

A. Tần suất xuất hiện của tập mục phổ biến

B. Xác suất mục B xuất hiện khi mục A đã xuất hiện

C. Mức độ thú vị của một luật kết hợp

D. Tỷ lệ giao dịch chứa cả mục A và mục B so với tổng số giao dịch

28 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

28. Trong ngữ cảnh khai phá dữ liệu, `kho dữ liệu′ (data warehouse) có vai trò chính là gì?

A. Thu thập dữ liệu thời gian thực

B. Lưu trữ dữ liệu giao dịch trực tuyến

C. Lưu trữ dữ liệu tích hợp từ nhiều nguồn cho mục đích phân tích

D. Xử lý dữ liệu giao dịch hàng ngày

29 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

29. Kỹ thuật nào sau đây thường được sử dụng để phát hiện gian lận thẻ tín dụng?

A. Phân loại (Classification)

B. Phân cụm (Clustering)

C. Phát hiện dị thường (Anomaly Detection)

D. Hồi quy (Regression)

30 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 15

30. Loại dữ liệu nào sau đây phù hợp nhất với thuật toán K-Nearest Neighbors (KNN)?

A. Dữ liệu rời rạc

B. Dữ liệu liên tục

C. Dữ liệu văn bản

D. Dữ liệu đồ thị

Xem kết quả

Nội dung liên quan: