Đề 2 - Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Khai phá dữ liệu

1. Trong khai phá dữ liệu, 'data warehouse′ (kho dữ liệu) được sử dụng để làm gì?

A. Thu thập dữ liệu thời gian thực

B. Lưu trữ và quản lý dữ liệu lịch sử phục vụ phân tích

C. Xử lý giao dịch trực tuyến

D. Truyền tải dữ liệu nhanh chóng

2. Kỹ thuật 'one-hot encoding′ được sử dụng để xử lý loại dữ liệu nào trong tiền xử lý dữ liệu?

A. Dữ liệu số liên tục

B. Dữ liệu thứ tự (ordinal)

C. Dữ liệu phân loại (categorical)

D. Dữ liệu chuỗi thời gian

3. Kỹ thuật 'feature scaling′ (tỷ lệ hóa thuộc tính) thường được sử dụng trong tiền xử lý dữ liệu để làm gì?

A. Giảm số lượng thuộc tính

B. Tăng độ chính xác của dữ liệu

C. Đưa các thuộc tính về cùng thang đo giá trị

D. Xử lý dữ liệu bị thiếu

4. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

A. Phát triển vũ khí hạt nhân

B. Phân tích hành vi khách hàng trong bán lẻ

C. Phát hiện gian lận trong giao dịch tài chính

D. Chẩn đoán bệnh trong y tế

5. Trong khai phá dữ liệu web, phân tích đường dẫn (path analysis) thường được sử dụng để làm gì?

A. Phân loại trang web theo chủ đề

B. Phân cụm người dùng theo hành vi duyệt web

C. Khám phá trình tự các trang web mà người dùng truy cập

D. Dự đoán nội dung trang web

6. Đâu KHÔNG phải là một giai đoạn trong quy trình khai phá dữ liệu điển hình?

A. Hiểu bài toán nghiệp vụ

B. Triển khai và đánh giá kết quả

C. Xây dựng phần mềm ứng dụng

D. Chuẩn bị dữ liệu

7. Trong khai phá luật kết hợp, độ đo 'support′ (độ hỗ trợ) của một tập mục (itemset) thể hiện điều gì?

A. Mức độ phổ biến của tập mục trong dữ liệu

B. Mức độ tin cậy của luật kết hợp

C. Mức độ hữu ích của luật kết hợp

D. Mức độ chính xác của luật kết hợp

8. Kỹ thuật 'data imputation′ (điền giá trị thiếu) được sử dụng để giải quyết vấn đề gì trong tiền xử lý dữ liệu?

A. Dữ liệu trùng lặp

B. Dữ liệu nhiễu

C. Dữ liệu bị thiếu giá trị

D. Dữ liệu không nhất quán

9. Phương pháp khai phá dữ liệu nào thường được sử dụng để nhóm các đối tượng tương tự nhau dựa trên thuộc tính của chúng?

A. Phân loại

B. Hồi quy

C. Phân cụm

D. Dự đoán chuỗi thời gian

10. Trong khai phá dữ liệu, 'lift ratio′ là độ đo quan trọng trong lĩnh vực nào?

A. Phân loại

B. Phân cụm

C. Khai phá luật kết hợp

D. Hồi quy

11. Phương pháp 'gradient boosting′ thuộc loại thuật toán học máy nào?

A. Bagging

B. Boosting

C. Stacking

D. Voting

12. Đâu là thách thức lớn nhất khi khai phá dữ liệu 'big data′?

A. Sự thiếu hụt công cụ khai phá dữ liệu

B. Khả năng mở rộng và hiệu suất tính toán

C. Sự đơn giản của các thuật toán khai phá dữ liệu

D. Chi phí lưu trữ dữ liệu thấp

13. Trong khai phá dữ liệu, kỹ thuật 'ensemble learning′ (học tập kết hợp) nhằm mục đích gì?

A. Đơn giản hóa mô hình học máy

B. Kết hợp nhiều mô hình học máy để cải thiện hiệu suất

C. Giảm thời gian huấn luyện mô hình

D. Tăng khả năng diễn giải của mô hình

14. Trong khai phá dữ liệu, 'overfitting′ (quá khớp) thường xảy ra khi nào?

A. Mô hình quá đơn giản

B. Dữ liệu huấn luyện quá ít

C. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới

D. Thuật toán khai phá dữ liệu không hiệu quả

15. Trong khai phá dữ liệu, bước nào liên quan đến việc chuyển đổi dữ liệu thô sang định dạng phù hợp để phân tích?

A. Lựa chọn mô hình

B. Tiền xử lý dữ liệu

C. Đánh giá mô hình

D. Triển khai mô hình

16. Trong ngữ cảnh khai phá dữ liệu văn bản, TF-IDF được sử dụng để làm gì?

A. Phân loại văn bản

B. Phân cụm văn bản

C. Trích xuất đặc trưng từ văn bản

D. Tóm tắt văn bản

17. Trong khai phá dữ liệu, thuật ngữ 'black box model′ (mô hình hộp đen) thường được dùng để chỉ loại mô hình nào?

A. Mô hình dễ diễn giải và giải thích

B. Mô hình có độ chính xác cao nhưng khó giải thích cơ chế hoạt động

C. Mô hình được mã hóa nguồn mở

D. Mô hình chỉ hoạt động trên dữ liệu văn bản

18. Đâu là nhược điểm chính của thuật toán K-means clustering?

A. Không hiệu quả với dữ liệu lớn

B. Yêu cầu xác định trước số lượng cụm (K)

C. Chỉ hoạt động với dữ liệu số

D. Khó diễn giải kết quả

19. Độ đo 'recall′ (độ phủ) trong đánh giá mô hình phân loại được tính bằng công thức nào?

A. TP ∕ (TP + FN)

B. TN ∕ (TN + FP)

C. TP ∕ (TP + FP)

D. TN ∕ (TN + FN)

20. Độ đo 'precision′ (độ chính xác) trong đánh giá mô hình phân loại được tính bằng công thức nào?

A. TP ∕ (TP + FN)

B. TN ∕ (TN + FP)

C. TP ∕ (TP + FP)

D. TN ∕ (TN + FN)

21. Mục đích của việc sử dụng 'cross-validation′ (kiểm định chéo) trong đánh giá mô hình là gì?

A. Tăng tốc độ huấn luyện mô hình

B. Giảm overfitting và đánh giá khả năng khái quát hóa của mô hình

C. Tối ưu hóa siêu tham số của mô hình

D. Làm sạch dữ liệu huấn luyện

22. Phương pháp nào sau đây thuộc nhóm thuật toán phân loại?

A. PCA

B. K-means

C. Support Vector Machine (SVM)

D. Apriori

23. Phương pháp giảm chiều dữ liệu (dimensionality reduction) nào sau đây KHÔNG thuộc nhóm phương pháp chọn thuộc tính (feature selection)?

A. Principal Component Analysis (PCA)

B. Filter methods

C. Wrapper methods

D. Embedded methods

24. Trong khai phá dữ liệu mạng xã hội, phân tích 'sentiment analysis′ (phân tích cảm xúc) nhằm mục đích gì?

A. Phân tích cấu trúc mạng xã hội

B. Xác định cộng đồng người dùng trên mạng xã hội

C. Xác định thái độ, cảm xúc của người dùng đối với một chủ đề

D. Dự đoán xu hướng lan truyền thông tin trên mạng xã hội

25. Trong khai phá dữ liệu không gian, thuật toán nào thường được sử dụng để phát hiện các cụm điểm dữ liệu có mật độ cao?

A. K-means

B. DBSCAN

C. Apriori

D. Naive Bayes

26. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân cụm?

A. K-means

B. DBSCAN

C. Apriori

D. Hierarchical Clustering

27. Mục tiêu chính của khai phá dữ liệu là gì?

A. Tạo ra dữ liệu mới

B. Lưu trữ dữ liệu hiệu quả hơn

C. Trích xuất tri thức hữu ích từ dữ liệu

D. Mã hóa dữ liệu an toàn hơn

28. Trong ngữ cảnh khai phá dữ liệu chuỗi thời gian, ARIMA là thuật toán thuộc loại nào?

A. Phân loại

B. Phân cụm

C. Hồi quy

D. Dự báo chuỗi thời gian

29. Trong khai phá dữ liệu, 'bias-variance tradeoff′ (đánh đổi giữa độ chệch và phương sai) đề cập đến vấn đề gì?

A. Đánh đổi giữa tốc độ và độ chính xác của thuật toán

B. Đánh đổi giữa khả năng diễn giải và độ phức tạp của mô hình

C. Đánh đổi giữa overfitting và underfitting

D. Đánh đổi giữa chi phí lưu trữ và chi phí tính toán

30. Phương pháp nào sau đây có thể giúp giảm thiểu tác động của dữ liệu nhiễu (noisy data) trong khai phá dữ liệu?

A. Tăng kích thước tập dữ liệu

B. Sử dụng thuật toán phân loại phức tạp hơn

C. Làm sạch dữ liệu và tiền xử lý dữ liệu

D. Giảm số lượng thuộc tính

1 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

1. Trong khai phá dữ liệu, `data warehouse′ (kho dữ liệu) được sử dụng để làm gì?

A. Thu thập dữ liệu thời gian thực

B. Lưu trữ và quản lý dữ liệu lịch sử phục vụ phân tích

C. Xử lý giao dịch trực tuyến

D. Truyền tải dữ liệu nhanh chóng

2 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

2. Kỹ thuật `one-hot encoding′ được sử dụng để xử lý loại dữ liệu nào trong tiền xử lý dữ liệu?

A. Dữ liệu số liên tục

B. Dữ liệu thứ tự (ordinal)

C. Dữ liệu phân loại (categorical)

D. Dữ liệu chuỗi thời gian

3 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

3. Kỹ thuật `feature scaling′ (tỷ lệ hóa thuộc tính) thường được sử dụng trong tiền xử lý dữ liệu để làm gì?

A. Giảm số lượng thuộc tính

B. Tăng độ chính xác của dữ liệu

C. Đưa các thuộc tính về cùng thang đo giá trị

D. Xử lý dữ liệu bị thiếu

4 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

4. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

A. Phát triển vũ khí hạt nhân

B. Phân tích hành vi khách hàng trong bán lẻ

C. Phát hiện gian lận trong giao dịch tài chính

D. Chẩn đoán bệnh trong y tế

5 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

5. Trong khai phá dữ liệu web, phân tích đường dẫn (path analysis) thường được sử dụng để làm gì?

A. Phân loại trang web theo chủ đề

B. Phân cụm người dùng theo hành vi duyệt web

C. Khám phá trình tự các trang web mà người dùng truy cập

D. Dự đoán nội dung trang web

6 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

6. Đâu KHÔNG phải là một giai đoạn trong quy trình khai phá dữ liệu điển hình?

A. Hiểu bài toán nghiệp vụ

B. Triển khai và đánh giá kết quả

C. Xây dựng phần mềm ứng dụng

D. Chuẩn bị dữ liệu

7 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

7. Trong khai phá luật kết hợp, độ đo `support′ (độ hỗ trợ) của một tập mục (itemset) thể hiện điều gì?

A. Mức độ phổ biến của tập mục trong dữ liệu

B. Mức độ tin cậy của luật kết hợp

C. Mức độ hữu ích của luật kết hợp

D. Mức độ chính xác của luật kết hợp

8 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

8. Kỹ thuật `data imputation′ (điền giá trị thiếu) được sử dụng để giải quyết vấn đề gì trong tiền xử lý dữ liệu?

A. Dữ liệu trùng lặp

B. Dữ liệu nhiễu

C. Dữ liệu bị thiếu giá trị

D. Dữ liệu không nhất quán

9 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

9. Phương pháp khai phá dữ liệu nào thường được sử dụng để nhóm các đối tượng tương tự nhau dựa trên thuộc tính của chúng?

A. Phân loại

B. Hồi quy

C. Phân cụm

D. Dự đoán chuỗi thời gian

10 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

10. Trong khai phá dữ liệu, `lift ratio′ là độ đo quan trọng trong lĩnh vực nào?

A. Phân loại

B. Phân cụm

C. Khai phá luật kết hợp

D. Hồi quy

11 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

11. Phương pháp `gradient boosting′ thuộc loại thuật toán học máy nào?

A. Bagging

B. Boosting

C. Stacking

D. Voting

12 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

12. Đâu là thách thức lớn nhất khi khai phá dữ liệu `big data′?

A. Sự thiếu hụt công cụ khai phá dữ liệu

B. Khả năng mở rộng và hiệu suất tính toán

C. Sự đơn giản của các thuật toán khai phá dữ liệu

D. Chi phí lưu trữ dữ liệu thấp

13 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

13. Trong khai phá dữ liệu, kỹ thuật `ensemble learning′ (học tập kết hợp) nhằm mục đích gì?

A. Đơn giản hóa mô hình học máy

B. Kết hợp nhiều mô hình học máy để cải thiện hiệu suất

C. Giảm thời gian huấn luyện mô hình

D. Tăng khả năng diễn giải của mô hình

14 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

14. Trong khai phá dữ liệu, `overfitting′ (quá khớp) thường xảy ra khi nào?

A. Mô hình quá đơn giản

B. Dữ liệu huấn luyện quá ít

C. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới

D. Thuật toán khai phá dữ liệu không hiệu quả

15 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

15. Trong khai phá dữ liệu, bước nào liên quan đến việc chuyển đổi dữ liệu thô sang định dạng phù hợp để phân tích?

A. Lựa chọn mô hình

B. Tiền xử lý dữ liệu

C. Đánh giá mô hình

D. Triển khai mô hình

16 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

16. Trong ngữ cảnh khai phá dữ liệu văn bản, TF-IDF được sử dụng để làm gì?

A. Phân loại văn bản

B. Phân cụm văn bản

C. Trích xuất đặc trưng từ văn bản

D. Tóm tắt văn bản

17 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

17. Trong khai phá dữ liệu, thuật ngữ `black box model′ (mô hình hộp đen) thường được dùng để chỉ loại mô hình nào?

A. Mô hình dễ diễn giải và giải thích

B. Mô hình có độ chính xác cao nhưng khó giải thích cơ chế hoạt động

C. Mô hình được mã hóa nguồn mở

D. Mô hình chỉ hoạt động trên dữ liệu văn bản

18 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

18. Đâu là nhược điểm chính của thuật toán K-means clustering?

A. Không hiệu quả với dữ liệu lớn

B. Yêu cầu xác định trước số lượng cụm (K)

C. Chỉ hoạt động với dữ liệu số

D. Khó diễn giải kết quả

19 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

19. Độ đo `recall′ (độ phủ) trong đánh giá mô hình phân loại được tính bằng công thức nào?

A. TP ∕ (TP + FN)

B. TN ∕ (TN + FP)

C. TP ∕ (TP + FP)

D. TN ∕ (TN + FN)

20 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

20. Độ đo `precision′ (độ chính xác) trong đánh giá mô hình phân loại được tính bằng công thức nào?

A. TP ∕ (TP + FN)

B. TN ∕ (TN + FP)

C. TP ∕ (TP + FP)

D. TN ∕ (TN + FN)

21 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

21. Mục đích của việc sử dụng `cross-validation′ (kiểm định chéo) trong đánh giá mô hình là gì?

A. Tăng tốc độ huấn luyện mô hình

B. Giảm overfitting và đánh giá khả năng khái quát hóa của mô hình

C. Tối ưu hóa siêu tham số của mô hình

D. Làm sạch dữ liệu huấn luyện

22 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

22. Phương pháp nào sau đây thuộc nhóm thuật toán phân loại?

A. PCA

B. K-means

C. Support Vector Machine (SVM)

D. Apriori

23 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

23. Phương pháp giảm chiều dữ liệu (dimensionality reduction) nào sau đây KHÔNG thuộc nhóm phương pháp chọn thuộc tính (feature selection)?

A. Principal Component Analysis (PCA)

B. Filter methods

C. Wrapper methods

D. Embedded methods

24 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

24. Trong khai phá dữ liệu mạng xã hội, phân tích `sentiment analysis′ (phân tích cảm xúc) nhằm mục đích gì?

A. Phân tích cấu trúc mạng xã hội

B. Xác định cộng đồng người dùng trên mạng xã hội

C. Xác định thái độ, cảm xúc của người dùng đối với một chủ đề

D. Dự đoán xu hướng lan truyền thông tin trên mạng xã hội

25 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

25. Trong khai phá dữ liệu không gian, thuật toán nào thường được sử dụng để phát hiện các cụm điểm dữ liệu có mật độ cao?

A. K-means

B. DBSCAN

C. Apriori

D. Naive Bayes

26 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

26. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân cụm?

A. K-means

B. DBSCAN

C. Apriori

D. Hierarchical Clustering

27 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

27. Mục tiêu chính của khai phá dữ liệu là gì?

A. Tạo ra dữ liệu mới

B. Lưu trữ dữ liệu hiệu quả hơn

C. Trích xuất tri thức hữu ích từ dữ liệu

D. Mã hóa dữ liệu an toàn hơn

28 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

28. Trong ngữ cảnh khai phá dữ liệu chuỗi thời gian, ARIMA là thuật toán thuộc loại nào?

A. Phân loại

B. Phân cụm

C. Hồi quy

D. Dự báo chuỗi thời gian

29 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

29. Trong khai phá dữ liệu, `bias-variance tradeoff′ (đánh đổi giữa độ chệch và phương sai) đề cập đến vấn đề gì?

A. Đánh đổi giữa tốc độ và độ chính xác của thuật toán

B. Đánh đổi giữa khả năng diễn giải và độ phức tạp của mô hình

C. Đánh đổi giữa overfitting và underfitting

D. Đánh đổi giữa chi phí lưu trữ và chi phí tính toán

30 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 2

30. Phương pháp nào sau đây có thể giúp giảm thiểu tác động của dữ liệu nhiễu (noisy data) trong khai phá dữ liệu?

A. Tăng kích thước tập dữ liệu

B. Sử dụng thuật toán phân loại phức tạp hơn

C. Làm sạch dữ liệu và tiền xử lý dữ liệu

D. Giảm số lượng thuộc tính

Xem kết quả

Nội dung liên quan: