Đề 13 – Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Khai phá dữ liệu

Đề 13 - Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

1. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm?

A. Phân loại (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Khai thác luật kết hợp (Association Rule Mining).

2. Trong khai phá dữ liệu, 'mô hình hóa′ (modeling) là giai đoạn nào?

A. Thu thập và làm sạch dữ liệu.
B. Lựa chọn và áp dụng thuật toán khai phá dữ liệu.
C. Đánh giá và diễn giải kết quả.
D. Triển khai và giám sát mô hình.

3. Phương pháp nào sau đây thuộc nhóm 'học không giám sát′ (Unsupervised Learning) trong khai phá dữ liệu?

A. Hồi quy tuyến tính (Linear Regression).
B. Phân cụm K-means.
C. Máy vector hỗ trợ (Support Vector Machine).
D. Mạng nơ-ron (Neural Network) cho phân loại.

4. Mục tiêu chính của kỹ thuật 'giảm chiều dữ liệu′ (Dimensionality Reduction) trong tiền xử lý dữ liệu là gì?

A. Tăng số lượng thuộc tính của dữ liệu.
B. Loại bỏ dữ liệu bị thiếu.
C. Giảm số lượng thuộc tính không liên quan hoặc dư thừa.
D. Chuẩn hóa dữ liệu về cùng một thang đo.

5. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

A. Phát hiện gian lận trong giao dịch ngân hàng.
B. Dự báo thời tiết.
C. Đề xuất sản phẩm cho khách hàng trực tuyến.
D. Chẩn đoán bệnh dựa trên dữ liệu y tế.

6. Độ đo 'F1-score′ là trung bình điều hòa của độ đo nào?

A. Độ chính xác và độ tin cậy.
B. Độ chính xác và độ phủ.
C. Độ tin cậy và độ phủ.
D. Độ chính xác và lỗi.

7. Trong ngữ cảnh khai phá dữ liệu không gian, loại dữ liệu nào được xử lý chủ yếu?

A. Dữ liệu văn bản.
B. Dữ liệu âm thanh.
C. Dữ liệu vị trí địa lý.
D. Dữ liệu thời gian.

8. Trong khai phá dữ liệu web, 'web usage mining′ (khai phá sử dụng web) tập trung vào việc phân tích dữ liệu nào?

A. Nội dung trang web.
B. Cấu trúc liên kết giữa các trang web.
C. Hành vi duyệt web của người dùng.
D. Công nghệ phát triển web.

9. Ý nghĩa của 'lift′ trong khai thác luật kết hợp là gì?

A. Tần suất xuất hiện của một tập mục.
B. Độ tin cậy của một luật.
C. Mức độ quan tâm của một luật so với kỳ vọng ngẫu nhiên.
D. Tỷ lệ giao dịch chứa các mục liên quan.

10. Phương pháp 'ensemble learning′ (học tập kết hợp) trong khai phá dữ liệu là gì?

A. Chia nhỏ dữ liệu thành các phần nhỏ để khai phá nhanh hơn.
B. Kết hợp nhiều mô hình học máy yếu để tạo ra một mô hình mạnh hơn.
C. Sử dụng một thuật toán duy nhất cho nhiều bài toán khác nhau.
D. Tự động lựa chọn thuật toán khai phá dữ liệu tốt nhất.

11. Mục tiêu của việc 'diễn giải kết quả' (interpretation) sau khi khai phá dữ liệu là gì?

A. Tăng độ chính xác của mô hình.
B. Hiểu ý nghĩa và giá trị thực tiễn của các mẫu đã tìm thấy.
C. Cải thiện tốc độ khai phá dữ liệu.
D. Chuẩn bị dữ liệu cho các bước khai phá tiếp theo.

12. Trong thuật toán K-means, 'K′ đại diện cho điều gì?

A. Số lượng thuộc tính của dữ liệu.
B. Số lượng cụm (clusters) mong muốn.
C. Số lần lặp tối đa của thuật toán.
D. Khoảng cách tối đa giữa các điểm dữ liệu trong một cụm.

13. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là gì?

A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình chuyển đổi dữ liệu sang định dạng phù hợp để phân tích.
C. Quá trình khám phá các mẫu, xu hướng và tri thức ẩn từ lượng lớn dữ liệu.
D. Quá trình trực quan hóa dữ liệu để dễ dàng hiểu thông tin.

14. Loại tấn công bảo mật nào có thể xảy ra khi khai thác dữ liệu cá nhân mà không tuân thủ quy định?

A. Tấn công từ chối dịch vụ (DoS).
B. Tấn công SQL Injection.
C. Xâm phạm quyền riêng tư.
D. Tấn công Man-in-the-Middle.

15. Trong ngữ cảnh khai phá dữ liệu văn bản, 'TF-IDF′ được sử dụng để làm gì?

A. Phân loại văn bản.
B. Phân cụm văn bản.
C. Tính trọng số của từ trong văn bản.
D. Tóm tắt văn bản.

16. Độ đo 'độ chính xác′ (Accuracy) trong đánh giá mô hình phân loại được tính như thế nào?

A. Tỷ lệ mẫu dự đoán đúng trên tổng số mẫu.
B. Tỷ lệ mẫu dự đoán đúng là dương tính trên tổng số mẫu thực tế là dương tính.
C. Tỷ lệ mẫu dự đoán đúng là âm tính trên tổng số mẫu thực tế là âm tính.
D. Trung bình cộng của độ chính xác và độ phủ.

17. Điểm khác biệt chính giữa khai phá dữ liệu và thống kê truyền thống là gì?

A. Khai phá dữ liệu sử dụng ít dữ liệu hơn thống kê.
B. Thống kê tập trung vào mô tả dữ liệu, khai phá dữ liệu tập trung vào khám phá tri thức.
C. Khai phá dữ liệu không sử dụng thuật toán máy tính.
D. Thống kê không thể xử lý dữ liệu lớn.

18. Kỹ thuật 'feature scaling′ (tỷ lệ hóa thuộc tính) trong tiền xử lý dữ liệu nhằm mục đích gì?

A. Tăng số lượng thuộc tính.
B. Giảm số lượng thuộc tính.
C. Đưa các thuộc tính về cùng một phạm vi giá trị.
D. Loại bỏ các thuộc tính không liên quan.

19. Thuật toán DBSCAN được sử dụng cho mục đích gì trong khai phá dữ liệu?

A. Phân loại dữ liệu.
B. Phân cụm dữ liệu dựa trên mật độ.
C. Hồi quy dữ liệu.
D. Khai thác luật kết hợp.

20. Vấn đề 'quá khớp′ (Overfitting) trong mô hình học máy xảy ra khi nào?

A. Mô hình quá đơn giản và không nắm bắt được xu hướng dữ liệu.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
C. Dữ liệu huấn luyện không đủ lớn.
D. Mô hình không được huấn luyện đủ lâu.

21. Loại dữ liệu nào sau đây thường KHÔNG phù hợp để áp dụng thuật toán K-means?

A. Dữ liệu số liên tục.
B. Dữ liệu phân loại.
C. Dữ liệu văn bản (sau khi chuyển đổi số).
D. Dữ liệu hình ảnh (sau khi trích xuất đặc trưng).

22. Kỹ thuật 'làm sạch dữ liệu′ (Data Cleaning) trong tiền xử lý dữ liệu bao gồm những công việc chính nào?

A. Chọn lọc thuộc tính và giảm chiều dữ liệu.
B. Xử lý giá trị thiếu và loại bỏ nhiễu.
C. Chuyển đổi dữ liệu sang định dạng phù hợp.
D. Phân tích và khám phá dữ liệu ban đầu.

23. Độ đo 'recall′ (độ phủ) trong đánh giá mô hình phân loại được tính như thế nào?

A. Tỷ lệ mẫu dự đoán đúng trên tổng số mẫu.
B. Tỷ lệ mẫu dự đoán đúng là dương tính trên tổng số mẫu dự đoán là dương tính.
C. Tỷ lệ mẫu dự đoán đúng là dương tính trên tổng số mẫu thực tế là dương tính.
D. Tỷ lệ mẫu dự đoán đúng là âm tính trên tổng số mẫu thực tế là âm tính.

24. Trong khai thác luật kết hợp, độ đo 'độ tin cậy′ (Confidence) thể hiện điều gì?

A. Tần suất xuất hiện của một tập mục phổ biến.
B. Xác suất một mục Y xuất hiện khi mục X đã xuất hiện.
C. Mức độ quan tâm của một luật kết hợp.
D. Tỷ lệ giao dịch chứa cả mục X và Y.

25. Phương pháp 'cross-validation′ (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình khai phá dữ liệu?

A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá hiệu năng của mô hình trên dữ liệu chưa từng thấy.
C. Giảm thiểu vấn đề quá khớp.
D. Lựa chọn thuật toán khai phá dữ liệu phù hợp nhất.

26. Trong quy trình khai phá dữ liệu, giai đoạn nào thường chiếm nhiều thời gian và công sức nhất?

A. Lựa chọn thuật toán khai phá dữ liệu.
B. Đánh giá và diễn giải kết quả khai phá.
C. Tiền xử lý dữ liệu (Data Preprocessing).
D. Triển khai mô hình khai phá dữ liệu.

27. Thuật toán nào sau đây thuộc nhóm thuật toán phân loại trong khai phá dữ liệu?

A. K-means.
B. Apriori.
C. Cây quyết định (Decision Tree).
D. Linear Regression.

28. Trong bối cảnh khai phá dữ liệu lớn (Big Data), thách thức chính nào thường gặp phải?

A. Thiếu thuật toán khai phá dữ liệu hiệu quả.
B. Khả năng xử lý và lưu trữ lượng dữ liệu khổng lồ.
C. Thiếu công cụ trực quan hóa dữ liệu.
D. Khó khăn trong việc xác định bài toán khai phá dữ liệu.

29. Trong khai phá dữ liệu chuỗi thời gian, mục tiêu chính thường là gì?

A. Phân cụm các chuỗi thời gian tương tự.
B. Phân loại các chuỗi thời gian vào các nhóm khác nhau.
C. Dự báo giá trị tương lai của chuỗi thời gian.
D. Khai thác luật kết hợp từ chuỗi thời gian.

30. Khái niệm 'data warehouse′ (kho dữ liệu) trong khai phá dữ liệu dùng để chỉ điều gì?

A. Một cơ sở dữ liệu nhỏ cho mục đích thử nghiệm.
B. Một hệ thống lưu trữ dữ liệu tích hợp, hướng chủ đề, theo thời gian và bất biến.
C. Một công cụ trực quan hóa dữ liệu.
D. Một thuật toán khai phá dữ liệu cụ thể.

1 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

1. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm?

2 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

2. Trong khai phá dữ liệu, `mô hình hóa′ (modeling) là giai đoạn nào?

3 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

3. Phương pháp nào sau đây thuộc nhóm `học không giám sát′ (Unsupervised Learning) trong khai phá dữ liệu?

4 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

4. Mục tiêu chính của kỹ thuật `giảm chiều dữ liệu′ (Dimensionality Reduction) trong tiền xử lý dữ liệu là gì?

5 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

5. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

6 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

6. Độ đo `F1-score′ là trung bình điều hòa của độ đo nào?

7 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

7. Trong ngữ cảnh khai phá dữ liệu không gian, loại dữ liệu nào được xử lý chủ yếu?

8 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

8. Trong khai phá dữ liệu web, `web usage mining′ (khai phá sử dụng web) tập trung vào việc phân tích dữ liệu nào?

9 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

9. Ý nghĩa của `lift′ trong khai thác luật kết hợp là gì?

10 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

10. Phương pháp `ensemble learning′ (học tập kết hợp) trong khai phá dữ liệu là gì?

11 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

11. Mục tiêu của việc `diễn giải kết quả` (interpretation) sau khi khai phá dữ liệu là gì?

12 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

12. Trong thuật toán K-means, `K′ đại diện cho điều gì?

13 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

13. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là gì?

14 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

14. Loại tấn công bảo mật nào có thể xảy ra khi khai thác dữ liệu cá nhân mà không tuân thủ quy định?

15 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

15. Trong ngữ cảnh khai phá dữ liệu văn bản, `TF-IDF′ được sử dụng để làm gì?

16 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

16. Độ đo `độ chính xác′ (Accuracy) trong đánh giá mô hình phân loại được tính như thế nào?

17 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

17. Điểm khác biệt chính giữa khai phá dữ liệu và thống kê truyền thống là gì?

18 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

18. Kỹ thuật `feature scaling′ (tỷ lệ hóa thuộc tính) trong tiền xử lý dữ liệu nhằm mục đích gì?

19 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

19. Thuật toán DBSCAN được sử dụng cho mục đích gì trong khai phá dữ liệu?

20 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

20. Vấn đề `quá khớp′ (Overfitting) trong mô hình học máy xảy ra khi nào?

21 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

21. Loại dữ liệu nào sau đây thường KHÔNG phù hợp để áp dụng thuật toán K-means?

22 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

22. Kỹ thuật `làm sạch dữ liệu′ (Data Cleaning) trong tiền xử lý dữ liệu bao gồm những công việc chính nào?

23 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

23. Độ đo `recall′ (độ phủ) trong đánh giá mô hình phân loại được tính như thế nào?

24 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

24. Trong khai thác luật kết hợp, độ đo `độ tin cậy′ (Confidence) thể hiện điều gì?

25 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

25. Phương pháp `cross-validation′ (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình khai phá dữ liệu?

26 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

26. Trong quy trình khai phá dữ liệu, giai đoạn nào thường chiếm nhiều thời gian và công sức nhất?

27 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

27. Thuật toán nào sau đây thuộc nhóm thuật toán phân loại trong khai phá dữ liệu?

28 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

28. Trong bối cảnh khai phá dữ liệu lớn (Big Data), thách thức chính nào thường gặp phải?

29 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

29. Trong khai phá dữ liệu chuỗi thời gian, mục tiêu chính thường là gì?

30 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 13

30. Khái niệm `data warehouse′ (kho dữ liệu) trong khai phá dữ liệu dùng để chỉ điều gì?