Đề 10 – Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

1

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Khai phá dữ liệu

Đề 10 - Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

1. Trong ngữ cảnh của thuật toán K-means, giá trị 'K′ đại diện cho điều gì?

A. Số lượng chiều dữ liệu.
B. Số lượng cụm mong muốn.
C. Số lượng điểm dữ liệu.
D. Số lần lặp tối đa của thuật toán.

2. Trong khai phá dữ liệu, 'dữ liệu nhiễu′ (noisy data) đề cập đến loại dữ liệu nào?

A. Dữ liệu đã được chuẩn hóa.
B. Dữ liệu chứa lỗi, giá trị ngoại lai hoặc không nhất quán.
C. Dữ liệu có cấu trúc rõ ràng.
D. Dữ liệu được thu thập từ nhiều nguồn khác nhau.

3. Kỹ thuật 'khám phá tri thức trong cơ sở dữ liệu′ (KDD) bao gồm khai phá dữ liệu như một bước trong quy trình. Vị trí của khai phá dữ liệu trong KDD là gì?

A. Bước đầu tiên của KDD.
B. Bước cuối cùng của KDD.
C. Một bước trung gian sau tiền xử lý dữ liệu và trước đánh giá tri thức.
D. Khai phá dữ liệu và KDD là hai khái niệm độc lập.

4. Thuật toán 'Apriori′ được sử dụng chủ yếu trong kỹ thuật khai phá dữ liệu nào?

A. Phân loại.
B. Phân cụm.
C. Luật kết hợp.
D. Hồi quy.

5. Công cụ khai phá dữ liệu nào sau đây là mã nguồn mở và phổ biến?

A. SPSS Modeler.
B. SAS Enterprise Miner.
C. WEKA.
D. IBM InfoSphere DataStage.

6. Kỹ thuật 'làm sạch dữ liệu′ (data cleaning) trong tiền xử lý dữ liệu bao gồm công việc nào?

A. Chọn các thuộc tính quan trọng nhất.
B. Xử lý giá trị thiếu và loại bỏ dữ liệu nhiễu.
C. Chuyển đổi dữ liệu sang định dạng mới.
D. Giảm số lượng mẫu dữ liệu.

7. Thách thức nào sau đây thường gặp phải khi khai phá dữ liệu trên dữ liệu lớn (Big Data)?

A. Thiếu thuật toán khai phá dữ liệu phù hợp.
B. Khó khăn trong việc xử lý và phân tích dữ liệu với khối lượng lớn và tốc độ cao.
C. Chi phí phần mềm khai phá dữ liệu quá cao.
D. Người dùng thiếu kiến thức về khai phá dữ liệu.

8. Đâu là định nghĩa chính xác nhất về Khai phá dữ liệu (Data Mining)?

A. Quá trình thu thập và lưu trữ lượng lớn dữ liệu.
B. Quá trình phân tích dữ liệu để tìm ra các mẫu, xu hướng và thông tin hữu ích.
C. Quá trình trực quan hóa dữ liệu bằng biểu đồ và đồ thị.
D. Quá trình xây dựng cơ sở dữ liệu quan hệ.

9. Khi đánh giá mô hình phân loại, 'Ma trận nhầm lẫn′ (Confusion Matrix) cung cấp thông tin gì?

A. Độ chính xác tổng thể của mô hình.
B. Chi tiết về số lượng dự đoán đúng và sai cho từng lớp.
C. Độ phức tạp của mô hình.
D. Thời gian huấn luyện mô hình.

10. Phương pháp giảm chiều dữ liệu nào giúp giảm số lượng biến đầu vào bằng cách tạo ra các biến mới là tổ hợp tuyến tính của các biến gốc?

A. Chọn lọc đặc trưng (Feature Selection).
B. PCA (Principal Component Analysis).
C. Rời rạc hóa dữ liệu (Data Discretization).
D. Chuẩn hóa dữ liệu (Data Normalization).

11. Trong quá trình 'đánh giá mô hình′ khai phá dữ liệu, độ đo 'Độ chính xác′ (Accuracy) thường được sử dụng để làm gì?

A. Đo lường khả năng mô hình tìm ra tất cả các trường hợp dương tính thực tế.
B. Đo lường tỷ lệ dự đoán đúng trên tổng số dự đoán.
C. Đo lường khả năng mô hình dự đoán chính xác các trường hợp âm tính.
D. Đo lường sự ổn định của mô hình khi dữ liệu thay đổi.

12. Thuật toán nào sau đây thuộc nhóm 'phân loại′ trong khai phá dữ liệu?

A. K-means.
B. Apriori.
C. Cây quyết định (Decision Tree).
D. PCA (Principal Component Analysis).

13. Trong khai phá dữ liệu chuỗi thời gian, mục tiêu thường là gì?

A. Phân nhóm các chuỗi thời gian tương tự.
B. Dự đoán giá trị tương lai của chuỗi thời gian.
C. Tìm ra các luật kết hợp trong chuỗi thời gian.
D. Tất cả các đáp án trên.

14. Trong khai phá dữ liệu đa phương tiện (Multimedia Data Mining), loại dữ liệu nào được xử lý?

A. Chỉ dữ liệu văn bản.
B. Chỉ dữ liệu số.
C. Dữ liệu hình ảnh, âm thanh, video và văn bản.
D. Chỉ dữ liệu chuỗi thời gian.

15. Trong mô hình CRISP-DM, giai đoạn 'Hiểu dữ liệu′ (Data Understanding) bao gồm hoạt động nào?

A. Xây dựng mô hình khai phá dữ liệu.
B. Thu thập dữ liệu và khám phá dữ liệu.
C. Đánh giá hiệu suất mô hình.
D. Triển khai kết quả khai phá dữ liệu.

16. Vấn đề 'quá khớp′ (Overfitting) trong khai phá dữ liệu xảy ra khi nào?

A. Mô hình quá đơn giản và không nắm bắt được các mẫu trong dữ liệu huấn luyện.
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
C. Dữ liệu huấn luyện có quá nhiều giá trị ngoại lai.
D. Quá trình tiền xử lý dữ liệu không hiệu quả.

17. Trong ngữ cảnh của 'Độ tin cậy′ (Confidence) và 'Độ nâng′ (Lift) trong luật kết hợp, 'Độ nâng′ > 1 cho biết điều gì?

A. Luật kết hợp không có ý nghĩa.
B. Sự xuất hiện của tiền đề làm giảm khả năng xuất hiện của hậu quả.
C. Tiền đề và hậu quả độc lập với nhau.
D. Sự xuất hiện của tiền đề làm tăng khả năng xuất hiện của hậu quả.

18. Trong khai phá dữ liệu văn bản, kỹ thuật 'TF-IDF′ được sử dụng để làm gì?

A. Phân loại văn bản.
B. Phân cụm văn bản.
C. Trích xuất đặc trưng từ văn bản.
D. Tóm tắt văn bản.

19. Khi nào thì việc sử dụng 'phân tích thành phần chính′ (PCA) trở nên đặc biệt hữu ích trong khai phá dữ liệu?

A. Khi dữ liệu có ít thuộc tính.
B. Khi dữ liệu đã được làm sạch hoàn toàn.
C. Khi dữ liệu có số chiều cao và có sự tương quan giữa các thuộc tính.
D. Khi mục tiêu là phân loại dữ liệu.

20. Mục tiêu chính của kỹ thuật 'Luật kết hợp′ trong khai phá dữ liệu là gì?

A. Dự đoán giá trị số liên tục.
B. Phân loại dữ liệu vào các nhóm định trước.
C. Tìm ra các mối quan hệ hoặc sự phụ thuộc giữa các biến cố.
D. Giảm số chiều của dữ liệu.

21. Kỹ thuật khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm tương tự?

A. Phân loại (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Luật kết hợp (Association Rule Mining).

22. Đâu là ví dụ về 'dữ liệu phi cấu trúc′ thường được khai phá dữ liệu?

A. Dữ liệu giao dịch bán hàng trong cơ sở dữ liệu.
B. Dữ liệu khảo sát khách hàng với các câu trả lời có cấu trúc.
C. Văn bản đánh giá sản phẩm trực tuyến.
D. Dữ liệu cảm biến từ thiết bị IoT (Internet of Things).

23. Phương pháp khai phá dữ liệu nào phù hợp để phát hiện các giao dịch gian lận trong ngân hàng?

A. Phân cụm.
B. Phân loại.
C. Hồi quy.
D. Luật kết hợp.

24. Phương pháp 'cross-validation′ (kiểm định chéo) được sử dụng trong khai phá dữ liệu để làm gì?

A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khả năng khái quát hóa của mô hình và tránh overfitting.
C. Giảm kích thước dữ liệu huấn luyện.
D. Làm sạch dữ liệu kiểm tra.

25. Sự khác biệt chính giữa 'học có giám sát′ (Supervised Learning) và 'học không giám sát′ (Unsupervised Learning) trong khai phá dữ liệu là gì?

A. Học có giám sát sử dụng dữ liệu có nhãn, học không giám sát thì không.
B. Học không giám sát nhanh hơn học có giám sát.
C. Học có giám sát chỉ dùng cho dữ liệu số, học không giám sát cho dữ liệu văn bản.
D. Học có giám sát luôn cho kết quả chính xác hơn học không giám sát.

26. Ưu điểm chính của việc sử dụng khai phá dữ liệu trong kinh doanh là gì?

A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng cường bảo mật dữ liệu.
C. Cải thiện quyết định kinh doanh dựa trên thông tin chi tiết từ dữ liệu.
D. Tự động hóa hoàn toàn quy trình kinh doanh.

27. Trong các giai đoạn của quy trình Khai phá dữ liệu, giai đoạn nào tập trung vào việc chuẩn bị dữ liệu thô để sẵn sàng cho phân tích?

A. Đánh giá mô hình.
B. Triển khai mô hình.
C. Tiền xử lý dữ liệu.
D. Khai thác mẫu.

28. Đâu là một thách thức đạo đức quan trọng liên quan đến khai phá dữ liệu?

A. Sự phức tạp của thuật toán khai phá dữ liệu.
B. Khả năng xâm phạm quyền riêng tư và sử dụng dữ liệu cá nhân không đúng mục đích.
C. Chi phí đầu tư vào công nghệ khai phá dữ liệu.
D. Sự thiếu hụt nhân lực có kỹ năng khai phá dữ liệu.

29. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

A. Dự đoán xu hướng thị trường chứng khoán.
B. Phát hiện gian lận thẻ tín dụng.
C. Thiết kế giao diện người dùng.
D. Đề xuất sản phẩm cho khách hàng trực tuyến.

30. Phương pháp khai phá dữ liệu nào thích hợp để dự đoán giá nhà dựa trên các yếu tố như diện tích, vị trí và số phòng ngủ?

A. Phân cụm.
B. Phân loại.
C. Hồi quy.
D. Luật kết hợp.

1 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

1. Trong ngữ cảnh của thuật toán K-means, giá trị `K′ đại diện cho điều gì?

2 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

2. Trong khai phá dữ liệu, `dữ liệu nhiễu′ (noisy data) đề cập đến loại dữ liệu nào?

3 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

3. Kỹ thuật `khám phá tri thức trong cơ sở dữ liệu′ (KDD) bao gồm khai phá dữ liệu như một bước trong quy trình. Vị trí của khai phá dữ liệu trong KDD là gì?

4 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

4. Thuật toán `Apriori′ được sử dụng chủ yếu trong kỹ thuật khai phá dữ liệu nào?

5 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

5. Công cụ khai phá dữ liệu nào sau đây là mã nguồn mở và phổ biến?

6 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

6. Kỹ thuật `làm sạch dữ liệu′ (data cleaning) trong tiền xử lý dữ liệu bao gồm công việc nào?

7 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

7. Thách thức nào sau đây thường gặp phải khi khai phá dữ liệu trên dữ liệu lớn (Big Data)?

8 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

8. Đâu là định nghĩa chính xác nhất về Khai phá dữ liệu (Data Mining)?

9 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

9. Khi đánh giá mô hình phân loại, `Ma trận nhầm lẫn′ (Confusion Matrix) cung cấp thông tin gì?

10 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

10. Phương pháp giảm chiều dữ liệu nào giúp giảm số lượng biến đầu vào bằng cách tạo ra các biến mới là tổ hợp tuyến tính của các biến gốc?

11 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

11. Trong quá trình `đánh giá mô hình′ khai phá dữ liệu, độ đo `Độ chính xác′ (Accuracy) thường được sử dụng để làm gì?

12 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

12. Thuật toán nào sau đây thuộc nhóm `phân loại′ trong khai phá dữ liệu?

13 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

13. Trong khai phá dữ liệu chuỗi thời gian, mục tiêu thường là gì?

14 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

14. Trong khai phá dữ liệu đa phương tiện (Multimedia Data Mining), loại dữ liệu nào được xử lý?

15 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

15. Trong mô hình CRISP-DM, giai đoạn `Hiểu dữ liệu′ (Data Understanding) bao gồm hoạt động nào?

16 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

16. Vấn đề `quá khớp′ (Overfitting) trong khai phá dữ liệu xảy ra khi nào?

17 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

17. Trong ngữ cảnh của `Độ tin cậy′ (Confidence) và `Độ nâng′ (Lift) trong luật kết hợp, `Độ nâng′ > 1 cho biết điều gì?

18 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

18. Trong khai phá dữ liệu văn bản, kỹ thuật `TF-IDF′ được sử dụng để làm gì?

19 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

19. Khi nào thì việc sử dụng `phân tích thành phần chính′ (PCA) trở nên đặc biệt hữu ích trong khai phá dữ liệu?

20 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

20. Mục tiêu chính của kỹ thuật `Luật kết hợp′ trong khai phá dữ liệu là gì?

21 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

21. Kỹ thuật khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm tương tự?

22 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

22. Đâu là ví dụ về `dữ liệu phi cấu trúc′ thường được khai phá dữ liệu?

23 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

23. Phương pháp khai phá dữ liệu nào phù hợp để phát hiện các giao dịch gian lận trong ngân hàng?

24 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

24. Phương pháp `cross-validation′ (kiểm định chéo) được sử dụng trong khai phá dữ liệu để làm gì?

25 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

25. Sự khác biệt chính giữa `học có giám sát′ (Supervised Learning) và `học không giám sát′ (Unsupervised Learning) trong khai phá dữ liệu là gì?

26 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

26. Ưu điểm chính của việc sử dụng khai phá dữ liệu trong kinh doanh là gì?

27 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

27. Trong các giai đoạn của quy trình Khai phá dữ liệu, giai đoạn nào tập trung vào việc chuẩn bị dữ liệu thô để sẵn sàng cho phân tích?

28 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

28. Đâu là một thách thức đạo đức quan trọng liên quan đến khai phá dữ liệu?

29 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

29. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của khai phá dữ liệu?

30 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 10

30. Phương pháp khai phá dữ liệu nào thích hợp để dự đoán giá nhà dựa trên các yếu tố như diện tích, vị trí và số phòng ngủ?