Đề 5 – Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Khai phá dữ liệu

Đề 5 - Bài tập, đề thi trắc nghiệm online Khai phá dữ liệu

1. Trong khai thác luật kết hợp (Association Rule Mining), độ đo 'Support′ của một luật {A} → {B} thể hiện điều gì?

A. Độ tin cậy của luật.
B. Tần suất xuất hiện đồng thời của A và B trong tập dữ liệu.
C. Mức độ hữu ích của luật.
D. Tỷ lệ giao dịch chứa A nhưng không chứa B.

2. Kỹ thuật 'Rút gọn chiều dữ liệu′ (Dimensionality Reduction) nhằm mục đích gì trong tiền xử lý dữ liệu?

A. Tăng số lượng thuộc tính của dữ liệu.
B. Giảm số lượng mẫu dữ liệu.
C. Giảm số lượng thuộc tính của dữ liệu trong khi vẫn giữ thông tin quan trọng.
D. Tăng độ nhiễu của dữ liệu.

3. Trong đánh giá mô hình phân lớp (Classification), 'F1-score′ là gì?

A. Trung bình cộng của Precision và Recall.
B. Trung bình nhân của Precision và Recall.
C. Trung bình điều hòa của Precision và Recall.
D. Tỷ lệ dự đoán đúng trên tổng số mẫu dữ liệu.

4. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là gì?

A. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Quá trình phân tích dữ liệu thống kê cơ bản để mô tả dữ liệu.
C. Quá trình khám phá tri thức hữu ích, tiềm ẩn từ lượng lớn dữ liệu.
D. Quá trình trực quan hóa dữ liệu để dễ dàng nhận biết thông tin.

5. Phương pháp 'PCA′ (Principal Component Analysis) thuộc loại kỹ thuật khai phá dữ liệu nào?

A. Phân lớp (Classification)
B. Rút gọn chiều dữ liệu (Dimensionality Reduction)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)

6. Mục đích của việc chia dữ liệu thành tập 'Huấn luyện′ (Training set), 'Kiểm tra′ (Test set) và 'Xác thực′ (Validation set) trong xây dựng mô hình học máy là gì?

A. Tăng tốc độ tiền xử lý dữ liệu.
B. Đánh giá khách quan khả năng khái quát hóa của mô hình và tinh chỉnh siêu tham số.
C. Giảm kích thước tập dữ liệu.
D. Đảm bảo dữ liệu không bị trùng lặp.

7. Đâu là một thách thức lớn khi khai phá dữ liệu văn bản (Text Data Mining)?

A. Dữ liệu văn bản thường có cấu trúc rõ ràng.
B. Số lượng thuộc tính trong dữ liệu văn bản thường ít.
C. Tính mơ hồ và đa nghĩa của ngôn ngữ tự nhiên.
D. Khả năng dễ dàng chuẩn hóa dữ liệu văn bản.

8. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm?

A. Phân lớp (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)

9. Đâu là một ứng dụng của khai phá dữ liệu trong lĩnh vực Y tế?

A. Dự báo doanh số bán hàng.
B. Phân loại khách hàng tiềm năng.
C. Phát hiện bệnh sớm và dự đoán nguy cơ bệnh tật.
D. Tối ưu hóa quy trình sản xuất.

10. Phương pháp 'K-Means′ thuộc loại kỹ thuật khai phá dữ liệu nào?

A. Phân lớp (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Khai thác luật kết hợp (Association Rule Mining)

11. Trong quy trình Khai phá dữ liệu, bước nào sau đây thường được thực hiện ĐẦU TIÊN?

A. Đánh giá mô hình
B. Tiền xử lý dữ liệu
C. Lựa chọn dữ liệu
D. Áp dụng thuật toán khai phá

12. Trong khai phá dữ liệu mạng xã hội (Social Media Data Mining), phân tích 'Sentiment Analysis′ (Phân tích cảm xúc) được sử dụng để làm gì?

A. Phân nhóm người dùng theo độ tuổi.
B. Xác định xu hướng thảo luận về một chủ đề.
C. Phân loại bài viết theo thể loại.
D. Đánh giá thái độ, cảm xúc của người dùng đối với một sản phẩm, dịch vụ hoặc sự kiện.

13. Kỹ thuật 'Chọn lọc thuộc tính′ (Feature Selection) trong tiền xử lý dữ liệu khác với 'Rút gọn chiều dữ liệu′ (Dimensionality Reduction) ở điểm nào?

A. Chọn lọc thuộc tính tạo ra thuộc tính mới, rút gọn chiều dữ liệu giữ nguyên thuộc tính gốc.
B. Chọn lọc thuộc tính chọn một tập con thuộc tính gốc, rút gọn chiều dữ liệu biến đổi thuộc tính gốc thành thuộc tính mới.
C. Chọn lọc thuộc tính chỉ áp dụng cho dữ liệu số, rút gọn chiều dữ liệu cho dữ liệu văn bản.
D. Chọn lọc thuộc tính làm tăng số lượng thuộc tính, rút gọn chiều dữ liệu làm giảm.

14. Kỹ thuật 'Xử lý giá trị thiếu′ (Missing Value Imputation) trong tiền xử lý dữ liệu nhằm mục đích gì?

A. Loại bỏ hoàn toàn các mẫu chứa giá trị thiếu.
B. Thay thế các giá trị thiếu bằng giá trị ước tính.
C. Tăng số lượng giá trị thiếu trong dữ liệu.
D. Chuẩn hóa dữ liệu về khoảng [0, 1].

15. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân cụm (Clustering)?

A. K-Means
B. DBSCAN
C. Apriori
D. Hierarchical Clustering

16. Thuật toán khai phá dữ liệu nào sau đây thường được dùng để dự đoán giá nhà dựa trên các yếu tố như diện tích, vị trí và số phòng ngủ?

A. K-Means
B. Apriori
C. Cây quyết định (Decision Tree)
D. Hồi quy tuyến tính (Linear Regression)

17. Trong thuật toán 'Cây quyết định′ (Decision Tree), tiêu chí 'Entropy′ được sử dụng để làm gì?

A. Đo lường độ chính xác của mô hình.
B. Chọn thuộc tính tốt nhất để phân chia nút.
C. Tính toán độ phức tạp của cây.
D. Xác định số lượng nút lá.

18. Ứng dụng nào sau đây KHÔNG phải là ứng dụng điển hình của khai phá dữ liệu?

A. Phát hiện gian lận thẻ tín dụng.
B. Dự báo thời tiết.
C. Tối ưu hóa công cụ tìm kiếm.
D. Soạn thảo văn bản pháp luật.

19. Trong khai phá dữ liệu, 'Overfitting′ (Quá khớp) xảy ra khi nào?

A. Mô hình hoạt động kém trên dữ liệu huấn luyện.
B. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
C. Mô hình hoạt động quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
D. Mô hình không thể học được từ dữ liệu huấn luyện.

20. Trong khai phá dữ liệu chuỗi thời gian (Time Series Data Mining), phương pháp nào thường được dùng để dự báo giá trị tương lai?

A. Phân cụm K-Means.
B. Hồi quy tuyến tính (Linear Regression).
C. Mô hình ARIMA (Autoregressive Integrated Moving Average).
D. Khai thác luật kết hợp Apriori.

21. Mục tiêu chính của kỹ thuật 'Phân lớp′ (Classification) trong khai phá dữ liệu là gì?

A. Dự đoán giá trị số liên tục.
B. Phân loại dữ liệu vào các nhóm định trước.
C. Tìm kiếm các mẫu dữ liệu bất thường.
D. Khám phá mối quan hệ giữa các biến.

22. Khai phá dữ liệu có thể giúp doanh nghiệp trong lĩnh vực Marketing như thế nào?

A. Giảm chi phí sản xuất.
B. Tăng cường bảo mật thông tin.
C. Phân khúc khách hàng và cá nhân hóa chiến dịch Marketing.
D. Tự động hóa quy trình kế toán.

23. Sự khác biệt chính giữa 'Học có giám sát′ (Supervised Learning) và 'Học không giám sát′ (Unsupervised Learning) trong khai phá dữ liệu là gì?

A. Học có giám sát sử dụng dữ liệu có nhãn, học không giám sát thì không.
B. Học không giám sát cho kết quả chính xác hơn học có giám sát.
C. Học có giám sát chỉ áp dụng cho dữ liệu số, học không giám sát cho dữ liệu văn bản.
D. Học không giám sát nhanh hơn học có giám sát.

24. Trong khai thác luật kết hợp (Association Rule Mining), độ đo 'Confidence′ của một luật {A} → {B} thể hiện điều gì?

A. Tần suất xuất hiện đồng thời của A và B.
B. Xác suất xuất hiện B trong các giao dịch đã chứa A.
C. Mức độ phổ biến của A.
D. Tỷ lệ giao dịch chứa B trên tổng số giao dịch.

25. Độ đo 'Recall′ trong đánh giá mô hình phân lớp (Classification) thể hiện điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số mẫu được dự đoán là thuộc lớp dương.
B. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế thuộc lớp dương.
C. Tỷ lệ dự đoán sai trên tổng số mẫu thực tế thuộc lớp âm.
D. Tỷ lệ dự đoán đúng trên tổng số mẫu dữ liệu.

26. Đâu là nhược điểm chính của thuật toán 'K-Means′?

A. Hiệu quả với dữ liệu nhiễu.
B. Yêu cầu xác định trước số lượng cụm (K).
C. Luôn tìm ra cụm có hình dạng bất kỳ.
D. Không nhạy cảm với các giá trị ngoại lai.

27. Độ đo 'Precision′ trong đánh giá mô hình phân lớp (Classification) thể hiện điều gì?

A. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế thuộc lớp dương.
B. Tỷ lệ dự đoán đúng trên tổng số mẫu được dự đoán là thuộc lớp dương.
C. Tỷ lệ dự đoán sai trên tổng số mẫu thực tế thuộc lớp âm.
D. Tỷ lệ dự đoán đúng trên tổng số mẫu dữ liệu.

28. Kỹ thuật 'Chuẩn hóa dữ liệu′ (Data Normalization) thường được thực hiện trước bước nào trong quy trình khai phá dữ liệu?

A. Lựa chọn mô hình.
B. Đánh giá mô hình.
C. Áp dụng thuật toán khai phá.
D. Phân tích kết quả.

29. Vấn đề 'Imbalanced Dataset′ (Dữ liệu mất cân bằng) thường gây khó khăn cho thuật toán phân lớp (Classification) như thế nào?

A. Làm tăng tốc độ huấn luyện mô hình.
B. Làm giảm độ chính xác tổng thể của mô hình.
C. Mô hình có xu hướng thiên vị dự đoán lớp chiếm đa số.
D. Mô hình không thể học được từ dữ liệu.

30. Trong bối cảnh khai phá dữ liệu lớn (Big Data), công nghệ nào sau đây thường được sử dụng để xử lý và phân tích dữ liệu phân tán?

A. Microsoft Excel.
B. Hadoop và Spark.
C. SQL Server Management Studio.
D. SPSS Statistics.

1 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

1. Trong khai thác luật kết hợp (Association Rule Mining), độ đo `Support′ của một luật {A} → {B} thể hiện điều gì?

2 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

2. Kỹ thuật `Rút gọn chiều dữ liệu′ (Dimensionality Reduction) nhằm mục đích gì trong tiền xử lý dữ liệu?

3 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

3. Trong đánh giá mô hình phân lớp (Classification), `F1-score′ là gì?

4 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

4. Khai phá dữ liệu (Data Mining) được định nghĩa chính xác nhất là gì?

5 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

5. Phương pháp `PCA′ (Principal Component Analysis) thuộc loại kỹ thuật khai phá dữ liệu nào?

6 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

6. Mục đích của việc chia dữ liệu thành tập `Huấn luyện′ (Training set), `Kiểm tra′ (Test set) và `Xác thực′ (Validation set) trong xây dựng mô hình học máy là gì?

7 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

7. Đâu là một thách thức lớn khi khai phá dữ liệu văn bản (Text Data Mining)?

8 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

8. Phương pháp khai phá dữ liệu nào thường được sử dụng để phân nhóm khách hàng dựa trên hành vi mua sắm?

9 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

9. Đâu là một ứng dụng của khai phá dữ liệu trong lĩnh vực Y tế?

10 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

10. Phương pháp `K-Means′ thuộc loại kỹ thuật khai phá dữ liệu nào?

11 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

11. Trong quy trình Khai phá dữ liệu, bước nào sau đây thường được thực hiện ĐẦU TIÊN?

12 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

12. Trong khai phá dữ liệu mạng xã hội (Social Media Data Mining), phân tích `Sentiment Analysis′ (Phân tích cảm xúc) được sử dụng để làm gì?

13 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

13. Kỹ thuật `Chọn lọc thuộc tính′ (Feature Selection) trong tiền xử lý dữ liệu khác với `Rút gọn chiều dữ liệu′ (Dimensionality Reduction) ở điểm nào?

14 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

14. Kỹ thuật `Xử lý giá trị thiếu′ (Missing Value Imputation) trong tiền xử lý dữ liệu nhằm mục đích gì?

15 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

15. Thuật toán nào sau đây KHÔNG thuộc nhóm thuật toán phân cụm (Clustering)?

16 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

16. Thuật toán khai phá dữ liệu nào sau đây thường được dùng để dự đoán giá nhà dựa trên các yếu tố như diện tích, vị trí và số phòng ngủ?

17 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

17. Trong thuật toán `Cây quyết định′ (Decision Tree), tiêu chí `Entropy′ được sử dụng để làm gì?

18 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

18. Ứng dụng nào sau đây KHÔNG phải là ứng dụng điển hình của khai phá dữ liệu?

19 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

19. Trong khai phá dữ liệu, `Overfitting′ (Quá khớp) xảy ra khi nào?

20 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

20. Trong khai phá dữ liệu chuỗi thời gian (Time Series Data Mining), phương pháp nào thường được dùng để dự báo giá trị tương lai?

21 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

21. Mục tiêu chính của kỹ thuật `Phân lớp′ (Classification) trong khai phá dữ liệu là gì?

22 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

22. Khai phá dữ liệu có thể giúp doanh nghiệp trong lĩnh vực Marketing như thế nào?

23 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

23. Sự khác biệt chính giữa `Học có giám sát′ (Supervised Learning) và `Học không giám sát′ (Unsupervised Learning) trong khai phá dữ liệu là gì?

24 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

24. Trong khai thác luật kết hợp (Association Rule Mining), độ đo `Confidence′ của một luật {A} → {B} thể hiện điều gì?

25 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

25. Độ đo `Recall′ trong đánh giá mô hình phân lớp (Classification) thể hiện điều gì?

26 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

26. Đâu là nhược điểm chính của thuật toán `K-Means′?

27 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

27. Độ đo `Precision′ trong đánh giá mô hình phân lớp (Classification) thể hiện điều gì?

28 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

28. Kỹ thuật `Chuẩn hóa dữ liệu′ (Data Normalization) thường được thực hiện trước bước nào trong quy trình khai phá dữ liệu?

29 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

29. Vấn đề `Imbalanced Dataset′ (Dữ liệu mất cân bằng) thường gây khó khăn cho thuật toán phân lớp (Classification) như thế nào?

30 / 30

Category: Khai phá dữ liệu

Tags: Bộ đề 5

30. Trong bối cảnh khai phá dữ liệu lớn (Big Data), công nghệ nào sau đây thường được sử dụng để xử lý và phân tích dữ liệu phân tán?