Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

1. Khi xây dựng mô hình hồi quy, chỉ số R-squared (hệ số xác định) đo lường điều gì?

A. Tỷ lệ lỗi dự đoán của mô hình.
B. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình.
C. Số lượng biến số được sử dụng trong mô hình.
D. Tốc độ hội tụ của thuật toán.

2. Khi phân tích dữ liệu, tại sao việc hiểu rõ miền nghiệp vụ (domain knowledge) lại quan trọng đối với một nhà khoa học dữ liệu?

A. Để có thể viết mã chương trình nhanh hơn.
B. Để hiểu ngữ cảnh, ý nghĩa của dữ liệu và đưa ra những phân tích, diễn giải phù hợp.
C. Để biết cách sử dụng các công cụ trực quan hóa dữ liệu.
D. Để có thể giao tiếp tốt hơn với các nhà khoa học dữ liệu khác.

3. Trong phân tích dữ liệu, khi gặp dữ liệu có nhiều giá trị ngoại lai (outliers), phương pháp nào thường được ưu tiên hơn trung bình để tính toán giá trị trung tâm?

A. Trung bình cộng (Mean).
B. Trung vị (Median).
C. Mode (Yếu vị).
D. Độ lệch chuẩn (Standard Deviation).

4. Trong các loại dữ liệu, dữ liệu phi cấu trúc (unstructured data) là loại dữ liệu:

A. Được tổ chức chặt chẽ theo một mô hình xác định trước.
B. Không có định dạng hoặc cấu trúc rõ ràng, khó để máy tính hiểu và xử lý trực tiếp.
C. Luôn luôn ở dạng số.
D. Chỉ bao gồm văn bản và hình ảnh.

5. Kỹ thuật one-hot encoding thường được sử dụng để xử lý loại dữ liệu nào trong học máy?

A. Dữ liệu số liên tục (continuous numerical data).
B. Dữ liệu phân loại định danh (nominal categorical data).
C. Dữ liệu chuỗi thời gian (time series data).
D. Dữ liệu văn bản.

6. Quá trình biến đổi dữ liệu từ một định dạng sang một định dạng khác, ví dụ từ CSV sang JSON, được gọi là gì trong khoa học dữ liệu?

A. Data Mining.
B. Data Visualization.
C. Data Transformation (Chuyển đổi dữ liệu).
D. Feature Engineering.

7. Phương pháp cross-validation (kiểm định chéo) được sử dụng trong học máy để làm gì?

A. Để làm sạch dữ liệu.
B. Để lựa chọn đặc trưng tốt nhất.
C. Để ước lượng khả năng tổng quát hóa của mô hình trên dữ liệu mới và tránh đánh giá sai lệch do cách chia tập dữ liệu.
D. Để trực quan hóa kết quả huấn luyện.

8. Khi đánh giá hiệu suất của một mô hình phân loại, chỉ số accuracy (độ chính xác) có thể gây hiểu lầm trong trường hợp nào?

A. Khi tập dữ liệu cân bằng (balanced dataset).
B. Khi tập dữ liệu mất cân bằng (imbalanced dataset).
C. Khi mô hình có độ chính xác rất thấp.
D. Khi tập dữ liệu có ít mẫu.

9. Theo phân tích phổ biến, bước nào thường được coi là quan trọng nhất trong quy trình khoa học dữ liệu vì nó ảnh hưởng lớn đến kết quả cuối cùng?

A. Trực quan hóa dữ liệu.
B. Xây dựng và đánh giá mô hình.
C. Thu thập và làm sạch dữ liệu.
D. Triển khai mô hình vào thực tế.

10. Khi làm việc với dữ liệu văn bản, kỹ thuật tokenization (tách từ) là bước đầu tiên để làm gì?

A. Chuyển đổi văn bản thành dạng số.
B. Chia văn bản thành các đơn vị nhỏ hơn (thường là từ hoặc cụm từ).
C. Loại bỏ các từ không quan trọng (stop words).
D. Tìm kiếm các từ khóa chính trong văn bản.

11. Trong khoa học dữ liệu, khái niệm feature engineering (kỹ thuật đặc trưng) đề cập đến quá trình nào sau đây?

A. Việc thu thập dữ liệu từ nhiều nguồn khác nhau.
B. Việc tạo ra các đặc trưng mới từ dữ liệu thô để cải thiện hiệu suất mô hình.
C. Việc lựa chọn các thuật toán học máy phù hợp cho bài toán.
D. Việc trực quan hóa dữ liệu để dễ dàng hiểu được xu hướng.

12. Thuật ngữ data visualization (trực quan hóa dữ liệu) chủ yếu tập trung vào việc gì?

A. Làm sạch và xử lý các giá trị thiếu trong dữ liệu.
B. Biểu diễn dữ liệu dưới dạng đồ thị, biểu đồ để dễ dàng truyền đạt thông tin và khám phá mẫu.
C. Xây dựng các mô hình học máy phức tạp.
D. Thu thập dữ liệu từ các nguồn trực tuyến.

13. Loại dữ liệu nào sau đây thường được biểu diễn dưới dạng bảng với các hàng (records) và cột (attributes)?

A. Dữ liệu văn bản tự do.
B. Dữ liệu hình ảnh.
C. Dữ liệu có cấu trúc (structured data).
D. Dữ liệu âm thanh.

14. Mục tiêu của việc data cleaning (làm sạch dữ liệu) là gì?

A. Tăng kích thước của tập dữ liệu.
B. Đảm bảo dữ liệu chính xác, nhất quán và đầy đủ.
C. Chuyển đổi dữ liệu sang định dạng mới.
D. Tạo ra các biểu đồ phức tạp.

15. Trong quy trình khoa học dữ liệu, bước deployment (triển khai) đề cập đến hoạt động nào?

A. Thu thập và làm sạch dữ liệu.
B. Huấn luyện và đánh giá mô hình.
C. Đưa mô hình đã huấn luyện vào sử dụng trong môi trường thực tế để đưa ra dự đoán hoặc quyết định.
D. Khám phá các mẫu dữ liệu ẩn.

16. Trong khoa học dữ liệu, một tập dữ liệu được gọi là mất cân bằng (imbalanced) khi nào?

A. Khi có quá nhiều biến số (features).
B. Khi có quá nhiều mẫu dữ liệu.
C. Khi số lượng mẫu ở các lớp (classes) khác nhau có sự chênh lệch lớn.
D. Khi dữ liệu chứa nhiều giá trị ngoại lai (outliers).

17. Thuật ngữ big data thường ám chỉ đến tập dữ liệu có các đặc điểm nào sau đây, thường được gọi là 3V (hoặc nhiều hơn)?

A. Văn bản, Video, Âm thanh.
B. Volume (Khối lượng), Velocity (Tốc độ), Variety (Đa dạng).
C. Vòng đời, Giá trị, Vận hành.
D. Vision (Tầm nhìn), Value (Giá trị), Verification (Xác minh).

18. Khi áp dụng các kỹ thuật feature selection (lựa chọn đặc trưng), mục tiêu chính là gì?

A. Tăng số lượng biến số để mô hình có nhiều thông tin hơn.
B. Giảm số lượng biến số không liên quan hoặc dư thừa để cải thiện hiệu suất mô hình và giảm thời gian huấn luyện.
C. Chuyển đổi tất cả các biến số thành dạng số.
D. Tạo ra các đặc trưng mới phức tạp hơn.

19. Trong khoa học dữ liệu, thuật ngữ data mining thường được hiểu là gì?

A. Quá trình thu thập dữ liệu từ Internet.
B. Quá trình khám phá các mẫu, xu hướng và kiến thức ẩn trong các tập dữ liệu lớn.
C. Quá trình làm sạch và chuẩn hóa dữ liệu.
D. Quá trình xây dựng giao diện người dùng cho ứng dụng dữ liệu.

20. Khi làm việc với dữ liệu chuỗi thời gian (time series data), phương pháp nào thường được áp dụng để xử lý các giá trị bị thiếu (missing values)?

A. Xóa bỏ hoàn toàn các hàng chứa giá trị thiếu.
B. Điền giá trị thiếu bằng giá trị trung bình hoặc trung vị của toàn bộ tập dữ liệu.
C. Sử dụng nội suy (interpolation) dựa trên các điểm dữ liệu lân cận hoặc các phương pháp chuyên biệt cho chuỗi thời gian.
D. Điền giá trị thiếu bằng số 0.

21. Loại lỗi nào sau đây thường xảy ra khi mô hình học máy dự đoán sai kết quả cho một mẫu dữ liệu?

A. Feature Engineering.
B. Data Wrangling.
C. Model Prediction Error (Lỗi dự đoán mô hình).
D. Data Visualization.

22. Trong khoa học dữ liệu, data wrangling (chế biến dữ liệu) là một giai đoạn bao gồm các hoạt động chính nào?

A. Xây dựng mô hình dự đoán và phân loại.
B. Thu thập, làm sạch, chuyển đổi và tổ chức lại dữ liệu.
C. Trực quan hóa dữ liệu và báo cáo kết quả.
D. Triển khai mô hình trên hệ thống sản xuất.

23. Trong ngữ cảnh học máy, thuật ngữ overfitting (quá khớp) mô tả hiện tượng gì?

A. Mô hình học quá ít từ dữ liệu huấn luyện.
B. Mô hình học quá tốt dữ liệu huấn luyện nhưng kém trên dữ liệu mới chưa từng thấy.
C. Mô hình không có khả năng học từ dữ liệu.
D. Mô hình bị lỗi trong quá trình huấn luyện.

24. Kỹ thuật nào được sử dụng để giảm số chiều của dữ liệu bằng cách tìm ra các tổ hợp tuyến tính của các đặc trưng ban đầu, đồng thời giữ lại phần lớn phương sai?

A. Phân tích thành phần chính (Principal Component Analysis - PCA).
B. Hồi quy tuyến tính (Linear Regression).
C. Phân cụm K-Means (K-Means Clustering).
D. Cây quyết định (Decision Tree).

25. Khi xây dựng mô hình dự đoán giá nhà, yếu tố nào sau đây có thể được coi là một feature (đặc trưng)?

A. Giá nhà dự đoán.
B. Diện tích căn nhà.
C. Tên của người mua nhà.
D. Ngày hoàn thành việc xây dựng.

1 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

1. Khi xây dựng mô hình hồi quy, chỉ số R-squared (hệ số xác định) đo lường điều gì?

2 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

2. Khi phân tích dữ liệu, tại sao việc hiểu rõ miền nghiệp vụ (domain knowledge) lại quan trọng đối với một nhà khoa học dữ liệu?

3 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

3. Trong phân tích dữ liệu, khi gặp dữ liệu có nhiều giá trị ngoại lai (outliers), phương pháp nào thường được ưu tiên hơn trung bình để tính toán giá trị trung tâm?

4 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

4. Trong các loại dữ liệu, dữ liệu phi cấu trúc (unstructured data) là loại dữ liệu:

5 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

5. Kỹ thuật one-hot encoding thường được sử dụng để xử lý loại dữ liệu nào trong học máy?

6 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

6. Quá trình biến đổi dữ liệu từ một định dạng sang một định dạng khác, ví dụ từ CSV sang JSON, được gọi là gì trong khoa học dữ liệu?

7 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

7. Phương pháp cross-validation (kiểm định chéo) được sử dụng trong học máy để làm gì?

8 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

8. Khi đánh giá hiệu suất của một mô hình phân loại, chỉ số accuracy (độ chính xác) có thể gây hiểu lầm trong trường hợp nào?

9 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

9. Theo phân tích phổ biến, bước nào thường được coi là quan trọng nhất trong quy trình khoa học dữ liệu vì nó ảnh hưởng lớn đến kết quả cuối cùng?

10 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

10. Khi làm việc với dữ liệu văn bản, kỹ thuật tokenization (tách từ) là bước đầu tiên để làm gì?

11 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

11. Trong khoa học dữ liệu, khái niệm feature engineering (kỹ thuật đặc trưng) đề cập đến quá trình nào sau đây?

12 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

12. Thuật ngữ data visualization (trực quan hóa dữ liệu) chủ yếu tập trung vào việc gì?

13 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

13. Loại dữ liệu nào sau đây thường được biểu diễn dưới dạng bảng với các hàng (records) và cột (attributes)?

14 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

14. Mục tiêu của việc data cleaning (làm sạch dữ liệu) là gì?

15 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

15. Trong quy trình khoa học dữ liệu, bước deployment (triển khai) đề cập đến hoạt động nào?

16 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

16. Trong khoa học dữ liệu, một tập dữ liệu được gọi là mất cân bằng (imbalanced) khi nào?

17 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

17. Thuật ngữ big data thường ám chỉ đến tập dữ liệu có các đặc điểm nào sau đây, thường được gọi là 3V (hoặc nhiều hơn)?

18 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

18. Khi áp dụng các kỹ thuật feature selection (lựa chọn đặc trưng), mục tiêu chính là gì?

19 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

19. Trong khoa học dữ liệu, thuật ngữ data mining thường được hiểu là gì?

20 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

20. Khi làm việc với dữ liệu chuỗi thời gian (time series data), phương pháp nào thường được áp dụng để xử lý các giá trị bị thiếu (missing values)?

21 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

21. Loại lỗi nào sau đây thường xảy ra khi mô hình học máy dự đoán sai kết quả cho một mẫu dữ liệu?

22 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

22. Trong khoa học dữ liệu, data wrangling (chế biến dữ liệu) là một giai đoạn bao gồm các hoạt động chính nào?

23 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

23. Trong ngữ cảnh học máy, thuật ngữ overfitting (quá khớp) mô tả hiện tượng gì?

24 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

24. Kỹ thuật nào được sử dụng để giảm số chiều của dữ liệu bằng cách tìm ra các tổ hợp tuyến tính của các đặc trưng ban đầu, đồng thời giữ lại phần lớn phương sai?

25 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 3: Giới thiệu về khoa học dữ liệu (tiếp theo)

Tags: Bộ đề 1

25. Khi xây dựng mô hình dự đoán giá nhà, yếu tố nào sau đây có thể được coi là một feature (đặc trưng)?