Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

1. Trong phân tích dữ liệu, correlation (tương quan) có nghĩa là gì?

A. Một biến gây ra sự thay đổi ở biến khác
B. Mối quan hệ thống kê giữa hai hoặc nhiều biến, cho thấy chúng có xu hướng thay đổi cùng nhau
C. Một biến không liên quan đến biến khác
D. Giá trị trung bình của một tập dữ liệu

2. Mục tiêu chính của model evaluation (đánh giá mô hình) trong Khoa học Dữ liệu là gì?

A. Tìm kiếm dữ liệu mới
B. Đo lường hiệu suất và khả năng tổng quát hóa của mô hình
C. Trực quan hóa kết quả phân tích
D. Làm sạch dữ liệu

3. Thuật ngữ big data thường ám chỉ đến dữ liệu có đặc điểm nào?

A. Dữ liệu nhỏ, dễ quản lý
B. Dữ liệu có khối lượng lớn, tốc độ cao và đa dạng
C. Dữ liệu chỉ có định dạng số
D. Dữ liệu chỉ thu thập từ một nguồn duy nhất

4. Khái niệm data cleaning (làm sạch dữ liệu) liên quan đến việc xử lý những vấn đề gì?

A. Tạo ra các biến mới
B. Xử lý giá trị thiếu, dữ liệu trùng lặp, sai định dạng và ngoại lệ
C. Xây dựng mô hình dự đoán
D. Trực quan hóa kết quả

5. Ngôn ngữ lập trình nào được sử dụng rộng rãi nhất trong Khoa học Dữ liệu nhờ các thư viện mạnh mẽ như Pandas, NumPy và Scikit-learn?

A. Java
B. C++
C. Python
D. JavaScript

6. Trong Khoa học Dữ liệu, việc sử dụng dashboard (bảng điều khiển) thường nhằm mục đích gì?

A. Huấn luyện mô hình học máy
B. Trình bày thông tin và các chỉ số hiệu suất chính một cách trực quan và tập trung
C. Thu thập dữ liệu từ nhiều nguồn
D. Viết mã nguồn cho ứng dụng

7. Tập dữ liệu nào sau đây có thể được coi là dữ liệu chuỗi thời gian (Time Series Data)?

A. Danh sách email của người dùng
B. Doanh số bán hàng của một cửa hàng mỗi ngày trong 5 năm
C. Ảnh chụp các loài chim khác nhau
D. Kết quả của một cuộc khảo sát về sở thích âm nhạc

8. Khi một mô hình học máy có overfitting (quá khớp), điều đó có nghĩa là gì?

A. Mô hình hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu mới
B. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới
C. Mô hình quá đơn giản để nắm bắt các mẫu trong dữ liệu
D. Mô hình có độ chệch (bias) cao

9. Khi làm việc với dữ liệu có nhiều giá trị bị thiếu, phương pháp phổ biến nào được sử dụng để thay thế các giá trị này?

A. Loại bỏ hoàn toàn các hàng có giá trị thiếu
B. Điền giá trị trung bình hoặc trung vị
C. Thay thế bằng giá trị ngẫu nhiên
D. Tất cả các phương án trên

10. Một nhà phân tích dữ liệu đang xem xét biểu đồ phân tán (scatter plot) để hiểu mối quan hệ giữa hai biến số. Đây là một ví dụ về:

A. Học có giám sát
B. Khai thác văn bản
C. Trực quan hóa dữ liệu
D. Học không giám sát

11. Quá trình tìm kiếm và trích xuất thông tin có ý nghĩa từ dữ liệu văn bản lớn được gọi là gì?

A. Phân tích số liệu
B. Khai thác văn bản (Text Mining)
C. Trực quan hóa dữ liệu
D. Học tăng cường

12. Khi phân tích một tập dữ liệu lớn, phương pháp nào giúp giảm số chiều của dữ liệu mà vẫn giữ được phần lớn thông tin quan trọng?

A. Làm sạch dữ liệu
B. Kỹ thuật giảm chiều (Dimensionality Reduction)
C. Trực quan hóa dữ liệu
D. Kỹ thuật học có giám sát

13. Trong lĩnh vực Khoa học Dữ liệu, khái niệm nào mô tả quá trình thu thập, làm sạch, biến đổi và tổ chức dữ liệu để chuẩn bị cho việc phân tích và mô hình hóa?

A. Trực quan hóa dữ liệu
B. Kỹ thuật học máy
C. Chuẩn bị dữ liệu
D. Lập trình Python

14. Trong học máy, thuật ngữ model training (huấn luyện mô hình) có nghĩa là gì?

A. Quá trình thiết kế kiến trúc mô hình
B. Quá trình sử dụng dữ liệu để điều chỉnh các tham số của mô hình nhằm đạt được mục tiêu mong muốn
C. Quá trình trực quan hóa kết quả dự đoán
D. Quá trình làm sạch dữ liệu đầu vào

15. Trực quan hóa dữ liệu (Data Visualization) giúp ích gì nhiều nhất cho nhà phân tích dữ liệu?

A. Tăng tốc độ tính toán
B. Phát hiện các mẫu, xu hướng và ngoại lệ một cách trực quan
C. Giảm kích thước tập dữ liệu
D. Tự động hóa quá trình thu thập dữ liệu

16. Trong Khoa học Dữ liệu, feature engineering đề cập đến hành động gì?

A. Xây dựng mô hình học máy
B. Tạo ra các biến mới (features) từ dữ liệu hiện có để cải thiện hiệu suất mô hình
C. Trực quan hóa kết quả phân tích
D. Làm sạch dữ liệu bị thiếu

17. Thư viện nào trong Python thường được sử dụng để tạo các biểu đồ và đồ thị cho việc trực quan hóa dữ liệu?

A. NumPy
B. Scikit-learn
C. Matplotlib
D. SciPy

18. Một nhà khoa học dữ liệu muốn dự đoán giá nhà dựa trên diện tích, số phòng ngủ và vị trí. Đây là ví dụ về bài toán:

A. Phân loại
B. Phân cụm
C. Hồi quy
D. Tạo chuỗi

19. Khi dữ liệu được biểu diễn dưới dạng bảng với các hàng và cột, đơn vị cơ bản thường là gì?

A. Tập dữ liệu
B. Thuộc tính (Attribute/Feature)
C. Quan sát (Observation/Record)
D. Biến

20. Một tập dữ liệu bao gồm các thông tin về nhiệt độ, độ ẩm và lượng mưa hàng ngày của một thành phố trong một năm. Loại dữ liệu nào là chủ yếu trong tập dữ liệu này?

A. Dữ liệu văn bản
B. Dữ liệu số
C. Dữ liệu hình ảnh
D. Dữ liệu âm thanh

21. Trong Khoa học Dữ liệu, bias (độ chệch) trong mô hình học máy có thể dẫn đến hệ quả gì?

A. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu mới
B. Mô hình có xu hướng bỏ sót các mối quan hệ quan trọng trong dữ liệu, dẫn đến kết quả sai lệch
C. Mô hình quá nhạy cảm với các thay đổi nhỏ trong dữ liệu huấn luyện
D. Mô hình có hiệu suất cao nhưng khó giải thích

22. Thư viện nào trong Python chủ yếu được sử dụng để thực hiện các phép toán trên mảng và ma trận số học hiệu quả?

A. Matplotlib
B. Pandas
C. NumPy
D. Seaborn

23. Trong phân tích dữ liệu, outlier (ngoại lệ) là gì?

A. Một giá trị dữ liệu rất phổ biến
B. Một điểm dữ liệu khác biệt đáng kể so với phần lớn các điểm dữ liệu khác
C. Một giá trị dữ liệu bị thiếu
D. Một biến không liên quan đến kết quả

24. Thư viện nào trong Python cung cấp các cấu trúc dữ liệu và công cụ để thao tác, phân tích dữ liệu dạng bảng một cách hiệu quả?

A. NumPy
B. Pandas
C. Matplotlib
D. Scikit-learn

25. Phương pháp nào sau đây là một kỹ thuật học máy không giám sát?

A. Hồi quy tuyến tính
B. Phân loại (Classification)
C. Phân cụm (Clustering)
D. Hồi quy logistic

1 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

1. Trong phân tích dữ liệu, correlation (tương quan) có nghĩa là gì?

2 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

2. Mục tiêu chính của model evaluation (đánh giá mô hình) trong Khoa học Dữ liệu là gì?

3 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

3. Thuật ngữ big data thường ám chỉ đến dữ liệu có đặc điểm nào?

4 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

4. Khái niệm data cleaning (làm sạch dữ liệu) liên quan đến việc xử lý những vấn đề gì?

5 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

5. Ngôn ngữ lập trình nào được sử dụng rộng rãi nhất trong Khoa học Dữ liệu nhờ các thư viện mạnh mẽ như Pandas, NumPy và Scikit-learn?

6 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

6. Trong Khoa học Dữ liệu, việc sử dụng dashboard (bảng điều khiển) thường nhằm mục đích gì?

7 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

7. Tập dữ liệu nào sau đây có thể được coi là dữ liệu chuỗi thời gian (Time Series Data)?

8 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

8. Khi một mô hình học máy có overfitting (quá khớp), điều đó có nghĩa là gì?

9 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

9. Khi làm việc với dữ liệu có nhiều giá trị bị thiếu, phương pháp phổ biến nào được sử dụng để thay thế các giá trị này?

10 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

10. Một nhà phân tích dữ liệu đang xem xét biểu đồ phân tán (scatter plot) để hiểu mối quan hệ giữa hai biến số. Đây là một ví dụ về:

11 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

11. Quá trình tìm kiếm và trích xuất thông tin có ý nghĩa từ dữ liệu văn bản lớn được gọi là gì?

12 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

12. Khi phân tích một tập dữ liệu lớn, phương pháp nào giúp giảm số chiều của dữ liệu mà vẫn giữ được phần lớn thông tin quan trọng?

13 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

13. Trong lĩnh vực Khoa học Dữ liệu, khái niệm nào mô tả quá trình thu thập, làm sạch, biến đổi và tổ chức dữ liệu để chuẩn bị cho việc phân tích và mô hình hóa?

14 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

14. Trong học máy, thuật ngữ model training (huấn luyện mô hình) có nghĩa là gì?

15 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

15. Trực quan hóa dữ liệu (Data Visualization) giúp ích gì nhiều nhất cho nhà phân tích dữ liệu?

16 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

16. Trong Khoa học Dữ liệu, feature engineering đề cập đến hành động gì?

17 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

17. Thư viện nào trong Python thường được sử dụng để tạo các biểu đồ và đồ thị cho việc trực quan hóa dữ liệu?

18 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

18. Một nhà khoa học dữ liệu muốn dự đoán giá nhà dựa trên diện tích, số phòng ngủ và vị trí. Đây là ví dụ về bài toán:

19 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

19. Khi dữ liệu được biểu diễn dưới dạng bảng với các hàng và cột, đơn vị cơ bản thường là gì?

20 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

20. Một tập dữ liệu bao gồm các thông tin về nhiệt độ, độ ẩm và lượng mưa hàng ngày của một thành phố trong một năm. Loại dữ liệu nào là chủ yếu trong tập dữ liệu này?

21 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

21. Trong Khoa học Dữ liệu, bias (độ chệch) trong mô hình học máy có thể dẫn đến hệ quả gì?

22 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

22. Thư viện nào trong Python chủ yếu được sử dụng để thực hiện các phép toán trên mảng và ma trận số học hiệu quả?

23 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

23. Trong phân tích dữ liệu, outlier (ngoại lệ) là gì?

24 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

24. Thư viện nào trong Python cung cấp các cấu trúc dữ liệu và công cụ để thao tác, phân tích dữ liệu dạng bảng một cách hiệu quả?

25 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F17: Hoạt động trải nghiệm về Khoa học dữ liệu

Tags: Bộ đề 1

25. Phương pháp nào sau đây là một kỹ thuật học máy không giám sát?