Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

1. Một nhà khoa học dữ liệu nhận thấy rằng mô hình của mình có độ chính xác rất cao trên dữ liệu huấn luyện nhưng lại dự đoán sai nhiều trên dữ liệu thử nghiệm. Điều này cho thấy khả năng cao mô hình đang gặp phải vấn đề gì?

A. Underfitting (Thiếu khớp).
B. Overfitting (Quá khớp).
C. Data Leakage (Tràn dữ liệu).
D. Bias (Thiên vị).

2. Mục tiêu chính của việc làm sạch dữ liệu (Data Cleaning) trong khoa học dữ liệu là gì?

A. Tăng cường tốc độ xử lý dữ liệu.
B. Loại bỏ các sai sót, thiếu sót, dữ liệu không nhất quán hoặc trùng lặp để đảm bảo chất lượng dữ liệu.
C. Tạo ra các biểu đồ và báo cáo trực quan.
D. Xây dựng các thuật toán học máy phức tạp.

3. Phân tích khám phá dữ liệu (Exploratory Data Analysis - EDA) đóng vai trò quan trọng trong khoa học dữ liệu vì nó giúp:

A. Tự động hóa hoàn toàn quá trình xây dựng mô hình.
B. Hiểu rõ hơn về đặc điểm, quy luật, mối quan hệ và các điểm bất thường trong dữ liệu.
C. Chỉ tập trung vào việc thu thập dữ liệu.
D. Triển khai mô hình đã xây dựng vào thực tế.

4. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau, bao gồm các định dạng có cấu trúc, bán cấu trúc và phi cấu trúc, thuộc về giai đoạn nào trong khoa học dữ liệu?

A. Trực quan hóa dữ liệu (Data Visualization).
B. Học máy (Machine Learning).
C. Thu thập và làm sạch dữ liệu (Data Collection and Cleaning).
D. Xây dựng mô hình (Model Building).

5. Trong khoa học dữ liệu, khái niệm dữ liệu lớn (Big Data) thường được định nghĩa dựa trên những thuộc tính nào sau đây?

A. Chỉ dựa trên khối lượng dữ liệu (Volume).
B. Dựa trên sự đa dạng (Variety), tốc độ (Velocity) và khối lượng (Volume).
C. Chỉ dựa trên tốc độ xử lý dữ liệu (Velocity).
D. Dựa trên độ chính xác (Veracity) và giá trị (Value).

6. Trong học máy, thuật toán K-Means Clustering được sử dụng cho loại hình bài toán nào?

A. Phân loại (Classification).
B. Hồi quy (Regression).
C. Phân cụm (Clustering).
D. Dự đoán chuỗi thời gian (Time Series Forecasting).

7. Trong khoa học dữ liệu, hàm mất mát (Loss Function) được sử dụng để:

A. Đo lường hiệu suất của mô hình trên dữ liệu chưa thấy.
B. Đo lường mức độ sai khác giữa giá trị dự đoán của mô hình và giá trị thực tế.
C. Chọn các đặc trưng tốt nhất cho mô hình.
D. Tăng tốc độ huấn luyện mô hình.

8. Trong khoa học dữ liệu, thuật toán Random Forest là một ví dụ của phương pháp nào?

A. Học không giám sát.
B. Học tăng cường.
C. Học có giám sát (cụ thể là phương pháp Ensemble).
D. Giảm chiều dữ liệu.

9. Khi làm việc với dữ liệu văn bản, kỹ thuật nào thường được sử dụng để biến đổi các từ thành các vector số học mà mô hình học máy có thể xử lý?

A. Phân cụm (Clustering).
B. Hồi quy tuyến tính (Linear Regression).
C. Biểu diễn từ (Word Embedding) hoặc Bag-of-Words.
D. Cây quyết định (Decision Tree).

10. Loại phân tích nào trong khoa học dữ liệu tập trung vào việc đưa ra khuyến nghị hoặc hành động tối ưu dựa trên kết quả phân tích?

A. Phân tích mô tả (Descriptive Analytics).
B. Phân tích chẩn đoán (Diagnostic Analytics).
C. Phân tích dự đoán (Predictive Analytics).
D. Phân tích đề xuất (Prescriptive Analytics).

11. Đâu là một ví dụ về dữ liệu phi cấu trúc (Unstructured Data)?

A. Bảng tính Excel có các cột và hàng rõ ràng.
B. Cơ sở dữ liệu quan hệ (SQL database).
C. Tập tin văn bản (ví dụ: email, bài báo, bài đăng trên mạng xã hội).
D. Tệp CSV với các trường dữ liệu được phân tách.

12. Trong khoa học dữ liệu, khái niệm Overfitting (Quá khớp) xảy ra khi mô hình:

A. Không học được bất kỳ mẫu nào từ dữ liệu huấn luyện.
B. Hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới, chưa từng thấy.
C. Hoạt động kém trên cả dữ liệu huấn luyện và dữ liệu mới.
D. Chỉ hoạt động tốt trên dữ liệu mới.

13. Trong lĩnh vực khoa học dữ liệu, kỹ thuật đặc trưng (Feature Engineering) là quá trình:

A. Chỉ đơn giản là chọn các đặc trưng có sẵn.
B. Tạo ra các đặc trưng mới hoặc biến đổi các đặc trưng hiện có từ dữ liệu thô để cải thiện hiệu suất của mô hình học máy.
C. Loại bỏ hoàn toàn các đặc trưng không liên quan.
D. Chỉ tập trung vào việc trực quan hóa dữ liệu.

14. Ngôn ngữ lập trình nào được sử dụng phổ biến nhất trong khoa học dữ liệu hiện nay nhờ hệ sinh thái thư viện phong phú như Pandas, NumPy, Scikit-learn?

A. Java.
B. C++.
C. Python.
D. JavaScript.

15. Trong khoa học dữ liệu, hồi quy tuyến tính (Linear Regression) được sử dụng chủ yếu cho loại hình bài toán nào?

A. Phân loại dữ liệu (Classification).
B. Dự đoán giá trị liên tục (Regression).
C. Phân cụm dữ liệu (Clustering).
D. Giảm chiều dữ liệu (Dimensionality Reduction).

16. Trong các giai đoạn của quy trình khoa học dữ liệu, giai đoạn nào tập trung vào việc biến đổi dữ liệu thô thành các biểu diễn dễ hiểu hơn, thường là dưới dạng biểu đồ hoặc đồ thị?

A. Khai phá dữ liệu (Data Mining).
B. Trực quan hóa dữ liệu (Data Visualization).
C. Huấn luyện mô hình (Model Training).
D. Đánh giá mô hình (Model Evaluation).

17. Khi đánh giá một mô hình phân loại trong khoa học dữ liệu, chỉ số Accuracy (Độ chính xác) có thể gây hiểu lầm trong trường hợp nào?

A. Khi tập dữ liệu cân bằng hoàn hảo giữa các lớp.
B. Khi tập dữ liệu mất cân bằng nghiêm trọng về số lượng mẫu giữa các lớp.
C. Khi mô hình dự đoán đúng tất cả các trường hợp.
D. Khi mô hình sử dụng thuật toán hồi quy.

18. Yếu tố nào sau đây KHÔNG phải là một trong 5 V của Dữ liệu lớn (Big Data) theo định nghĩa mở rộng?

A. Velocity (Tốc độ).
B. Variety (Sự đa dạng).
C. Volume (Khối lượng).
D. Vibrancy (Sự rung động).

19. Mục tiêu chính của Trực quan hóa dữ liệu (Data Visualization) trong khoa học dữ liệu là gì?

A. Tăng tốc độ xử lý dữ liệu thô.
B. Biểu diễn thông tin dữ liệu một cách hiệu quả và dễ hiểu để hỗ trợ phân tích và ra quyết định.
C. Xây dựng các mô hình học máy phức tạp.
D. Lưu trữ dữ liệu một cách an toàn.

20. Khi một mô hình khoa học dữ liệu hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra, điều đó thường chỉ ra vấn đề gì?

A. Underfitting (Thiếu khớp).
B. Overfitting (Quá khớp).
C. Dữ liệu bị nhiễu (Noisy data).
D. Thiếu dữ liệu huấn luyện.

21. Phân tích hồi tưởng (Backtracking Analysis) trong khoa học dữ liệu thường liên quan đến việc:

A. Dự đoán xu hướng tương lai.
B. Tìm hiểu nguyên nhân của một sự kiện hoặc kết quả đã xảy ra.
C. Tối ưu hóa quy trình hiện tại.
D. Tạo ra dữ liệu mới.

22. Mục tiêu của việc khai phá dữ liệu (Data Mining) là gì?

A. Chỉ để lưu trữ dữ liệu.
B. Để tìm kiếm các mẫu ẩn, tri thức và mối quan hệ có giá trị trong các tập dữ liệu lớn.
C. Để xóa bỏ các dữ liệu không cần thiết.
D. Để tạo ra giao diện người dùng.

23. Thuật toán Decision Tree (Cây quyết định) trong học máy thuộc loại hình học có giám sát nào?

A. Học không giám sát (Unsupervised Learning).
B. Học có giám sát (Supervised Learning).
C. Học tăng cường (Reinforcement Learning).
D. Học bán giám sát (Semi-supervised Learning).

24. Trong khoa học dữ liệu, Cross-validation (Kiểm định chéo) là một kỹ thuật được sử dụng để:

A. Làm sạch dữ liệu.
B. Tăng tốc độ huấn luyện mô hình.
C. Đánh giá khả năng tổng quát hóa của mô hình và giảm thiểu ảnh hưởng của việc chia tập dữ liệu ngẫu nhiên.
D. Trực quan hóa kết quả phân tích.

25. Một nhà khoa học dữ liệu đang cố gắng dự đoán giá nhà dựa trên các yếu tố như diện tích, số phòng ngủ, vị trí và tuổi đời của ngôi nhà. Đây là ví dụ về loại hình phân tích nào trong khoa học dữ liệu?

A. Phân tích mô tả (Descriptive Analytics).
B. Phân tích chẩn đoán (Diagnostic Analytics).
C. Phân tích dự đoán (Predictive Analytics).
D. Phân tích đề xuất (Prescriptive Analytics).

1 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

1. Một nhà khoa học dữ liệu nhận thấy rằng mô hình của mình có độ chính xác rất cao trên dữ liệu huấn luyện nhưng lại dự đoán sai nhiều trên dữ liệu thử nghiệm. Điều này cho thấy khả năng cao mô hình đang gặp phải vấn đề gì?

2 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

2. Mục tiêu chính của việc làm sạch dữ liệu (Data Cleaning) trong khoa học dữ liệu là gì?

3 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

3. Phân tích khám phá dữ liệu (Exploratory Data Analysis - EDA) đóng vai trò quan trọng trong khoa học dữ liệu vì nó giúp:

4 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

4. Quá trình thu thập dữ liệu từ nhiều nguồn khác nhau, bao gồm các định dạng có cấu trúc, bán cấu trúc và phi cấu trúc, thuộc về giai đoạn nào trong khoa học dữ liệu?

5 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

5. Trong khoa học dữ liệu, khái niệm dữ liệu lớn (Big Data) thường được định nghĩa dựa trên những thuộc tính nào sau đây?

6 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

6. Trong học máy, thuật toán K-Means Clustering được sử dụng cho loại hình bài toán nào?

7 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

7. Trong khoa học dữ liệu, hàm mất mát (Loss Function) được sử dụng để:

8 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

8. Trong khoa học dữ liệu, thuật toán Random Forest là một ví dụ của phương pháp nào?

9 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

9. Khi làm việc với dữ liệu văn bản, kỹ thuật nào thường được sử dụng để biến đổi các từ thành các vector số học mà mô hình học máy có thể xử lý?

10 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

10. Loại phân tích nào trong khoa học dữ liệu tập trung vào việc đưa ra khuyến nghị hoặc hành động tối ưu dựa trên kết quả phân tích?

11 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

11. Đâu là một ví dụ về dữ liệu phi cấu trúc (Unstructured Data)?

12 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

12. Trong khoa học dữ liệu, khái niệm Overfitting (Quá khớp) xảy ra khi mô hình:

13 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

13. Trong lĩnh vực khoa học dữ liệu, kỹ thuật đặc trưng (Feature Engineering) là quá trình:

14 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

14. Ngôn ngữ lập trình nào được sử dụng phổ biến nhất trong khoa học dữ liệu hiện nay nhờ hệ sinh thái thư viện phong phú như Pandas, NumPy, Scikit-learn?

15 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

15. Trong khoa học dữ liệu, hồi quy tuyến tính (Linear Regression) được sử dụng chủ yếu cho loại hình bài toán nào?

16 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

16. Trong các giai đoạn của quy trình khoa học dữ liệu, giai đoạn nào tập trung vào việc biến đổi dữ liệu thô thành các biểu diễn dễ hiểu hơn, thường là dưới dạng biểu đồ hoặc đồ thị?

17 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

17. Khi đánh giá một mô hình phân loại trong khoa học dữ liệu, chỉ số Accuracy (Độ chính xác) có thể gây hiểu lầm trong trường hợp nào?

18 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

18. Yếu tố nào sau đây KHÔNG phải là một trong 5 V của Dữ liệu lớn (Big Data) theo định nghĩa mở rộng?

19 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

19. Mục tiêu chính của Trực quan hóa dữ liệu (Data Visualization) trong khoa học dữ liệu là gì?

20 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

20. Khi một mô hình khoa học dữ liệu hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra, điều đó thường chỉ ra vấn đề gì?

21 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

21. Phân tích hồi tưởng (Backtracking Analysis) trong khoa học dữ liệu thường liên quan đến việc:

22 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

22. Mục tiêu của việc khai phá dữ liệu (Data Mining) là gì?

23 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

23. Thuật toán Decision Tree (Cây quyết định) trong học máy thuộc loại hình học có giám sát nào?

24 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

24. Trong khoa học dữ liệu, Cross-validation (Kiểm định chéo) là một kỹ thuật được sử dụng để:

25 / 25

Category: Trắc nghiệm Cánh diều Khoa học máy tính 12 bài 2: Giới thiệu về khoa học dữ liệu

Tags: Bộ đề 1

25. Một nhà khoa học dữ liệu đang cố gắng dự đoán giá nhà dựa trên các yếu tố như diện tích, số phòng ngủ, vị trí và tuổi đời của ngôi nhà. Đây là ví dụ về loại hình phân tích nào trong khoa học dữ liệu?