Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F16: Máy tính, thuật toán và Khoa học dữ liệu
1. Trong học máy, Bias-Variance Tradeoff (Đánh đổi giữa sai lệch và phương sai) đề cập đến sự cân bằng giữa hai nguồn lỗi nào?
A. Sai lệch (Bias) do các giả định đơn giản hóa của mô hình và Phương sai (Variance) do độ nhạy cảm của mô hình với biến động trong dữ liệu huấn luyện.
B. Sai lệch (Bias) do lỗi nhập liệu và Phương sai (Variance) do tốc độ xử lý.
C. Sai lệch (Bias) về mặt đạo đức và Phương sai (Variance) về mặt chi phí.
D. Sai lệch (Bias) trong thuật toán và Phương sai (Variance) trong phần cứng.
2. Thuật toán nào thường được sử dụng để dự đoán một giá trị liên tục, ví dụ như giá nhà dựa trên các đặc điểm?
A. Thuật toán Hồi quy tuyến tính (Linear Regression Algorithm)
B. Thuật toán Phân loại Naive Bayes (Naive Bayes Classifier)
C. Thuật toán Phân cụm K-Means (K-Means Clustering Algorithm)
D. Thuật toán Cây quyết định để phân loại (Decision Tree Classifier)
3. Thuật toán nào thường được sử dụng để phân loại văn bản, email spam hay xác định chủ đề của một đoạn văn?
A. Thuật toán Naive Bayes
B. Thuật toán K-Means
C. Thuật toán PCA
D. Thuật toán Linear Regression
4. Khái niệm Deep Learning (Học sâu) là một nhánh của lĩnh vực nào?
A. Học máy (Machine Learning).
B. Khoa học máy tính cơ bản.
C. Lập trình web.
D. Quản trị mạng.
5. Trong Khoa học dữ liệu, mục tiêu chính của Model Evaluation là gì?
A. Đánh giá hiệu suất và khả năng tổng quát hóa của mô hình đã được huấn luyện.
B. Thu thập thêm dữ liệu mới.
C. Thiết kế kiến trúc của thuật toán.
D. Tối ưu hóa quá trình tiền xử lý dữ liệu.
6. Trong Khoa học dữ liệu, Exploratory Data Analysis (EDA) là giai đoạn nhằm mục đích chính là gì?
A. Hiểu rõ hơn về đặc điểm, cấu trúc, mối quan hệ và các vấn đề tiềm ẩn trong dữ liệu.
B. Huấn luyện mô hình học máy với hiệu suất cao nhất.
C. Triển khai mô hình vào môi trường sản xuất.
D. Viết báo cáo kết quả cuối cùng.
7. Khi làm việc với dữ liệu văn bản, kỹ thuật Tokenization có vai trò gì?
A. Chia văn bản thành các đơn vị nhỏ hơn như từ, cụm từ hoặc câu.
B. Chuyển đổi văn bản thành dạng số.
C. Loại bỏ các từ vô nghĩa (stop words).
D. Phân tích cảm xúc của văn bản.
8. Trong Khoa học dữ liệu, Feature Selection (Lựa chọn thuộc tính) là quá trình gì?
A. Chọn ra một tập hợp con các thuộc tính quan trọng và liên quan nhất cho bài toán.
B. Tạo ra các thuộc tính mới từ dữ liệu thô.
C. Loại bỏ các giá trị ngoại lai khỏi dữ liệu.
D. Huấn luyện mô hình trên toàn bộ các thuộc tính.
9. Khái niệm Overfitting trong học máy xảy ra khi nào?
A. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
B. Mô hình không học được gì từ dữ liệu huấn luyện.
C. Dữ liệu huấn luyện có quá ít thuộc tính.
D. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu mới.
10. Khái niệm Data Mining (Khai phá dữ liệu) liên quan mật thiết đến hoạt động nào?
A. Khám phá các mẫu ẩn, tri thức có giá trị từ các tập dữ liệu lớn.
B. Xây dựng giao diện người dùng cho ứng dụng.
C. Quản lý cơ sở dữ liệu quan hệ.
D. Viết mã nguồn cho các thuật toán mới.
11. Thuật toán nào thường được sử dụng để phân loại dữ liệu dựa trên việc xây dựng một cây quyết định, nơi mỗi nút bên trong đại diện cho một thuộc tính, mỗi nhánh đại diện cho một quy tắc quyết định và mỗi lá đại diện cho một lớp?
A. Thuật toán Cây quyết định (Decision Tree Algorithm)
B. Thuật toán Hồi quy tuyến tính (Linear Regression Algorithm)
C. Thuật toán K-Means Clustering
D. Thuật toán Mạng nơ-ron nhân tạo (Artificial Neural Network Algorithm)
12. Kỹ thuật Cross-validation (Kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình học máy?
A. Đánh giá hiệu suất của mô hình một cách đáng tin cậy bằng cách sử dụng nhiều tập dữ liệu con.
B. Tăng tốc độ huấn luyện mô hình.
C. Giảm số lượng tham số của mô hình.
D. Trực quan hóa dữ liệu đầu vào.
13. Thuật toán Gradient Descent (Giảm dần theo độ dốc) được sử dụng chủ yếu để làm gì trong học máy?
A. Tối thiểu hóa hàm mất mát (loss function) của mô hình.
B. Tăng tốc độ xử lý dữ liệu.
C. Giảm số lượng thuộc tính của dữ liệu.
D. Tăng cường tính bảo mật của dữ liệu.
14. Đâu là một ví dụ về dữ liệu phi cấu trúc (unstructured data)?
A. Các bài đăng trên mạng xã hội (ví dụ: tweet, bình luận).
B. Bảng tính Excel với các hàng và cột.
C. Cơ sở dữ liệu SQL.
D. Tệp CSV chứa dữ liệu giao dịch.
15. Trong Khoa học dữ liệu, Precision (Độ chính xác) và Recall (Độ phủ) là các chỉ số dùng để đánh giá loại mô hình nào?
A. Mô hình phân loại (Classification models).
B. Mô hình hồi quy (Regression models).
C. Mô hình phân cụm (Clustering models).
D. Mô hình giảm chiều dữ liệu (Dimensionality Reduction models).
16. Trong Khoa học dữ liệu, Data Cleaning (Làm sạch dữ liệu) đề cập đến việc xử lý các vấn đề gì?
A. Xử lý dữ liệu thiếu, không nhất quán, trùng lặp hoặc bị lỗi.
B. Tăng cường số lượng thuộc tính của dữ liệu.
C. Biểu diễn dữ liệu dưới dạng bảng.
D. Giảm kích thước của tập dữ liệu.
17. Khái niệm Algorithm (Thuật toán) trong khoa học máy tính là gì?
A. Một tập hợp hữu hạn các chỉ dẫn rõ ràng và có thứ tự để giải quyết một bài toán hoặc thực hiện một nhiệm vụ.
B. Một phần cứng máy tính.
C. Một loại ngôn ngữ lập trình.
D. Một giao diện người dùng đồ họa.
18. Thuật toán nào thuộc nhóm học không giám sát (unsupervised learning) và thường được sử dụng để giảm số chiều của dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng?
A. Phân tích thành phần chính (Principal Component Analysis - PCA)
B. Hồi quy tuyến tính (Linear Regression)
C. Cây quyết định (Decision Tree)
D. Máy vector hỗ trợ (Support Vector Machine)
19. Một tập dữ liệu được gọi là có cấu trúc (structured data) khi nào?
A. Dữ liệu được tổ chức theo một định dạng xác định, thường là bảng với hàng và cột.
B. Dữ liệu tồn tại dưới dạng văn bản tự do hoặc hình ảnh.
C. Dữ liệu không có bất kỳ định dạng nào.
D. Dữ liệu chỉ bao gồm các số.
20. Thuật toán nào được sử dụng phổ biến để nhóm các điểm dữ liệu tương tự nhau thành các cụm (clusters) dựa trên sự tương đồng về thuộc tính, mà không cần nhãn trước?
A. Thuật toán Phân cụm K-Means (K-Means Clustering Algorithm)
B. Thuật toán Hồi quy Logistic (Logistic Regression Algorithm)
C. Thuật toán Cây quyết định (Decision Tree Algorithm)
D. Thuật toán Máy vector hỗ trợ (Support Vector Machine Algorithm)
21. Trong các thuật toán học máy, Supervised Learning (Học có giám sát) yêu cầu loại dữ liệu nào?
A. Dữ liệu có nhãn (labeled data), bao gồm cả đầu vào và đầu ra mong muốn.
B. Dữ liệu không có nhãn (unlabeled data).
C. Chỉ đầu vào (input features).
D. Dữ liệu thời gian thực (real-time data).
22. Khái niệm Feature Engineering trong Khoa học dữ liệu đề cập đến hoạt động nào?
A. Tạo ra các thuộc tính (features) mới từ dữ liệu thô để cải thiện hiệu suất mô hình.
B. Thu thập dữ liệu từ nhiều nguồn khác nhau.
C. Trực quan hóa dữ liệu bằng biểu đồ.
D. Huấn luyện mô hình học máy.
23. Trong Khoa học dữ liệu, khái niệm nào được sử dụng để mô tả các tập dữ liệu lớn, phức tạp và đa dạng, đòi hỏi các phương pháp xử lý và phân tích tiên tiến?
A. Big Data
B. Small Data
C. Medium Data
D. Structured Data
24. Trong quá trình tiền xử lý dữ liệu (data preprocessing), việc loại bỏ hoặc xử lý các giá trị ngoại lai (outliers) nhằm mục đích gì?
A. Cải thiện độ chính xác và độ tin cậy của mô hình phân tích.
B. Tăng kích thước của tập dữ liệu.
C. Làm cho dữ liệu phức tạp hơn.
D. Giảm khả năng học của thuật toán.
25. Khái niệm Data Visualization (Trực quan hóa dữ liệu) chủ yếu dùng để làm gì?
A. Biểu diễn thông tin và dữ liệu dưới dạng đồ họa để dễ hiểu và phân tích xu hướng.
B. Thu thập dữ liệu từ các nguồn không xác định.
C. Xây dựng các mô hình dự đoán phức tạp.
D. Tiến hành phân tích thống kê chi tiết.