Trắc nghiệm Khoa học máy tính 12 Kết nối tri thức bài 27: Máy tính và Khoa học dữ liệu
1. Trong Khoa học dữ liệu, thuật ngữ feature engineering có nghĩa là gì?
A. Quá trình xây dựng mô hình học máy phức tạp nhất.
B. Việc tạo ra các biến mới (features) từ dữ liệu thô để cải thiện hiệu suất của mô hình.
C. Chỉ đơn giản là lựa chọn các biến đã có sẵn trong tập dữ liệu.
D. Quá trình loại bỏ hoàn toàn các biến không cần thiết.
2. Trong các bước của quy trình Khoa học dữ liệu, giai đoạn nào thường chiếm nhiều thời gian và công sức nhất?
A. Trực quan hóa dữ liệu.
B. Xây dựng mô hình học máy.
C. Thu thập và tiền xử lý dữ liệu.
D. Triển khai mô hình vào thực tế.
3. Đâu là một ví dụ về dữ liệu có cấu trúc (structured data)?
A. Bài đăng trên mạng xã hội.
B. Tệp âm thanh MP3.
C. Một bảng trong cơ sở dữ liệu quan hệ (ví dụ: bảng khách hàng với các cột Tên, Địa chỉ, Số điện thoại).
D. Tệp hình ảnh JPEG.
4. Trong Khoa học dữ liệu, trực quan hóa dữ liệu (data visualization) đóng vai trò quan trọng nhất ở khía cạnh nào?
A. Tăng tốc độ tính toán của mô hình học máy.
B. Giúp khám phá các mẫu, xu hướng và ngoại lệ trong dữ liệu một cách hiệu quả.
C. Thay thế hoàn toàn cho việc tiền xử lý dữ liệu.
D. Chỉ sử dụng sau khi mô hình đã được huấn luyện xong và không còn giá trị khám phá.
5. Trong lĩnh vực Khoa học dữ liệu, bias-variance tradeoff là một khái niệm quan trọng liên quan đến?
A. Độ lớn của tập dữ liệu.
B. Sự cân bằng giữa việc mô hình quá đơn giản (high bias) và mô hình quá phức tạp, nhạy cảm với nhiễu (high variance).
C. Tốc độ hội tụ của thuật toán.
D. Việc sử dụng dữ liệu có cấu trúc hay phi cấu trúc.
6. Trong Khoa học dữ liệu, Data Mining và Khoa học dữ liệu có mối quan hệ như thế nào?
A. Data Mining là một lĩnh vực hoàn toàn độc lập, không liên quan đến Khoa học dữ liệu.
B. Khoa học dữ liệu là một lĩnh vực rộng lớn hơn, bao gồm Data Mining như một trong những kỹ thuật cốt lõi để khám phá mẫu trong dữ liệu.
C. Data Mining chỉ tập trung vào việc làm sạch dữ liệu, còn Khoa học dữ liệu tập trung vào mô hình hóa.
D. Data Mining là một phần của Khoa học dữ liệu, nhưng chỉ áp dụng cho dữ liệu có cấu trúc.
7. Trong quy trình Khoa học dữ liệu, giai đoạn khám phá dữ liệu (exploratory data analysis - EDA) thường bao gồm những hoạt động gì?
A. Chỉ huấn luyện mô hình học máy với các tham số mặc định.
B. Viết mã để triển khai mô hình vào hệ thống sản xuất.
C. Sử dụng thống kê mô tả và trực quan hóa để hiểu đặc điểm, mối quan hệ và các vấn đề tiềm ẩn trong dữ liệu.
D. Chỉ tập trung vào việc thu thập thêm dữ liệu mới.
8. Mục tiêu chính của việc tiền xử lý dữ liệu (data preprocessing) trong Khoa học dữ liệu là gì?
A. Tăng cường độ phức tạp của dữ liệu để làm cho mô hình khó hiểu hơn.
B. Loại bỏ các thuật toán học máy và thay thế bằng phương pháp thống kê truyền thống.
C. Chuyển đổi dữ liệu thô sang định dạng sạch, nhất quán và phù hợp cho phân tích hoặc huấn luyện mô hình.
D. Giảm thiểu số lượng biến số trong tập dữ liệu bằng cách loại bỏ các biến quan trọng.
9. Khái niệm Học máy (Machine Learning) trong Khoa học dữ liệu có thể được định nghĩa là gì?
A. Lập trình máy tính theo các quy tắc cố định mà không có khả năng học hỏi.
B. Hệ thống máy tính có khả năng học hỏi từ dữ liệu mà không cần được lập trình tường minh cho từng tác vụ.
C. Chỉ tập trung vào việc thu thập dữ liệu mà không quan tâm đến phân tích hay mô hình hóa.
D. Tạo ra các thuật toán thống kê đơn giản không cần dữ liệu.
10. Đâu là một ví dụ về hồi quy (regression) trong học máy?
A. Dự đoán một người dùng có thích một sản phẩm hay không.
B. Phân loại một bức ảnh là chó hay mèo.
C. Dự đoán giá nhà dựa trên diện tích, vị trí và số phòng.
D. Nhóm các bài báo tương tự nhau lại với nhau.
11. Loại dữ liệu nào sau đây thường được coi là dữ liệu phi cấu trúc (unstructured data)?
A. Bảng tính Excel với các cột và hàng được định nghĩa rõ ràng.
B. Cơ sở dữ liệu SQL chứa các bảng và mối quan hệ giữa chúng.
C. Tệp văn bản (.txt), email, hình ảnh hoặc video.
D. Dữ liệu từ các cảm biến ghi lại theo định dạng JSON có cấu trúc.
12. Thuật toán nào sau đây thường được sử dụng để phân loại dữ liệu, ví dụ như phân loại email là spam hay không spam?
A. Thuật toán phân cụm (Clustering).
B. Thuật toán hồi quy tuyến tính (Linear Regression).
C. Thuật toán cây quyết định (Decision Tree) hoặc Máy học Vector Hỗ trợ (SVM).
D. Thuật toán phân tích thành phần chính (PCA).
13. Khi thực hiện phân tích chuỗi thời gian (time series analysis), mục tiêu chính là gì?
A. Tìm kiếm các mối quan hệ giữa các biến độc lập.
B. Phân nhóm dữ liệu dựa trên các thuộc tính tương tự.
C. Phân tích và dự đoán các mẫu, xu hướng hoặc tính mùa vụ trong dữ liệu được thu thập theo trình tự thời gian.
D. Giảm số chiều của dữ liệu mà không làm mất thông tin.
14. Yếu tố nào sau đây là quan trọng nhất khi xác định tính hữu ích (utility) của một tập dữ liệu trong Khoa học dữ liệu?
A. Kích thước của tập dữ liệu.
B. Khả năng của tập dữ liệu trong việc hỗ trợ giải quyết một bài toán cụ thể hoặc mang lại hiểu biết có giá trị.
C. Tốc độ thu thập dữ liệu.
D. Số lượng các biến trong tập dữ liệu.
15. Khi nói về hệ thống khuyến nghị (recommender systems), thuật toán nào thường được sử dụng để đề xuất sản phẩm dựa trên hành vi mua sắm hoặc xem của người dùng tương tự?
A. Thuật toán phân cụm.
B. Học tăng cường (Reinforcement Learning).
C. Học cộng tác (Collaborative Filtering) hoặc dựa trên nội dung (Content-Based Filtering).
D. Kỹ thuật giảm chiều dữ liệu.
16. Mục tiêu của thuật toán phân cụm (clustering) trong học máy là gì?
A. Dự đoán một giá trị số liên tục dựa trên các biến đầu vào.
B. Tìm kiếm các mối quan hệ hoặc luật kết hợp giữa các mặt hàng trong giao dịch.
C. Nhóm các điểm dữ liệu tương tự nhau thành các cụm mà không cần nhãn trước.
D. Phân loại dữ liệu vào các danh mục đã được xác định trước.
17. Trong lĩnh vực Khoa học dữ liệu, khái niệm Big Data thường đề cập đến tập dữ liệu có đặc điểm nào sau đây?
A. Dữ liệu có kích thước nhỏ, dễ dàng xử lý bằng máy tính cá nhân.
B. Dữ liệu có cấu trúc cố định, dễ dàng lưu trữ trong cơ sở dữ liệu quan hệ.
C. Dữ liệu có khối lượng lớn, tốc độ tạo ra nhanh và đa dạng về định dạng.
D. Dữ liệu chỉ thu thập từ một nguồn duy nhất và có tính thời điểm.
18. Trong Khoa học dữ liệu, việc lựa chọn thuật toán phù hợp phụ thuộc vào yếu tố nào?
A. Chỉ phụ thuộc vào tốc độ của máy tính.
B. Phụ thuộc vào loại bài toán (phân loại, hồi quy, phân cụm, v.v.), đặc điểm của dữ liệu và mục tiêu mong muốn.
C. Chỉ phụ thuộc vào độ phức tạp của mã nguồn thuật toán.
D. Thuật toán nào cho kết quả nhanh nhất luôn là tốt nhất.
19. Thuật toán nào sau đây thuộc loại học có giám sát (supervised learning)?
A. Phân cụm K-Means.
B. Cây quyết định (Decision Tree).
C. Phân tích thành phần chính (PCA).
D. Thuật toán Apriori.
20. Công cụ hoặc ngôn ngữ lập trình nào sau đây rất phổ biến trong cộng đồng Khoa học dữ liệu và học máy?
A. Visual Basic.
B. Python và R.
C. COBOL.
D. Pascal.
21. Khi đánh giá hiệu suất của một mô hình phân loại, chỉ số độ chính xác (accuracy) có thể không đủ nếu tập dữ liệu bị mất cân bằng (imbalanced dataset). Trong trường hợp này, chỉ số nào sau đây thường được xem xét thêm?
A. Số lượng biến.
B. Độ phức tạp của thuật toán.
C. Precision, Recall hoặc F1-score.
D. Tốc độ xử lý của máy tính.
22. Thành phần nào sau đây KHÔNG thuộc nhóm 3V kinh điển mô tả Big Data?
A. Volume (Khối lượng).
B. Velocity (Tốc độ).
C. Value (Giá trị).
D. Variety (Đa dạng).
23. Thuật toán Hồi quy Logistic (Logistic Regression) thường được sử dụng cho loại bài toán nào?
A. Hồi quy tuyến tính.
B. Phân loại nhị phân (ví dụ: có/không, đúng/sai).
C. Phân cụm dữ liệu.
D. Giảm chiều dữ liệu.
24. Khi xử lý dữ liệu bị thiếu (missing data), phương pháp điền giá trị trung bình (mean imputation) phù hợp nhất với loại dữ liệu nào?
A. Dữ liệu phân loại (categorical data) có nhiều giá trị khác nhau.
B. Dữ liệu số (numerical data) có phân phối chuẩn hoặc gần chuẩn.
C. Dữ liệu thời gian (time series data) có xu hướng biến động mạnh.
D. Dữ liệu văn bản phi cấu trúc.
25. Khái niệm học không giám sát (unsupervised learning) khác với học có giám sát (supervised learning) ở điểm nào?
A. Học không giám sát sử dụng dữ liệu có nhãn, còn học có giám sát thì không.
B. Học không giám sát tìm kiếm cấu trúc trong dữ liệu không nhãn, còn học có giám sát dựa trên dữ liệu có nhãn để đưa ra dự đoán hoặc phân loại.
C. Học không giám sát chỉ áp dụng cho dữ liệu số, còn học có giám sát cho dữ liệu văn bản.
D. Không có sự khác biệt cơ bản nào.