Trắc nghiệm Khoa học máy tính 12 Kết nối tri thức bài 26: Làm quen với Khoa học dữ liệu
1. Vai trò của kỹ sư dữ liệu (Data Engineer) trong một dự án Khoa học dữ liệu thường là gì?
A. Phát triển mô hình học máy.
B. Xây dựng và duy trì hạ tầng dữ liệu, đường ống dữ liệu (data pipelines).
C. Trực quan hóa kết quả phân tích.
D. Diễn giải kết quả kinh doanh từ dữ liệu.
2. Khi một thuật toán học máy cho kết quả tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới, hiện tượng này được gọi là gì?
A. Quá khớp (Overfitting).
B. Dưới khớp (Underfitting).
C. Tối ưu hóa (Optimization).
D. Làm sạch dữ liệu (Data Cleaning).
3. Khi phân tích dữ liệu, ngoại lai (outliers) là gì?
A. Các giá trị trung bình của tập dữ liệu.
B. Các điểm dữ liệu có giá trị khác biệt đáng kể so với phần lớn dữ liệu còn lại.
C. Các giá trị bị thiếu trong tập dữ liệu.
D. Các thuộc tính không liên quan đến bài toán.
4. Loại dữ liệu nào sau đây KHÔNG được coi là dữ liệu có cấu trúc?
A. Bảng tính Excel với các cột Tên, Tuổi, Địa chỉ.
B. Dữ liệu từ các cảm biến ghi lại nhiệt độ theo thời gian.
C. Nội dung của một bài đăng trên mạng xã hội (text, hình ảnh, video).
D. Thông tin khách hàng trong cơ sở dữ liệu SQL.
5. Mục tiêu của việc chuẩn hóa dữ liệu (data normalization) trong tiền xử lý là gì?
A. Tăng kích thước của tập dữ liệu.
B. Đưa các thuộc tính về cùng một phạm vi giá trị, tránh ảnh hưởng của thang đo khác nhau.
C. Xóa bỏ tất cả các ngoại lai.
D. Tăng tốc độ thu thập dữ liệu.
6. Bước nào trong quy trình Khoa học dữ liệu liên quan đến việc chọn các đặc trưng (features) quan trọng nhất để đưa vào mô hình?
A. Chuẩn bị dữ liệu.
B. Lựa chọn đặc trưng (Feature Selection).
C. Xây dựng mô hình.
D. Đánh giá mô hình.
7. Khái niệm Big Data thường đề cập đến các tập dữ liệu có đặc điểm nào sau đây (theo mô hình 3V, 5V...)?
A. Chỉ đề cập đến kích thước lớn.
B. Đề cập đến Khối lượng (Volume), Tốc độ (Velocity) và Sự đa dạng (Variety).
C. Chỉ đề cập đến tốc độ xử lý.
D. Chỉ đề cập đến sự đa dạng của nguồn.
8. Thư viện Pandas trong Python chủ yếu được sử dụng cho mục đích gì trong Khoa học dữ liệu?
A. Xây dựng giao diện đồ họa người dùng.
B. Thao tác và phân tích dữ liệu có cấu trúc và bán cấu trúc.
C. Tạo mô hình mạng nơ-ron sâu.
D. Quản lý cơ sở dữ liệu.
9. Chọn phát biểu SAI về vai trò của Trực quan hóa dữ liệu (Data Visualization) trong Khoa học dữ liệu:
A. Giúp phát hiện xu hướng và mẫu hình ẩn trong dữ liệu.
B. Hỗ trợ truyền đạt kết quả phân tích một cách hiệu quả.
C. Là bước đầu tiên và duy nhất cần thiết trong mọi quy trình Khoa học dữ liệu.
D. Giúp người xem hiểu nhanh chóng các thông tin phức tạp.
10. Trong bài toán Khoa học dữ liệu, bước nào thường được xem là quan trọng nhất để đảm bảo chất lượng của dữ liệu đầu vào?
A. Trực quan hóa dữ liệu.
B. Xây dựng mô hình dự đoán.
C. Thu thập và làm sạch dữ liệu.
D. Đánh giá hiệu suất mô hình.
11. Khi làm việc với dữ liệu văn bản, kỹ thuật nào thường được sử dụng để chuyển đổi văn bản thành các biểu diễn số mà máy tính có thể hiểu được?
A. Trực quan hóa dữ liệu.
B. Làm sạch dữ liệu.
C. Xử lý ngôn ngữ tự nhiên (NLP) và Mã hóa văn bản (Text Encoding).
D. Tạo mô hình dự đoán.
12. Dữ liệu có cấu trúc (Structured Data) thường được lưu trữ và quản lý theo định dạng nào?
A. Tệp văn bản phi cấu trúc (Unstructured text files).
B. Cơ sở dữ liệu quan hệ (Relational Databases).
C. Tệp âm thanh và video.
D. Tệp hình ảnh.
13. Học máy (Machine Learning) là một nhánh quan trọng của Khoa học dữ liệu, tập trung vào việc gì?
A. Thiết kế giao diện người dùng.
B. Phát triển thuật toán cho phép máy tính học hỏi từ dữ liệu.
C. Quản lý hệ thống mạng.
D. Tạo ra các sản phẩm phần cứng.
14. Ngôn ngữ lập trình nào thường được sử dụng phổ biến nhất trong Khoa học dữ liệu hiện nay?
A. Java.
B. C++.
C. Python.
D. Visual Basic.
15. Trong các thuật toán Học máy, học có giám sát (supervised learning) yêu cầu loại dữ liệu nào?
A. Dữ liệu không có nhãn (unlabeled data).
B. Dữ liệu có nhãn (labeled data), tức là có cả đầu vào và đầu ra mong muốn.
C. Dữ liệu văn bản thuần túy.
D. Dữ liệu ngẫu nhiên.
16. Trong phân tích dữ liệu, thuật ngữ đặc trưng (feature) ám chỉ điều gì?
A. Kết quả cuối cùng của mô hình.
B. Một thuộc tính có thể đo lường, mô tả một quan sát hoặc điểm dữ liệu.
C. Một thuật toán học máy.
D. Một bước trong quy trình xử lý dữ liệu.
17. Trong Khoa học dữ liệu, dữ liệu phi cấu trúc (unstructured data) bao gồm các loại nào sau đây?
A. Tệp CSV, cơ sở dữ liệu SQL.
B. Video, email, bài đăng mạng xã hội.
C. Bảng tính Excel, tệp văn bản có định dạng rõ ràng.
D. Dữ liệu cảm biến theo thời gian.
18. Trong quá trình làm sạch dữ liệu, dữ liệu thiếu (missing data) có thể được xử lý bằng cách nào?
A. Luôn luôn loại bỏ toàn bộ các hàng chứa dữ liệu thiếu.
B. Điền giá trị trung bình hoặc trung vị của cột đó.
C. Chỉ sử dụng các thuật toán phức tạp để xử lý.
D. Bỏ qua hoàn toàn các giá trị thiếu mà không xử lý.
19. Khi dữ liệu có nhiều cột (đặc trưng) và ít hàng (quan sát), vấn đề nào có thể xảy ra?
A. Dưới khớp (Underfitting).
B. Quá khớp (Overfitting).
C. Dữ liệu thiếu (Missing data).
D. Dữ liệu không nhất quán (Inconsistent data).
20. Trong lĩnh vực Khoa học dữ liệu, hồi quy (regression) là một loại bài toán thuộc nhóm nào?
A. Phân loại (Classification).
B. Học không giám sát (Unsupervised Learning).
C. Học có giám sát (Supervised Learning).
D. Học tăng cường (Reinforcement Learning).
21. Mục tiêu chính của phân tích khám phá dữ liệu (Exploratory Data Analysis - EDA) là gì?
A. Đưa ra kết luận cuối cùng về dữ liệu.
B. Xây dựng mô hình dự đoán phức tạp.
C. Hiểu rõ hơn về dữ liệu, phát hiện xu hướng và các vấn đề tiềm ẩn.
D. Tối ưu hóa hiệu suất thuật toán.
22. Khái niệm nào mô tả tập hợp các kỹ thuật và quy trình để khai thác kiến thức và thông tin chi tiết có giá trị từ dữ liệu?
A. Phân tích dữ liệu (Data Analysis).
B. Khoa học dữ liệu (Data Science).
C. Trí tuệ nhân tạo (Artificial Intelligence).
D. Học máy (Machine Learning).
23. Chọn phát biểu ĐÚNG về dữ liệu bán cấu trúc (semi-structured data):
A. Không có bất kỳ cấu trúc nào.
B. Có cấu trúc rõ ràng, tuân theo lược đồ cố định.
C. Chứa các thẻ đánh dấu hoặc các yếu tố tổ chức khác nhưng không tuân theo lược đồ chặt chẽ như dữ liệu có cấu trúc.
D. Chỉ bao gồm dữ liệu số.
24. Mục đích của việc tách tập dữ liệu thành tập huấn luyện (training set) và tập kiểm tra (test set) là gì?
A. Để tăng tốc độ huấn luyện mô hình.
B. Để đánh giá khách quan khả năng khái quát hóa của mô hình trên dữ liệu mới.
C. Để loại bỏ các giá trị ngoại lai.
D. Để làm cho dữ liệu có cấu trúc hơn.
25. Thư viện NumPy trong Python đóng vai trò quan trọng trong Khoa học dữ liệu chủ yếu nhờ vào:
A. Khả năng xử lý văn bản phức tạp.
B. Cung cấp các mảng đa chiều hiệu quả và các hàm toán học cho phép xử lý số học nhanh chóng.
C. Tạo ra các biểu đồ và đồ thị tương tác.
D. Quản lý cơ sở dữ liệu NoSQL.