Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

1. Thuật ngữ Data Mining (Khai phá dữ liệu) và Data Science (Khoa học dữ liệu) có mối quan hệ như thế nào?

A. Chúng là hai thuật ngữ hoàn toàn khác nhau và không liên quan.
B. Data Mining là một tập con của Data Science, tập trung vào việc khám phá các mẫu ẩn trong dữ liệu.
C. Data Science là một tập con của Data Mining, tập trung vào việc mô hình hóa dữ liệu.
D. Chúng là hai thuật ngữ đồng nghĩa và có thể thay thế cho nhau hoàn toàn.

2. Trong phân tích cảm xúc (sentiment analysis), mục tiêu chính là gì?

A. Phân loại các bài viết theo chủ đề.
B. Xác định và trích xuất ý kiến, thái độ, cảm xúc (tích cực, tiêu cực, trung tính) từ dữ liệu văn bản.
C. Tóm tắt nội dung chính của một văn bản.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.

3. Nếu một tập dữ liệu có nhiều giá trị bị trùng lặp, hành động nào sau đây là cần thiết trong giai đoạn chuẩn bị dữ liệu?

A. Tăng cường các giá trị trùng lặp để làm nổi bật chúng.
B. Xóa bỏ các bản ghi trùng lặp để tránh sai lệch trong phân tích.
C. Điền giá trị trung bình cho các bản ghi trùng lặp.
D. Giữ nguyên tất cả các bản ghi, kể cả bản ghi trùng lặp.

4. Trong lập trình Python cho Khoa học dữ liệu, thư viện nào thường được sử dụng rộng rãi nhất cho việc thao tác và phân tích dữ liệu dạng bảng?

A. NumPy
B. Matplotlib
C. Scikit-learn
D. Pandas

5. Nếu một mô hình học máy cho kết quả rất tốt trên dữ liệu huấn luyện nhưng lại kém hiệu quả khi áp dụng cho dữ liệu mới, thì mô hình đó có khả năng đang gặp vấn đề gì?

A. Underfitting (Chưa khớp).
B. Overfitting (Quá khớp).
C. Bias (Độ chệch).
D. Variance (Phương sai).

6. Tại sao data visualization (trực quan hóa dữ liệu) lại đóng vai trò quan trọng trong Khoa học dữ liệu?

A. Để làm cho dữ liệu trở nên phức tạp và khó hiểu hơn.
B. Để giúp con người dễ dàng nhận biết các mẫu, xu hướng, mối quan hệ và các điểm bất thường trong dữ liệu.
C. Chỉ để tạo báo cáo đẹp mắt cho ban lãnh đạo.
D. Để thay thế hoàn toàn các phương pháp phân tích thống kê.

7. Kỹ thuật Cross-validation (Kiểm định chéo) được sử dụng trong Khoa học dữ liệu với mục đích chính là gì?

A. Để tăng tốc độ huấn luyện mô hình.
B. Để đảm bảo mô hình hoạt động tốt trên dữ liệu mới, chưa từng thấy, và tránh học vẹt (overfitting).
C. Để giảm số lượng đặc trưng trong tập dữ liệu.
D. Để làm sạch các giá trị ngoại lệ trong dữ liệu.

8. Khi xây dựng một mô hình phân loại, nếu mô hình dự đoán đúng tất cả các trường hợp thuộc lớp dương nhưng lại dự đoán sai rất nhiều trường hợp thuộc lớp âm, thì chỉ số nào sau đây có khả năng cao là thấp?

A. Recall (Độ phủ).
B. Precision (Độ chính xác).
C. Specificity (Độ đặc hiệu).
D. Sensitivity (Độ nhạy).

9. Trong Khoa học dữ liệu, quy trình nào sau đây thường được xem là bước đầu tiên và quan trọng nhất để hiểu rõ về tập dữ liệu trước khi thực hiện các phân tích sâu hơn?

A. Xây dựng mô hình học máy phức tạp.
B. Chuẩn bị và làm sạch dữ liệu.
C. Trực quan hóa dữ liệu để tìm kiếm xu hướng.
D. Khám phá và hiểu dữ liệu (Exploratory Data Analysis - EDA).

10. Trong bối cảnh Khoa học dữ liệu, thuật ngữ model training (huấn luyện mô hình) có nghĩa là gì?

A. Quá trình kiểm tra lại các giả định của mô hình trước khi triển khai.
B. Quá trình tinh chỉnh các tham số của thuật toán để đạt hiệu suất tốt nhất.
C. Quá trình sử dụng dữ liệu huấn luyện để thuật toán học các mẫu và mối quan hệ, từ đó xây dựng nên một mô hình dự đoán.
D. Việc lựa chọn thuật toán phù hợp nhất cho bài toán.

11. Một nhà khoa học dữ liệu đang làm việc trên một tập dữ liệu lớn và cần thực hiện các phép tính số học phức tạp trên các mảng đa chiều. Thư viện nào sau đây là lựa chọn tốt nhất?

A. Scikit-learn
B. Pandas
C. NumPy
D. SciPy

12. Khi nào thì việc sử dụng median imputation (điền giá trị trung vị) được ưu tiên hơn mean imputation (điền giá trị trung bình) để xử lý dữ liệu thiếu?

A. Khi tập dữ liệu có phân phối chuẩn (normal distribution).
B. Khi tập dữ liệu có chứa các giá trị ngoại lệ (outliers) ảnh hưởng lớn đến giá trị trung bình.
C. Khi muốn tăng tốc độ xử lý dữ liệu.
D. Khi tất cả các giá trị trong cột đều giống nhau.

13. Trong Khoa học dữ liệu, outlier (ngoại lệ) là gì và tại sao việc xử lý chúng lại quan trọng?

A. Là các điểm dữ liệu nằm trong phạm vi phân bố bình thường, giúp tăng độ chính xác của mô hình.
B. Là các điểm dữ liệu có giá trị rất khác biệt so với phần còn lại của tập dữ liệu, có thể làm sai lệch kết quả phân tích hoặc mô hình.
C. Là các giá trị bị thiếu, cần được điền vào để hoàn thiện tập dữ liệu.
D. Là các lỗi nhập liệu, không ảnh hưởng đến kết quả phân tích.

14. Khái niệm feature engineering (kỹ thuật đặc trưng) trong Khoa học dữ liệu đề cập đến hoạt động nào?

A. Việc chọn lựa ngẫu nhiên các biến trong tập dữ liệu.
B. Việc sử dụng các thuật toán học máy để tự động tạo ra các đặc trưng mới từ dữ liệu thô.
C. Quá trình tạo ra các đặc trưng (features) mới hoặc biến đổi các đặc trưng hiện có để cải thiện hiệu suất của mô hình học máy.
D. Việc loại bỏ các đặc trưng không quan trọng để giảm kích thước dữ liệu.

15. Trong lĩnh vực Khoa học dữ liệu, Deep Learning (Học sâu) là một nhánh của lĩnh vực nào?

A. Thống kê ứng dụng.
B. Học máy (Machine Learning).
C. Cơ sở dữ liệu.
D. Trực quan hóa dữ liệu.

16. Trong khai phá dữ liệu, Association Rule Mining (Khai phá luật kết hợp) thường được sử dụng để tìm ra mối quan hệ gì giữa các mặt hàng?

A. Mối quan hệ về thời gian giữa các giao dịch.
B. Mối quan hệ về tần suất xuất hiện đồng thời của các mục trong cùng một giao dịch.
C. Mối quan hệ về sự tương đồng giữa các khách hàng.
D. Mối quan hệ về sự phân cụm các mặt hàng.

17. Đâu là mục tiêu chính của giai đoạn Chuẩn bị dữ liệu (Data Preparation) trong quy trình Khoa học dữ liệu?

A. Tối ưu hóa hiệu suất của thuật toán học máy.
B. Lựa chọn các biến quan trọng nhất cho mô hình.
C. Chuyển đổi dữ liệu thô thành định dạng sạch, nhất quán và phù hợp cho phân tích.
D. Đánh giá độ chính xác của mô hình đã xây dựng.

18. Đâu là một ví dụ về dữ liệu phi cấu trúc (unstructured data) thường gặp trong Khoa học dữ liệu?

A. Bảng tính Excel chứa thông tin khách hàng.
B. Cơ sở dữ liệu quan hệ (SQL database).
C. Tệp CSV chứa dữ liệu giao dịch.
D. Bài đăng trên mạng xã hội (social media posts).

19. Khi đánh giá một mô hình phân loại, chỉ số nào đo lường khả năng mô hình dự đoán đúng các trường hợp thuộc lớp dương (positive class) trong tổng số các trường hợp được mô hình dự đoán là dương?

A. Accuracy (Độ chính xác).
B. Precision (Độ chính xác).
C. Recall (Độ phủ).
D. F1-Score (Điểm F1).

20. Khi phân tích một tập dữ liệu khách hàng, các nhà khoa học dữ liệu phát hiện nhiều bản ghi bị thiếu thông tin về tuổi. Phương pháp nào sau đây KHÔNG PHẢI là kỹ thuật xử lý giá trị thiếu phổ biến?

A. Điền giá trị thiếu bằng giá trị trung bình (mean imputation).
B. Điền giá trị thiếu bằng giá trị trung vị (median imputation).
C. Xóa bỏ hoàn toàn các bản ghi có giá trị thiếu.
D. Thêm một cột chỉ báo mới để ghi nhận các bản ghi bị thiếu giá trị.

21. Thuật ngữ Big Data thường ám chỉ đến các tập dữ liệu có đặc điểm nào sau đây, theo mô hình 3V kinh điển?

A. Volume (Khối lượng), Velocity (Vận tốc), Variety (Đa dạng).
B. Volume (Khối lượng), Value (Giá trị), Verification (Xác minh).
C. Velocity (Vận tốc), Variety (Đa dạng), Verification (Xác minh).
D. Value (Giá trị), Volume (Khối lượng), Velocity (Vận tốc).

22. Trong phân tích chuỗi thời gian (time series analysis), chỉ số nào thường được sử dụng để đo lường mức độ biến động hoặc dao động của dữ liệu xung quanh giá trị trung bình?

A. Mean (Giá trị trung bình).
B. Median (Giá trị trung vị).
C. Standard Deviation (Độ lệch chuẩn).
D. Mode (Yếu vị).

23. Khi phân tích dữ liệu về hành vi người dùng trên một trang web, việc sử dụng A/B testing (Kiểm thử A/B) nhằm mục đích gì?

A. Để dự đoán doanh thu trong tương lai.
B. Để so sánh hiệu quả của hai phiên bản khác nhau của một yếu tố (ví dụ: nút bấm, tiêu đề) bằng cách hiển thị ngẫu nhiên cho hai nhóm người dùng khác nhau.
C. Để phân tích các mẫu mua hàng lặp lại.
D. Để dọn dẹp và chuẩn bị dữ liệu người dùng.

24. Trong kỹ thuật đặc trưng, việc kết hợp hai đặc trưng hiện có để tạo ra một đặc trưng mới có ý nghĩa hơn được gọi là gì?

A. Feature Selection (Lựa chọn đặc trưng).
B. Feature Extraction (Trích xuất đặc trưng).
C. Feature Transformation (Biến đổi đặc trưng).
D. Feature Combination (Kết hợp đặc trưng).

25. Đâu là một phương pháp phổ biến để giảm chiều dữ liệu (dimensionality reduction) trong Khoa học dữ liệu?

A. Tăng số lượng đặc trưng bằng cách kết hợp chúng.
B. Xóa bỏ các giá trị ngoại lệ.
C. Áp dụng các kỹ thuật như Principal Component Analysis (PCA) hoặc t-SNE.
D. Huấn luyện mô hình trên toàn bộ tập dữ liệu.

1 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

1. Thuật ngữ Data Mining (Khai phá dữ liệu) và Data Science (Khoa học dữ liệu) có mối quan hệ như thế nào?

2 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

2. Trong phân tích cảm xúc (sentiment analysis), mục tiêu chính là gì?

3 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

3. Nếu một tập dữ liệu có nhiều giá trị bị trùng lặp, hành động nào sau đây là cần thiết trong giai đoạn chuẩn bị dữ liệu?

4 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

4. Trong lập trình Python cho Khoa học dữ liệu, thư viện nào thường được sử dụng rộng rãi nhất cho việc thao tác và phân tích dữ liệu dạng bảng?

5 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

5. Nếu một mô hình học máy cho kết quả rất tốt trên dữ liệu huấn luyện nhưng lại kém hiệu quả khi áp dụng cho dữ liệu mới, thì mô hình đó có khả năng đang gặp vấn đề gì?

6 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

6. Tại sao data visualization (trực quan hóa dữ liệu) lại đóng vai trò quan trọng trong Khoa học dữ liệu?

7 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

7. Kỹ thuật Cross-validation (Kiểm định chéo) được sử dụng trong Khoa học dữ liệu với mục đích chính là gì?

8 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

8. Khi xây dựng một mô hình phân loại, nếu mô hình dự đoán đúng tất cả các trường hợp thuộc lớp dương nhưng lại dự đoán sai rất nhiều trường hợp thuộc lớp âm, thì chỉ số nào sau đây có khả năng cao là thấp?

9 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

9. Trong Khoa học dữ liệu, quy trình nào sau đây thường được xem là bước đầu tiên và quan trọng nhất để hiểu rõ về tập dữ liệu trước khi thực hiện các phân tích sâu hơn?

10 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

10. Trong bối cảnh Khoa học dữ liệu, thuật ngữ model training (huấn luyện mô hình) có nghĩa là gì?

11 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

11. Một nhà khoa học dữ liệu đang làm việc trên một tập dữ liệu lớn và cần thực hiện các phép tính số học phức tạp trên các mảng đa chiều. Thư viện nào sau đây là lựa chọn tốt nhất?

12 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

12. Khi nào thì việc sử dụng median imputation (điền giá trị trung vị) được ưu tiên hơn mean imputation (điền giá trị trung bình) để xử lý dữ liệu thiếu?

13 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

13. Trong Khoa học dữ liệu, outlier (ngoại lệ) là gì và tại sao việc xử lý chúng lại quan trọng?

14 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

14. Khái niệm feature engineering (kỹ thuật đặc trưng) trong Khoa học dữ liệu đề cập đến hoạt động nào?

15 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

15. Trong lĩnh vực Khoa học dữ liệu, Deep Learning (Học sâu) là một nhánh của lĩnh vực nào?

16 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

16. Trong khai phá dữ liệu, Association Rule Mining (Khai phá luật kết hợp) thường được sử dụng để tìm ra mối quan hệ gì giữa các mặt hàng?

17 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

17. Đâu là mục tiêu chính của giai đoạn Chuẩn bị dữ liệu (Data Preparation) trong quy trình Khoa học dữ liệu?

18 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

18. Đâu là một ví dụ về dữ liệu phi cấu trúc (unstructured data) thường gặp trong Khoa học dữ liệu?

19 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

19. Khi đánh giá một mô hình phân loại, chỉ số nào đo lường khả năng mô hình dự đoán đúng các trường hợp thuộc lớp dương (positive class) trong tổng số các trường hợp được mô hình dự đoán là dương?

20 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

20. Khi phân tích một tập dữ liệu khách hàng, các nhà khoa học dữ liệu phát hiện nhiều bản ghi bị thiếu thông tin về tuổi. Phương pháp nào sau đây KHÔNG PHẢI là kỹ thuật xử lý giá trị thiếu phổ biến?

21 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

21. Thuật ngữ Big Data thường ám chỉ đến các tập dữ liệu có đặc điểm nào sau đây, theo mô hình 3V kinh điển?

22 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

22. Trong phân tích chuỗi thời gian (time series analysis), chỉ số nào thường được sử dụng để đo lường mức độ biến động hoặc dao động của dữ liệu xung quanh giá trị trung bình?

23 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

23. Khi phân tích dữ liệu về hành vi người dùng trên một trang web, việc sử dụng A/B testing (Kiểm thử A/B) nhằm mục đích gì?

24 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

24. Trong kỹ thuật đặc trưng, việc kết hợp hai đặc trưng hiện có để tạo ra một đặc trưng mới có ý nghĩa hơn được gọi là gì?

25 / 25

Category: Trắc nghiệm Khoa học máy tính 12 chân trời sáng tạo bài F15: Khoa học dữ liệu

Tags: Bộ đề 1

25. Đâu là một phương pháp phổ biến để giảm chiều dữ liệu (dimensionality reduction) trong Khoa học dữ liệu?