1. Khi dữ liệu đầu vào cho mô hình Học máy không có nhãn, chúng ta thường sử dụng phương pháp nào?
A. Học có giám sát.
B. Học không giám sát.
C. Học tăng cường.
D. Học bán giám sát.
2. Trong Học máy có giám sát, dự đoán một giá trị liên tục là đặc điểm của bài toán nào?
A. Phân loại (Classification).
B. Hồi quy (Regression).
C. Gom cụm (Clustering).
D. Phân tích thành phần chính (PCA).
3. Đâu là ví dụ điển hình cho bài toán Phân loại (Classification) trong Học máy có giám sát?
A. Dự đoán giá nhà dựa trên diện tích và vị trí.
B. Nhận dạng xem một bức ảnh chứa mèo hay chó.
C. Ước tính số lượng khách hàng ghé thăm cửa hàng trong một ngày.
D. Dự báo doanh thu bán hàng cho tháng tới.
4. Trong Học máy, tập kiểm tra (test set) được sử dụng để làm gì?
A. Để huấn luyện mô hình.
B. Để tinh chỉnh các siêu tham số (hyperparameters) của mô hình.
C. Để đánh giá hiệu suất của mô hình đã huấn luyện trên dữ liệu chưa từng thấy.
D. Để khám phá các mẫu ẩn trong dữ liệu.
5. Mục tiêu của việc trích xuất đặc trưng (Feature Extraction) trong Học máy là gì?
A. Tăng số lượng đặc trưng để làm mô hình phức tạp hơn.
B. Tạo ra các đặc trưng mới, có ý nghĩa hơn từ dữ liệu thô.
C. Loại bỏ hoàn toàn các đặc trưng không liên quan.
D. Huấn luyện mô hình mà không cần đặc trưng nào.
6. Mô hình Học máy quá đơn giản (underfitting) thường có đặc điểm gì?
A. Hiệu suất rất cao trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Hiệu suất kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
C. Hiệu suất cao trên dữ liệu kiểm tra nhưng kém trên dữ liệu huấn luyện.
D. Hiệu suất cao trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
7. Đâu là một ví dụ về Học có giám sát?
A. Tìm các nhóm khách hàng có hành vi mua sắm tương tự.
B. Học cách chơi cờ vua bằng cách thử và sai.
C. Phân loại hình ảnh thành các loại vật thể khác nhau.
D. Tự động sắp xếp các bài báo thành các chủ đề.
8. Trong lĩnh vực Học máy, thuật ngữ Học có giám sát (Supervised Learning) đề cập đến loại hình học nào?
A. Học máy sử dụng dữ liệu không có nhãn để tìm ra các mẫu ẩn.
B. Học máy sử dụng dữ liệu có nhãn để dự đoán kết quả hoặc phân loại.
C. Học máy học cách hành động thông qua thử và sai để đạt được mục tiêu.
D. Học máy tập trung vào việc tìm kiếm cấu trúc trong dữ liệu không có nhãn.
9. Thuật ngữ Học tăng cường (Reinforcement Learning) mô tả phương pháp học máy nào?
A. Học từ dữ liệu đã được gán nhãn chính xác.
B. Học cách đưa ra chuỗi quyết định để tối đa hóa phần thưởng.
C. Tìm kiếm các mẫu và cấu trúc ẩn trong dữ liệu không có nhãn.
D. Giảm số chiều của dữ liệu mà vẫn giữ được thông tin quan trọng.
10. Thuật ngữ môi trường (environment) trong Học tăng cường (Reinforcement Learning) là gì?
A. Chỉ các thuật toán được sử dụng.
B. Thế giới hoặc bối cảnh mà tác tử hoạt động và tương tác.
C. Tập dữ liệu được sử dụng để huấn luyện.
D. Phần thưởng mà tác tử nhận được.
11. Trong Học máy, tập huấn luyện (training set) dùng để làm gì?
A. Đánh giá cuối cùng về hiệu suất mô hình.
B. Để tìm ra các mẫu và quy luật mà mô hình sẽ học.
C. Để kiểm tra xem mô hình có bị quá khớp hay không.
D. Để khám phá các đặc trưng mới.
12. Trong phân loại văn bản, việc xác định xem một email là quan trọng hay không quan trọng thuộc về loại bài toán nào?
A. Hồi quy (Regression).
B. Phân loại (Classification).
C. Gom cụm (Clustering).
D. Giảm chiều dữ liệu (Dimensionality Reduction).
13. Mục đích của tinh chỉnh siêu tham số (Hyperparameter Tuning) là gì?
A. Để tăng tốc độ huấn luyện mô hình.
B. Để tìm ra các giá trị tốt nhất cho các tham số không được học trực tiếp từ dữ liệu.
C. Để giảm số lượng đặc trưng trong dữ liệu.
D. Để quyết định thuật toán nào sẽ được sử dụng.
14. Yếu tố nào sau đây là nhãn (label) trong một tập dữ liệu Học máy có giám sát?
A. Các đặc trưng (features) mô tả đối tượng.
B. Kết quả hoặc giá trị mà mô hình cần dự đoán.
C. Mỗi điểm dữ liệu trong tập huấn luyện.
D. Thuật toán được sử dụng để huấn luyện mô hình.
15. Trong Học máy không giám sát (Unsupervised Learning), mục tiêu chính của thuật toán gom cụm (Clustering) là gì?
A. Dự đoán giá trị liên tục của một biến số.
B. Huấn luyện mô hình để đưa ra quyết định dựa trên phần thưởng.
C. Tổ chức các điểm dữ liệu thành các nhóm (cụm) tương tự nhau.
D. Xác định mối quan hệ giữa các biến đầu vào và biến đầu ra.
16. Mục tiêu của Giảm chiều dữ liệu (Dimensionality Reduction) là gì?
A. Tăng số lượng đặc trưng để tăng độ chính xác.
B. Biểu diễn dữ liệu trong không gian có số chiều ít hơn, giữ lại thông tin quan trọng.
C. Loại bỏ hoàn toàn các điểm dữ liệu ngoại lai.
D. Tạo ra các nhãn mới cho dữ liệu.
17. Trong Học máy, đặc trưng (feature) là gì?
A. Kết quả cuối cùng của mô hình.
B. Các thuộc tính hoặc đặc điểm có thể đo lường của đối tượng dữ liệu.
C. Thuật toán được sử dụng để huấn luyện mô hình.
D. Tập dữ liệu dùng để kiểm tra mô hình.
18. Thuật toán K-Means thuộc nhóm phương pháp nào trong Học máy?
A. Học có giám sát.
B. Học không giám sát.
C. Học tăng cường.
D. Học sâu (Deep Learning).
19. Mục tiêu chính của Học bán giám sát (Semi-supervised Learning) là gì?
A. Chỉ sử dụng dữ liệu không có nhãn.
B. Chỉ sử dụng dữ liệu có nhãn.
C. Kết hợp cả dữ liệu có nhãn và dữ liệu không có nhãn để huấn luyện.
D. Học dựa trên tương tác với môi trường.
20. Trong Học máy, overfitting (quá khớp) xảy ra khi nào?
A. Mô hình quá đơn giản, không nắm bắt được xu hướng của dữ liệu.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
C. Mô hình không học được gì từ dữ liệu huấn luyện.
D. Dữ liệu huấn luyện không đủ.
21. Đâu là một thuật toán Học tăng cường (Reinforcement Learning) nổi tiếng?
A. Hồi quy tuyến tính.
B. K-Means.
C. Deep Q-Network (DQN).
D. Phân tích thành phần chính (PCA).
22. Thuật ngữ tác tử (agent) trong Học tăng cường (Reinforcement Learning) đề cập đến đối tượng nào?
A. Môi trường mà tác tử tương tác.
B. Hệ thống phần thưởng hoặc hình phạt.
C. Thực thể học hỏi và đưa ra quyết định.
D. Tập dữ liệu huấn luyện.
23. Đâu là một ví dụ về bài toán Hồi quy (Regression) trong Học máy?
A. Phân loại thư rác.
B. Nhận diện khuôn mặt.
C. Dự đoán nhiệt độ ngày mai.
D. Phân nhóm khách hàng.
24. Đâu là một thuật toán phân cụm (Clustering) phổ biến?
A. Hồi quy tuyến tính.
B. Cây quyết định.
C. K-Means.
D. Hồi quy Logistic.
25. Thuật toán nào sau đây thường được sử dụng cho bài toán Hồi quy (Regression)?
A. K-Means.
B. Cây quyết định (Decision Tree) cho phân loại.
C. Hồi quy tuyến tính (Linear Regression).
D. K-Nearest Neighbors (KNN) cho phân loại.