1. Trong Học máy, khái niệm Underfitting (học dưới) xảy ra khi nào?
A. Mô hình quá phức tạp và học quá sâu vào dữ liệu huấn luyện, dẫn đến hiệu suất kém trên dữ liệu mới.
B. Mô hình quá đơn giản, không nắm bắt được các mẫu hình cơ bản trong dữ liệu huấn luyện, dẫn đến hiệu suất kém trên cả dữ liệu huấn luyện và dữ liệu mới.
C. Mô hình học tốt trên dữ liệu huấn luyện nhưng lại có hiệu suất kém trên dữ liệu kiểm tra do quá khớp.
D. Dữ liệu huấn luyện bị sai lệch hoặc không đủ đại diện cho vấn đề cần giải quyết.
2. Đâu là một ví dụ về Học tăng cường (Reinforcement Learning)?
A. Phân loại email là thư rác hay không thư rác.
B. Dự đoán giá nhà dựa trên diện tích và vị trí.
C. Một robot học cách đi bộ bằng cách thử và sai, nhận phần thưởng khi di chuyển về phía trước.
D. Phân nhóm khách hàng dựa trên hành vi mua sắm.
3. Trong Học máy, khái niệm Hyperparameter (Siêu tham số) khác với Parameter (Tham số) ở điểm nào?
A. Tham số được học từ dữ liệu, còn siêu tham số được đặt trước khi huấn luyện và điều chỉnh thủ công hoặc tự động.
B. Siêu tham số là kết quả dự đoán của mô hình, còn tham số là dữ liệu đầu vào.
C. Tham số chỉ dùng cho học có giám sát, siêu tham số cho học không giám sát.
D. Không có sự khác biệt, hai thuật ngữ này có thể thay thế cho nhau.
4. Thuật toán K-Means Clustering thuộc loại hình Học máy nào?
A. Học có giám sát (Supervised Learning).
B. Học tăng cường (Reinforcement Learning).
C. Học không giám sát (Unsupervised Learning).
D. Học bán giám sát (Semi-supervised Learning).
5. Trong mạng Neuron, Backpropagation (Lan truyền ngược) là thuật toán dùng để:
A. Truyền dữ liệu đầu vào qua các lớp của mạng neuron.
B. Tính toán gradient của hàm mất mát theo từng tham số của mạng, sau đó sử dụng gradient này để cập nhật tham số.
C. Phân loại dữ liệu dựa trên các đặc trưng.
D. Giảm chiều dữ liệu bằng cách tìm các thành phần chính.
6. Thuật toán Gradient Descent (Giảm dần theo độ dốc) được sử dụng để làm gì trong quá trình huấn luyện mô hình Học máy?
A. Tăng tốc độ xử lý dữ liệu.
B. Tìm kiếm các tham số (weights) của mô hình sao cho hàm mất mát (loss function) đạt giá trị nhỏ nhất.
C. Phân loại dữ liệu thành các nhóm.
D. Giảm số chiều của dữ liệu.
7. Thuật toán Naive Bayes (Naive Bayes) thường được sử dụng cho bài toán nào?
A. Hồi quy tuyến tính.
B. Phân loại văn bản (ví dụ: phân loại email, phân tích cảm xúc).
C. Phân cụm khách hàng.
D. Dự đoán chuỗi thời gian.
8. Thuật toán Support Vector Machine (SVM) chủ yếu tìm cách tối ưu hóa điều gì?
A. Khoảng cách lớn nhất giữa các điểm dữ liệu và đường biên phân chia (hyperplane).
B. Số lượng mẫu huấn luyện được phân loại sai.
C. Độ phức tạp của mô hình.
D. Tốc độ dự đoán trên dữ liệu mới.
9. Kỹ thuật Regularization (Chuẩn hóa) trong Học máy được sử dụng để làm gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Giảm độ phức tạp của mô hình và ngăn chặn overfitting bằng cách thêm một hình phạt vào hàm mất mát dựa trên độ lớn của các tham số.
C. Tự động chọn đặc trưng tốt nhất.
D. Phân loại dữ liệu thành các nhóm.
10. Trong mạng Neuron (Neural Network), Activation Function (Hàm kích hoạt) có vai trò gì?
A. Xác định tốc độ học của mô hình.
B. Giới thiệu tính phi tuyến vào đầu ra của neuron, cho phép mạng học các mối quan hệ phức tạp.
C. Tính toán lỗi giữa dự đoán và giá trị thực tế.
D. Lưu trữ dữ liệu đầu vào.
11. Khái niệm Bias-Variance Tradeoff (Đánh đổi giữa sai lệch và phương sai) trong Học máy đề cập đến mối quan hệ giữa:
A. Tốc độ học và độ chính xác của mô hình.
B. Độ phức tạp của mô hình và khả năng tổng quát hóa của nó trên dữ liệu mới.
C. Số lượng đặc trưng và số lượng mẫu huấn luyện.
D. Tài nguyên tính toán và thời gian huấn luyện.
12. Trong ngữ cảnh Học máy, Data Augmentation (Tăng cường dữ liệu) là gì và tại sao lại quan trọng?
A. Là quá trình loại bỏ các đặc trưng không cần thiết để giảm kích thước dữ liệu.
B. Là kỹ thuật tạo ra các mẫu dữ liệu huấn luyện mới từ dữ liệu gốc bằng cách áp dụng các biến đổi (ví dụ: xoay, lật, thay đổi độ sáng), giúp tăng tính đa dạng và quy mô tập dữ liệu, từ đó cải thiện khả năng tổng quát hóa của mô hình.
C. Là việc thu thập thêm dữ liệu từ các nguồn bên ngoài.
D. Là quá trình làm sạch dữ liệu bằng cách loại bỏ các giá trị ngoại lai.
13. Trong bài toán Học máy có giám sát, Label (Nhãn) là gì?
A. Một đặc trưng (feature) mô tả dữ liệu.
B. Giá trị đầu ra hoặc kết quả đúng mà mô hình cần dự đoán.
C. Một siêu tham số của mô hình.
D. Dữ liệu huấn luyện được sử dụng để đào tạo mô hình.
14. Khái niệm Overfitting (học quá khớp) trong Học máy mô tả tình huống nào?
A. Mô hình quá đơn giản, không học được quy luật từ dữ liệu.
B. Mô hình học quá tốt trên dữ liệu huấn luyện, bao gồm cả nhiễu, dẫn đến hiệu suất kém trên dữ liệu mới chưa từng thấy.
C. Mô hình yêu cầu quá nhiều tài nguyên tính toán để huấn luyện.
D. Dữ liệu huấn luyện có quá ít đặc trưng.
15. Phương pháp Cross-validation (Kiểm định chéo) được sử dụng để làm gì trong Học máy?
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá hiệu suất tổng quát hóa của mô hình một cách đáng tin cậy hơn, giảm thiểu ảnh hưởng của cách chia dữ liệu ngẫu nhiên.
C. Giảm số lượng đặc trưng cần thiết cho mô hình.
D. Tự động tìm kiếm siêu tham số tốt nhất.
16. Trong các kỹ thuật Học máy, Feature Engineering (Kỹ thuật đặc trưng) đóng vai trò quan trọng vì lý do gì?
A. Nó tự động hóa hoàn toàn quá trình chọn mô hình phù hợp nhất cho bài toán.
B. Nó giúp biến đổi dữ liệu thô thành các đặc trưng (features) hữu ích và mang tính dự báo cao hơn cho mô hình Học máy.
C. Nó chỉ đơn thuần là việc làm sạch dữ liệu bị thiếu hoặc sai lệch.
D. Mục đích chính là để giảm số lượng mẫu dữ liệu huấn luyện.
17. Trong Học máy, Precision (Độ chính xác) và Recall (Độ phủ) là hai chỉ số quan trọng để đánh giá mô hình phân loại. Nếu một mô hình có Precision cao nhưng Recall thấp, điều đó có nghĩa là gì?
A. Mô hình dự đoán đúng hầu hết các trường hợp dương tính thực và bỏ sót ít trường hợp dương tính giả.
B. Mô hình dự đoán đúng hầu hết các trường hợp dương tính thực, nhưng cũng dự đoán sai nhiều trường hợp âm tính thành dương tính.
C. Mô hình dự đoán đúng hầu hết các trường hợp dương tính thực, nhưng bỏ sót nhiều trường hợp dương tính thực.
D. Mô hình dự đoán sai hầu hết các trường hợp, cả dương tính lẫn âm tính.
18. Trong Học máy có giám sát, đâu là mục tiêu chính của bài toán Phân loại (Classification)?
A. Dự đoán một giá trị liên tục dựa trên các đặc trưng đầu vào.
B. Gán nhãn hoặc danh mục rời rạc cho dữ liệu đầu vào.
C. Tìm kiếm các mẫu hoặc cấu trúc ẩn trong dữ liệu không có nhãn.
D. Tối ưu hóa một chuỗi các hành động để đạt được phần thưởng.
19. Trong Học máy, Feature Selection (Chọn đặc trưng) có mục đích chính là gì?
A. Tăng số lượng đặc trưng để mô hình học tốt hơn.
B. Giảm số lượng đặc trưng bằng cách loại bỏ những đặc trưng không quan trọng hoặc dư thừa, nhằm cải thiện hiệu suất, giảm thời gian huấn luyện và tránh overfitting.
C. Tự động tạo ra các đặc trưng mới từ dữ liệu gốc.
D. Chuẩn hóa tất cả các đặc trưng về cùng một thang đo.
20. Kỹ thuật Bagging (Bootstrap Aggregating) trong Học máy thường được áp dụng để cải thiện điều gì của mô hình?
A. Tăng tốc độ hội tụ của mô hình.
B. Giảm phương sai (variance) và hạn chế overfitting.
C. Tăng khả năng diễn giải của mô hình.
D. Tìm kiếm đặc trưng tốt nhất.
21. Đâu là ví dụ về kỹ thuật Dimensionality Reduction (Giảm chiều dữ liệu)?
A. Xây dựng mạng Neuron sâu.
B. Áp dụng thuật toán PCA (Principal Component Analysis) để tìm các thành phần chính của dữ liệu.
C. Sử dụng thuật toán K-Means để phân cụm.
D. Huấn luyện mô hình Cây quyết định.
22. Đâu là đặc điểm chính của thuật toán Decision Tree (Cây quyết định) trong Học máy?
A. Sử dụng các phép toán tuyến tính để phân loại dữ liệu, thích hợp cho các bài toán phân cụm.
B. Xây dựng một cấu trúc cây, trong đó mỗi nút lá biểu diễn một nhãn lớp và mỗi nút bên trong biểu diễn một thuộc tính (feature) để phân chia dữ liệu.
C. Dựa trên khoảng cách giữa các điểm dữ liệu để phân cụm chúng thành các nhóm.
D. Sử dụng kỹ thuật lan truyền ngược để điều chỉnh trọng số trong mạng neuron.
23. Thuật toán Random Forest (Rừng ngẫu nhiên) là một dạng của:
A. Học có giám sát, sử dụng kỹ thuật Ensemble bằng cách kết hợp nhiều Cây quyết định.
B. Học không giám sát, dùng để phân cụm dữ liệu.
C. Học tăng cường, tập trung vào việc học chuỗi hành động.
D. Học bán giám sát, kết hợp dữ liệu có nhãn và không nhãn.
24. Trong bài toán phân loại, Confusion Matrix (Ma trận nhầm lẫn) cung cấp thông tin gì?
A. Tổng số mẫu dữ liệu được sử dụng trong bài toán.
B. Hiệu suất tổng thể của mô hình dưới dạng một con số duy nhất (ví dụ: Accuracy).
C. Chi tiết về số lượng dự đoán đúng và sai cho mỗi lớp, bao gồm True Positives, True Negatives, False Positives, và False Negatives.
D. Độ phức tạp của mô hình và số lượng tham số.
25. Thuật toán Linear Regression (Hồi quy tuyến tính) được sử dụng chủ yếu cho loại bài toán Học máy nào?
A. Phân loại (Classification).
B. Phân cụm (Clustering).
C. Dự đoán giá trị liên tục (Regression).
D. Giảm chiều dữ liệu (Dimensionality Reduction).