1. Phương pháp 'Clustering′ (Phân cụm) thường được sử dụng trong trường hợp nào?
A. Khi có dữ liệu đã gán nhãn và muốn dự đoán nhãn cho dữ liệu mới.
B. Khi muốn tìm cấu trúc ẩn hoặc nhóm tự nhiên trong dữ liệu không gán nhãn.
C. Khi muốn dự đoán một giá trị liên tục dựa trên dữ liệu đã gán nhãn.
D. Khi muốn tối ưu hóa hành động của một agent trong môi trường.
2. Điều gì KHÔNG phải là một lợi ích chính của việc sử dụng học máy?
A. Tự động hóa các quyết định phức tạp.
B. Khả năng xử lý lượng lớn dữ liệu.
C. Loại bỏ hoàn toàn nhu cầu lập trình.
D. Cải thiện độ chính xác và hiệu quả trong nhiều tác vụ.
3. Loại học máy nào chủ yếu dựa vào dữ liệu 'đã gán nhãn′ (labeled data) để huấn luyện?
A. Học tăng cường (Reinforcement Learning)
B. Học không giám sát (Unsupervised Learning)
C. Học bán giám sát (Semi-supervised Learning)
D. Học có giám sát (Supervised Learning)
4. Độ đo 'Recall′ (Độ phủ) trong đánh giá mô hình phân loại được tính như thế nào?
A. Số lượng dự đoán đúng trên tổng số điểm dữ liệu.
B. Số lượng dự đoán dương tính đúng trên tổng số điểm dữ liệu thực tế là dương tính.
C. Số lượng dự đoán dương tính đúng trên tổng số điểm dữ liệu được dự đoán là dương tính.
D. Số lượng dự đoán âm tính đúng trên tổng số điểm dữ liệu thực tế là âm tính.
5. Trong học sâu (Deep Learning), 'backpropagation′ (lan truyền ngược) là thuật toán để làm gì?
A. Dự đoán đầu ra của mạng nơ-ron.
B. Tính toán độ lỗi (loss) của mạng nơ-ron.
C. Cập nhật trọng số (weights) của mạng nơ-ron để giảm thiểu độ lỗi.
D. Chuẩn hóa dữ liệu đầu vào.
6. Thuật toán 'K-Means′ được sử dụng chủ yếu cho loại bài toán học máy nào?
A. Phân loại (Classification)
B. Hồi quy (Regression)
C. Phân cụm (Clustering)
D. Giảm chiều dữ liệu (Dimensionality Reduction)
7. Trong thuật toán Gradient Descent, 'learning rate′ (tốc độ học) ảnh hưởng đến quá trình huấn luyện như thế nào?
A. Xác định số lượng epochs cần thiết để huấn luyện.
B. Kiểm soát kích thước batch dữ liệu huấn luyện.
C. Quyết định bước nhảy kích thước trong không gian tham số để tìm cực tiểu của hàm mất mát.
D. Điều chỉnh độ phức tạp của mô hình.
8. Đâu là định nghĩa chính xác nhất về Học máy (Machine Learning)?
A. Một lĩnh vực khoa học máy tính tập trung vào việc viết code để máy tính thực hiện các tác vụ cụ thể.
B. Một phương pháp thống kê để phân tích dữ liệu và rút ra kết luận.
C. Một lĩnh vực cho phép máy tính học hỏi từ dữ liệu mà không cần được lập trình một cách rõ ràng.
D. Một công cụ phần mềm để tự động hóa các quy trình kinh doanh.
9. Đâu là một độ đo KHÔNG thường được sử dụng để đánh giá mô hình hồi quy?
A. Mean Squared Error (MSE).
B. Root Mean Squared Error (RMSE).
C. Accuracy (Độ chính xác).
D. Mean Absolute Error (MAE).
10. Khái niệm 'Ensemble Learning′ (Học tập kết hợp) đề cập đến điều gì?
A. Việc huấn luyện mô hình trên toàn bộ tập dữ liệu.
B. Việc kết hợp nhiều mô hình học máy khác nhau để cải thiện hiệu suất.
C. Việc sử dụng một mô hình duy nhất có độ phức tạp cao.
D. Việc chia dữ liệu thành nhiều phần để huấn luyện song song.
11. Điều gì KHÔNG phải là một loại dữ liệu đầu vào phổ biến cho các thuật toán học máy?
A. Dữ liệu dạng bảng (tabular data).
B. Dữ liệu hình ảnh (image data).
C. Dữ liệu âm thanh (audio data).
D. Dữ liệu mùi hương (scent data).
12. Trong học tăng cường (Reinforcement Learning), 'agent′ (tác nhân) học hỏi thông qua tương tác với môi trường như thế nào?
A. Bằng cách được cung cấp dữ liệu đã gán nhãn.
B. Bằng cách phân cụm dữ liệu không gán nhãn.
C. Bằng cách nhận phần thưởng hoặc hình phạt dựa trên hành động của mình.
D. Bằng cách giảm chiều dữ liệu đầu vào.
13. Điều gì KHÔNG phải là một thách thức thường gặp trong học máy?
A. Thiếu dữ liệu huấn luyện chất lượng cao.
B. Khả năng diễn giải mô hình (interpretability) kém.
C. Chi phí tính toán quá cao.
D. Luôn tìm được mô hình hoàn hảo cho mọi bài toán.
14. Thuật toán 'Naive Bayes′ dựa trên giả định nào?
A. Các thuộc tính đầu vào độc lập với nhau.
B. Dữ liệu tuân theo phân phối chuẩn.
C. Mô hình là tuyến tính.
D. Dữ liệu có cấu trúc cây.
15. Trong mạng nơ-ron (Neural Networks), hàm kích hoạt (activation function) có vai trò gì?
A. Tối ưu hóa trọng số (weights) của mạng nơ-ron.
B. Giới thiệu tính phi tuyến (non-linearity) vào mạng nơ-ron.
C. Chuẩn hóa dữ liệu đầu vào.
D. Tính toán độ lỗi (loss) của mạng nơ-ron.
16. Thuật toán 'Support Vector Machine′ (SVM) hoạt động dựa trên nguyên tắc nào?
A. Tìm đường biên quyết định tuyến tính tối ưu để phân tách các lớp.
B. Phân tích xác suất để dự đoán lớp có khả năng cao nhất.
C. Phân cụm dữ liệu thành các nhóm dựa trên khoảng cách.
D. Xây dựng cây quyết định dựa trên các thuộc tính của dữ liệu.
17. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu?
A. Hồi quy Logistic (Logistic Regression)
B. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN)
C. Phân tích thành phần chính (Principal Component Analysis - PCA)
D. Thuật toán K-láng giềng gần nhất (K-Nearest Neighbors - KNN)
18. Bias-Variance Tradeoff trong học máy đề cập đến điều gì?
A. Sự đánh đổi giữa tốc độ huấn luyện và độ chính xác của mô hình.
B. Sự đánh đổi giữa khả năng khái quát hóa (generalization) và độ phức tạp của mô hình.
C. Sự đánh đổi giữa dung lượng bộ nhớ và thời gian tính toán cần thiết.
D. Sự đánh đổi giữa độ chính xác trên dữ liệu huấn luyện và dữ liệu kiểm tra.
19. Phương pháp 'Regularization′ (Chính quy hóa) thường được sử dụng để giải quyết vấn đề gì trong học máy?
A. Underfitting (Thiếu khớp).
B. Overfitting (Quá khớp).
C. Dữ liệu bị nhiễu.
D. Tính toán chậm.
20. Phương pháp 'Cross-validation′ (Kiểm định chéo) được sử dụng để làm gì trong học máy?
A. Tăng tốc độ huấn luyện mô hình.
B. Ước lượng khả năng khái quát hóa của mô hình trên dữ liệu mới.
C. Giảm kích thước dữ liệu huấn luyện.
D. Chọn thuật toán học máy phù hợp nhất.
21. Trong học máy, 'overfitting′ (quá khớp) thường xảy ra khi nào?
A. Mô hình quá đơn giản và không thể nắm bắt được các mối quan hệ phức tạp trong dữ liệu.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém hiệu quả trên dữ liệu mới.
C. Dữ liệu huấn luyện quá ít so với độ phức tạp của mô hình.
D. Tất cả các đáp án trên.
22. Phương pháp nào sau đây KHÔNG thuộc về học không giám sát?
A. Phân cụm (Clustering)
B. Giảm chiều dữ liệu (Dimensionality Reduction)
C. Hồi quy tuyến tính (Linear Regression)
D. Phân tích thành phần chính (Principal Component Analysis - PCA)
23. Trong 'Feature Engineering′ (Kỹ thuật đặc trưng), mục tiêu chính là gì?
A. Chọn thuật toán học máy tốt nhất.
B. Tối ưu hóa siêu tham số của mô hình.
C. Biến đổi và chọn lọc các thuộc tính đầu vào để cải thiện hiệu suất mô hình.
D. Giảm kích thước dữ liệu huấn luyện.
24. Trong ngữ cảnh xử lý ngôn ngữ tự nhiên (NLP), 'word embedding′ (nhúng từ) có vai trò gì?
A. Phân tích cấu trúc ngữ pháp của câu.
B. Biểu diễn từ ngữ thành các vector số học để máy tính có thể xử lý.
C. Tách từ trong văn bản thành các đơn vị nhỏ hơn.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
25. Trong ngữ cảnh đánh giá mô hình phân loại, độ đo 'Precision′ (Độ chính xác) được tính như thế nào?
A. Số lượng dự đoán đúng trên tổng số điểm dữ liệu.
B. Số lượng dự đoán dương tính đúng trên tổng số điểm dữ liệu thực tế là dương tính.
C. Số lượng dự đoán dương tính đúng trên tổng số điểm dữ liệu được dự đoán là dương tính.
D. Số lượng dự đoán âm tính đúng trên tổng số điểm dữ liệu thực tế là âm tính.
26. Trong mô hình cây quyết định (Decision Tree), 'entropy′ (entropy) được sử dụng để làm gì?
A. Đo lường độ chính xác của mô hình.
B. Đo lường độ tinh khiết của một tập hợp dữ liệu.
C. Xác định độ phức tạp của cây quyết định.
D. Tính toán độ tương đồng giữa các điểm dữ liệu.
27. Mục tiêu chính của việc 'tối ưu hóa siêu tham số' (hyperparameter tuning) trong học máy là gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Chọn các giá trị siêu tham số tốt nhất để mô hình đạt hiệu suất cao nhất.
C. Giảm độ phức tạp của mô hình.
D. Cải thiện khả năng diễn giải của mô hình.
28. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của học máy?
A. Hệ thống đề xuất sản phẩm.
B. Phần mềm soạn thảo văn bản.
C. Xe tự lái.
D. Nhận dạng khuôn mặt.
29. Trong mạng nơ-ron tích chập (CNN), lớp 'pooling′ (gộp nhóm) có tác dụng gì?
A. Tăng độ phức tạp của mô hình.
B. Giảm chiều không gian của đặc trưng và tăng tính bất biến vị trí.
C. Thêm tính phi tuyến vào mô hình.
D. Chuẩn hóa dữ liệu đầu vào.
30. Trong mô hình Hồi quy Logistic (Logistic Regression), hàm số nào được sử dụng để chuyển đổi đầu ra tuyến tính thành xác suất?
A. Hàm ReLU.
B. Hàm Sigmoid.
C. Hàm TanH.
D. Hàm tuyến tính.