1. Phương pháp 'dimensionality reduction′ (giảm chiều dữ liệu) có mục đích gì?
A. Tăng độ chính xác của mô hình.
B. Giảm số lượng features trong dữ liệu, giúp giảm độ phức tạp tính toán và có thể cải thiện hiệu suất mô hình.
C. Tăng kích thước tập dữ liệu.
D. Chuẩn hóa dữ liệu.
2. Mô hình Markov Hidden (HMM) thường được sử dụng trong lĩnh vực nào?
A. Thị giác máy tính (Computer Vision).
B. Xử lý ngôn ngữ tự nhiên (Natural Language Processing) và nhận dạng tiếng nói (Speech Recognition).
C. Hệ thống đề xuất (Recommender Systems).
D. Phân tích dữ liệu bảng (Tabular Data Analysis).
3. Phương pháp 'cross-validation′ (kiểm định chéo) được sử dụng để làm gì?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Đánh giá mô hình một cách ổn định hơn bằng cách sử dụng nhiều phần dữ liệu khác nhau làm tập kiểm tra.
C. Giảm overfitting.
D. Tăng tốc độ huấn luyện mô hình.
4. Trong học tăng cường (Reinforcement Learning), 'agent′ (tác nhân) học hỏi thông qua tương tác với môi trường và nhận được tín hiệu gì?
A. Nhãn dữ liệu (Labels).
B. Phần thưởng (Rewards) hoặc hình phạt (Penalties).
C. Dữ liệu huấn luyện đã được gán nhãn.
D. Gradient của hàm mất mát.
5. Học máy (Machine Learning) là gì?
A. Một lĩnh vực của khoa học máy tính cho phép máy tính học hỏi từ dữ liệu mà không cần được lập trình rõ ràng.
B. Một phương pháp lập trình tuyến tính để giải quyết các bài toán phức tạp.
C. Một kỹ thuật nén dữ liệu hiệu quả.
D. Một công cụ để tạo ra các trò chơi điện tử.
6. Nguyên tắc 'Occam′s Razor′ trong học máy khuyến khích điều gì khi lựa chọn mô hình?
A. Chọn mô hình phức tạp nhất để đạt độ chính xác cao nhất.
B. Chọn mô hình đơn giản nhất có thể giải thích dữ liệu tốt.
C. Chọn mô hình có thời gian huấn luyện nhanh nhất.
D. Chọn mô hình sử dụng nhiều dữ liệu nhất.
7. Trong thuật toán cây quyết định (Decision Tree), thuộc tính nào được chọn làm nút gốc (root node) thường dựa trên tiêu chí nào?
A. Thuộc tính có ít giá trị nhất.
B. Thuộc tính có nhiều giá trị nhất.
C. Thuộc tính có độ lợi thông tin (information gain) cao nhất.
D. Thuộc tính có độ lợi thông tin (information gain) thấp nhất.
8. Mục tiêu của 'feature scaling′ (tỷ lệ hóa đặc trưng) trong tiền xử lý dữ liệu là gì?
A. Tăng số lượng đặc trưng trong dữ liệu.
B. Đảm bảo các đặc trưng có khoảng giá trị tương đương nhau, giúp các thuật toán học hiệu quả hơn.
C. Loại bỏ các đặc trưng không quan trọng.
D. Thay đổi kiểu dữ liệu của các đặc trưng.
9. ROC curve (đường cong ROC) và AUC (Area Under the Curve) được sử dụng để đánh giá hiệu suất của mô hình nào?
A. Mô hình hồi quy (Regression models).
B. Mô hình phân cụm (Clustering models).
C. Mô hình phân loại nhị phân (Binary classification models).
D. Mô hình giảm chiều dữ liệu (Dimensionality reduction models).
10. Gradient Descent là thuật toán tối ưu hóa được sử dụng phổ biến trong học máy để làm gì?
A. Chọn features quan trọng nhất.
B. Tìm giá trị tham số (parameters) của mô hình sao cho hàm mất mát (loss function) đạt giá trị nhỏ nhất.
C. Đánh giá hiệu suất của mô hình.
D. Phân cụm dữ liệu.
11. Độ đo nào sau đây thường được sử dụng để đánh giá hiệu suất của mô hình phân loại?
A. RMSE (Root Mean Squared Error)
B. MAE (Mean Absolute Error)
C. Accuracy (Độ chính xác)
D. MSE (Mean Squared Error)
12. Khái niệm 'ensemble learning′ (học kết hợp) là gì?
A. Huấn luyện một mô hình học máy duy nhất.
B. Kết hợp dự đoán của nhiều mô hình học máy khác nhau để cải thiện hiệu suất tổng thể.
C. Chia nhỏ dữ liệu huấn luyện thành nhiều phần nhỏ.
D. Sử dụng một thuật toán học máy duy nhất trên nhiều tập dữ liệu khác nhau.
13. Trong học máy, 'precision′ (độ chính xác dương) được định nghĩa là gì?
A. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế là dương tính.
B. Tỷ lệ dự đoán đúng trên tổng số mẫu dự đoán là dương tính.
C. Tỷ lệ dự đoán sai trên tổng số mẫu thực tế là âm tính.
D. Tỷ lệ dự đoán sai trên tổng số mẫu dự đoán là âm tính.
14. Phương pháp 'regularization′ (chính quy hóa) trong học máy nhằm mục đích gì?
A. Tăng độ phức tạp của mô hình.
B. Giảm độ phức tạp của mô hình và ngăn chặn overfitting.
C. Tăng tốc độ huấn luyện mô hình.
D. Cải thiện độ chính xác trên dữ liệu huấn luyện.
15. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của học máy?
A. Chẩn đoán bệnh tự động.
B. Dự báo thời tiết.
C. Phát triển vaccine phòng bệnh.
D. Hệ thống đề xuất sản phẩm.
16. Bias (thiên vị) trong dữ liệu huấn luyện có thể dẫn đến hậu quả gì trong mô hình học máy?
A. Mô hình hoạt động kém trên dữ liệu huấn luyện.
B. Mô hình hoạt động tốt hơn trên dữ liệu kiểm tra.
C. Mô hình đưa ra dự đoán thiên vị, không công bằng với một số nhóm đối tượng.
D. Mô hình huấn luyện nhanh hơn.
17. Trong xử lý ngôn ngữ tự nhiên (NLP), 'tokenization′ là quá trình gì?
A. Loại bỏ các từ dừng (stop words).
B. Chia văn bản thành các đơn vị nhỏ hơn, thường là từ hoặc cụm từ.
C. Chuyển đổi văn bản thành dạng số.
D. Phân tích cú pháp của câu.
18. Thuật toán Support Vector Machine (SVM) hoạt động dựa trên nguyên tắc chính nào?
A. Tìm đường biên quyết định (decision boundary) tối ưu hóa khoảng cách lề (margin) giữa các lớp.
B. Phân cụm dữ liệu dựa trên khoảng cách.
C. Xây dựng cây quyết định dựa trên độ lợi thông tin.
D. Tìm mối quan hệ tuyến tính giữa các biến.
19. Trong bài toán hồi quy (regression), độ đo nào sau đây thường được sử dụng để đánh giá hiệu suất?
A. Accuracy (Độ chính xác)
B. Precision (Độ chính xác dương)
C. Recall (Độ phủ)
D. RMSE (Root Mean Squared Error)
20. Trong các loại học máy sau, loại nào đòi hỏi dữ liệu đầu vào đã được gán nhãn?
A. Học không giám sát (Unsupervised learning)
B. Học tăng cường (Reinforcement learning)
C. Học bán giám sát (Semi-supervised learning)
D. Học có giám sát (Supervised learning)
21. Phương pháp 'dropout′ trong mạng nơ-ron sâu (Deep Neural Network) được sử dụng để làm gì?
A. Tăng tốc độ huấn luyện.
B. Chuẩn hóa dữ liệu đầu vào.
C. Ngăn chặn overfitting bằng cách ngẫu nhiên bỏ qua một số nơ-ron trong quá trình huấn luyện.
D. Tăng độ chính xác trên dữ liệu huấn luyện.
22. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) đặc biệt hiệu quả trong lĩnh vực nào?
A. Xử lý ngôn ngữ tự nhiên (Natural Language Processing).
B. Phân tích dữ liệu chuỗi thời gian (Time Series Data Analysis).
C. Thị giác máy tính (Computer Vision).
D. Học tăng cường (Reinforcement Learning).
23. Thuật toán K-means Clustering thuộc loại học máy nào?
A. Học có giám sát (Supervised learning)
B. Học tăng cường (Reinforcement learning)
C. Học không giám sát (Unsupervised learning)
D. Học bán giám sát (Semi-supervised learning)
24. Phương pháp nào sau đây thường được sử dụng để giảm thiểu hiện tượng 'quá khớp′ (overfitting)?
A. Tăng kích thước tập dữ liệu huấn luyện.
B. Giảm kích thước tập dữ liệu huấn luyện.
C. Tăng độ phức tạp của mô hình.
D. Sử dụng ít features hơn.
25. Hiện tượng 'quá khớp′ (overfitting) trong học máy xảy ra khi nào?
A. Mô hình hoạt động quá kém trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
B. Mô hình hoạt động tốt trên dữ liệu kiểm tra nhưng kém trên dữ liệu huấn luyện.
C. Mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.
D. Mô hình hoạt động tốt trên cả dữ liệu huấn luyện và dữ liệu kiểm tra.
26. Mục tiêu chính của việc chia tập dữ liệu thành tập huấn luyện (training set) và tập kiểm tra (test set) là gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá khả năng tổng quát hóa (generalization) của mô hình trên dữ liệu mới.
C. Giảm dung lượng bộ nhớ cần thiết để lưu trữ dữ liệu.
D. Cải thiện độ chính xác của dữ liệu huấn luyện.
27. Hàm kích hoạt (activation function) trong mạng nơ-ron nhân tạo (Artificial Neural Network) có vai trò gì?
A. Giảm tốc độ huấn luyện mạng.
B. Tăng độ tuyến tính của mạng.
C. Giới thiệu tính phi tuyến vào mạng, cho phép mô hình học các mối quan hệ phức tạp.
D. Chuẩn hóa dữ liệu đầu vào.
28. Thuật toán Random Forest là một ví dụ của phương pháp học kết hợp nào?
A. Boosting
B. Stacking
C. Bagging
D. Reinforcement Learning
29. Trong học sâu (Deep Learning), 'backpropagation′ là thuật toán dùng để làm gì?
A. Khởi tạo trọng số (weights) của mạng nơ-ron.
B. Tính toán độ chính xác của mô hình.
C. Cập nhật trọng số của mạng nơ-ron dựa trên gradient của hàm mất mát (loss function).
D. Chọn kiến trúc mạng nơ-ron tối ưu.
30. Trong học sâu, 'pooling layer′ (lớp gộp) thường được sử dụng sau lớp tích chập (convolutional layer) để làm gì?
A. Tăng độ phức tạp của mô hình.
B. Giảm chiều không gian của feature maps, giảm số lượng tham số và tăng tính bất biến vị trí.
C. Tăng chiều không gian của feature maps.
D. Thêm tính phi tuyến vào mô hình.