1. Khi nào thì việc sử dụng mô hình học máy phức tạp (ví dụ: mạng nơ-ron sâu) là phù hợp hơn so với mô hình đơn giản (ví dụ: hồi quy tuyến tính)?
A. Khi dữ liệu huấn luyện nhỏ và ít nhiễu.
B. Khi cần tốc độ dự đoán nhanh và khả năng giải thích cao.
C. Khi bài toán có độ phức tạp cao và dữ liệu có cấu trúc phi tuyến tính.
D. Khi mục tiêu là giảm thiểu overfitting một cách tuyệt đối.
2. Phương pháp 'cross-validation′ (kiểm định chéo) được sử dụng để làm gì trong quá trình xây dựng mô hình học máy?
A. Tăng cường độ chính xác của mô hình trên tập huấn luyện.
B. Ước lượng hiệu năng của mô hình một cách khách quan và ổn định hơn.
C. Giảm thiểu thời gian huấn luyện mô hình.
D. Chọn lọc đặc trưng quan trọng nhất cho mô hình.
3. Trong bài toán 'phát hiện dị thường′ (anomaly detection), mục tiêu chính là gì?
A. Phân loại dữ liệu thành các nhóm khác nhau.
B. Dự đoán giá trị của một biến mục tiêu liên tục.
C. Xác định các điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu còn lại.
D. Giảm chiều dữ liệu để dễ dàng hình dung và phân tích.
4. Thuật toán 'K-Nearest Neighbors′ (KNN) thuộc loại học máy nào?
A. Học có giám sát (Supervised learning).
B. Học không giám sát (Unsupervised learning).
C. Học bán giám sát (Semi-supervised learning).
D. Học tăng cường (Reinforcement learning).
5. Trong học máy, 'hyperparameter tuning′ (tinh chỉnh siêu tham số) là quá trình gì?
A. Huấn luyện mô hình trên toàn bộ tập dữ liệu.
B. Lựa chọn các giá trị tối ưu cho các tham số của mô hình trong quá trình huấn luyện.
C. Lựa chọn các giá trị tối ưu cho các tham số bên ngoài mô hình, ảnh hưởng đến quá trình huấn luyện.
D. Đánh giá hiệu năng của mô hình trên tập kiểm tra.
6. Trong mạng nơ-ron, 'dropout′ là một kỹ thuật chính quy hóa nhằm mục đích gì?
A. Tăng tốc độ huấn luyện mạng nơ-ron.
B. Giảm overfitting bằng cách ngẫu nhiên bỏ qua một số nơ-ron trong quá trình huấn luyện.
C. Tăng độ chính xác của mô hình trên tập huấn luyện.
D. Giảm số lượng tham số của mạng nơ-ron.
7. Độ đo 'F1-score′ là trung bình điều hòa của độ đo nào trong đánh giá mô hình phân loại?
A. Độ chính xác (accuracy) và độ bao phủ (recall).
B. Độ chính xác (precision) và độ bao phủ (recall).
C. Độ chính xác (precision) và độ đo F2-score.
D. Độ chính xác (accuracy) và độ đo F2-score.
8. Trong học máy, 'validation set′ (tập xác thực) được sử dụng với mục đích chính nào trong quá trình huấn luyện mô hình?
A. Đánh giá hiệu năng cuối cùng của mô hình sau khi huấn luyện.
B. Lựa chọn mô hình tốt nhất hoặc tinh chỉnh siêu tham số trong quá trình huấn luyện.
C. Huấn luyện mô hình trên toàn bộ dữ liệu sau khi đã chọn được siêu tham số.
D. Chia dữ liệu thành các phần nhỏ hơn để tăng tốc độ huấn luyện.
9. Phương pháp nào sau đây thuộc về nhóm thuật toán học không giám sát?
A. Hồi quy tuyến tính (Linear Regression).
B. Cây quyết định (Decision Tree).
C. K-means clustering.
D. Máy vector hỗ trợ (Support Vector Machine).
10. Trong học máy, 'feature scaling′ (tỉ lệ đặc trưng) thường được áp dụng trước khi huấn luyện mô hình, đặc biệt là với các thuật toán nào?
A. Cây quyết định (Decision Tree) và Rừng ngẫu nhiên (Random Forest).
B. K-means clustering và Máy vector hỗ trợ (Support Vector Machine).
C. Naive Bayes và Hồi quy Logistic (Logistic Regression).
D. Mạng nơ-ron (Neural Networks) và Phân tích thành phần chính (PCA).
11. Hàm kích hoạt 'ReLU′ (Rectified Linear Unit) thường được sử dụng trong mạng nơ-ron sâu vì ưu điểm chính nào?
A. Loại bỏ hoàn toàn hiện tượng vanishing gradient.
B. Tính toán phức tạp hơn, giúp mô hình biểu diễn tốt hơn.
C. Giảm thiểu vấn đề vanishing gradient và tính toán đơn giản, nhanh chóng.
D. Đảm bảo tính tuyến tính của toàn bộ mạng nơ-ron.
12. Thuật toán học máy nào sau đây thường được sử dụng để giải quyết bài toán phân loại nhị phân (binary classification)?
A. Hồi quy tuyến tính (Linear Regression).
B. K-Nearest Neighbors (KNN).
C. K-means clustering.
D. Phân tích thành phần chính (PCA).
13. Trong học máy, 'bootstrapping′ là phương pháp lấy mẫu lại (resampling) thường được sử dụng trong kỹ thuật nào?
A. Phân tích thành phần chính (PCA).
B. K-means clustering.
C. Rừng ngẫu nhiên (Random Forest).
D. Hồi quy tuyến tính (Linear Regression).
14. Trong học máy, 'label encoding′ (mã hóa nhãn) và 'one-hot encoding′ khác nhau như thế nào trong việc xử lý dữ liệu phân loại?
A. Label encoding tạo ra nhiều cột nhị phân, one-hot encoding tạo ra một cột số.
B. Label encoding gán số nguyên cho mỗi danh mục, one-hot encoding tạo ra cột nhị phân cho mỗi danh mục.
C. Label encoding dùng cho dữ liệu số, one-hot encoding dùng cho dữ liệu văn bản.
D. Label encoding và one-hot encoding là hai tên gọi khác nhau của cùng một phương pháp.
15. Mô hình học máy nào sau đây có khả năng nội tại giải thích được quyết định của mình (interpretability)?
A. Mạng nơ-ron sâu (Deep Neural Networks).
B. Máy vector hỗ trợ (Support Vector Machine) với kernel RBF.
C. Cây quyết định (Decision Tree).
D. Gradient Boosting Machines.
16. Thuật toán 'Gradient Descent′ được sử dụng phổ biến trong học máy với mục đích chính là gì?
A. Tìm kiếm đặc trưng quan trọng nhất trong dữ liệu.
B. Giảm thiểu hàm mất mát (loss function) để tối ưu hóa mô hình.
C. Phân cụm dữ liệu thành các nhóm có ý nghĩa.
D. Dự đoán giá trị liên tục từ dữ liệu đầu vào.
17. Trong học máy, thuật ngữ 'học có giám sát′ (supervised learning) đề cập đến phương pháp học dựa trên loại dữ liệu nào?
A. Dữ liệu không có nhãn (unlabeled data).
B. Dữ liệu có nhãn (labeled data).
C. Dữ liệu bán cấu trúc (semi-structured data).
D. Dữ liệu thời gian thực (real-time data).
18. Phương pháp 'ensemble learning′ (học kết hợp) như Random Forest hay Gradient Boosting hoạt động dựa trên nguyên tắc nào?
A. Sử dụng một mô hình phức tạp duy nhất.
B. Kết hợp dự đoán của nhiều mô hình yếu (weak learners) để tạo ra mô hình mạnh hơn.
C. Chia nhỏ dữ liệu thành nhiều phần và huấn luyện mô hình riêng trên mỗi phần.
D. Tự động lựa chọn thuật toán học máy tốt nhất cho bài toán.
19. Kỹ thuật 'data augmentation′ (tăng cường dữ liệu) thường được sử dụng trong thị giác máy tính để làm gì?
A. Giảm kích thước ảnh để tiết kiệm bộ nhớ.
B. Tạo thêm dữ liệu huấn luyện bằng cách biến đổi ảnh hiện có.
C. Chuẩn hóa giá trị pixel của ảnh.
D. Nén ảnh để tăng tốc độ truyền tải.
20. Mục tiêu chính của việc chia tập dữ liệu thành tập huấn luyện (training set) và tập kiểm tra (testing set) trong học máy là gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Đánh giá hiệu năng của mô hình trên dữ liệu mới, chưa từng thấy.
C. Giảm kích thước bộ nhớ cần thiết để lưu trữ dữ liệu.
D. Cải thiện khả năng diễn giải của mô hình.
21. Lựa chọn nào sau đây là một ví dụ về kỹ thuật 'giảm chiều dữ liệu′ (dimensionality reduction)?
A. Chuẩn hóa dữ liệu (Data Normalization).
B. Phân tích thành phần chính (Principal Component Analysis - PCA).
C. Mã hóa one-hot (One-hot Encoding).
D. Điền giá trị thiếu (Missing Value Imputation).
22. Mục tiêu của việc sử dụng 'ma trận nhầm lẫn′ (confusion matrix) trong bài toán phân loại là gì?
A. Tính toán độ chính xác tổng thể của mô hình.
B. Đánh giá hiệu năng của mô hình một cách chi tiết, phân biệt các loại lỗi dự đoán.
C. Tìm ra các đặc trưng quan trọng nhất cho mô hình.
D. Giảm chiều dữ liệu phân loại.
23. Trong học máy, 'regularization′ (chính quy hóa) là kỹ thuật được sử dụng để giải quyết vấn đề nào?
A. Underfitting (thiếu khớp).
B. Overfitting (quá khớp).
C. Dữ liệu nhiễu (noisy data).
D. Mất cân bằng dữ liệu (imbalanced data).
24. Trong học máy, 'one-hot encoding′ thường được sử dụng để xử lý loại dữ liệu nào?
A. Dữ liệu số liên tục.
B. Dữ liệu văn bản.
C. Dữ liệu phân loại (categorical data).
D. Dữ liệu chuỗi thời gian.
25. Trong ngữ cảnh của học máy, 'overfitting′ (quá khớp) xảy ra khi nào?
A. Mô hình hoạt động kém trên cả tập huấn luyện và tập kiểm tra.
B. Mô hình hoạt động tốt trên tập kiểm tra nhưng kém trên tập huấn luyện.
C. Mô hình hoạt động rất tốt trên tập huấn luyện nhưng kém trên tập kiểm tra.
D. Mô hình hoạt động tốt trên cả tập huấn luyện và tập kiểm tra.
26. Trong học máy, 'bias′ (độ chệch) và 'variance′ (phương sai) thể hiện điều gì về mô hình?
A. Độ phức tạp của mô hình và khả năng diễn giải.
B. Sai số do giả định đơn giản hóa và độ nhạy với sự thay đổi trong dữ liệu huấn luyện.
C. Tốc độ huấn luyện và tốc độ dự đoán của mô hình.
D. Khả năng xử lý dữ liệu lớn và dữ liệu nhỏ của mô hình.
27. Độ đo 'độ chính xác′ (accuracy) thường được sử dụng để đánh giá hiệu suất của mô hình học máy trong bài toán nào?
A. Bài toán hồi quy (regression).
B. Bài toán phân loại (classification).
C. Bài toán phân cụm (clustering).
D. Bài toán giảm chiều dữ liệu (dimensionality reduction).
28. Trong học sâu (deep learning), 'mạng nơ-ron tích chập′ (Convolutional Neural Network - CNN) thường được ứng dụng hiệu quả nhất trong lĩnh vực nào?
A. Xử lý ngôn ngữ tự nhiên (Natural Language Processing).
B. Dự báo chuỗi thời gian (Time Series Forecasting).
C. Thị giác máy tính (Computer Vision).
D. Học tăng cường (Reinforcement Learning).
29. Trong học tăng cường (reinforcement learning), 'agent′ (tác nhân) học cách hành động trong môi trường để tối đa hóa yếu tố nào?
A. Độ chính xác dự đoán.
B. Phần thưởng tích lũy (cumulative reward).
C. Tốc độ học.
D. Độ phức tạp của mô hình.
30. Trong xử lý ngôn ngữ tự nhiên (NLP), 'word embedding′ (biểu diễn từ) như Word2Vec hay GloVe có mục đích gì?
A. Mã hóa văn bản thành dạng số để máy tính có thể xử lý.
B. Phân tích cú pháp và ngữ nghĩa của câu.
C. Giảm chiều dữ liệu của văn bản.
D. Tăng cường tính đa dạng của từ vựng.