1. Khái niệm 'overfitting′ (quá khớp) trong machine learning, bao gồm cả NLP, xảy ra khi nào?
A. Mô hình hoạt động quá chậm.
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới.
C. Dữ liệu huấn luyện quá ít.
D. Mô hình không đủ phức tạp để học được dữ liệu.
2. Điểm khác biệt chính giữa 'stemming′ và 'lemmatization′ là gì?
A. Stemming chậm hơn lemmatization.
B. Lemmatization đưa từ về dạng gốc có nghĩa (lemma), trong khi stemming có thể tạo ra gốc từ không có nghĩa.
C. Stemming sử dụng từ điển, còn lemmatization thì không.
D. Lemmatization chỉ áp dụng cho tiếng Anh, còn stemming thì có thể dùng cho nhiều ngôn ngữ.
3. Recurrent Neural Networks (RNNs) thường được sử dụng trong NLP cho các tác vụ nào?
A. Phân loại hình ảnh.
B. Xử lý dữ liệu tuần tự như văn bản và giọng nói.
C. Phát hiện gian lận tài chính.
D. Dự báo thời tiết.
4. Attention mechanism (cơ chế chú ý) trong Transformer networks hoạt động như thế nào?
A. Tăng tốc độ xử lý dữ liệu đầu vào.
B. Cho phép mô hình tập trung vào các phần quan trọng nhất của dữ liệu đầu vào khi đưa ra dự đoán.
C. Giảm kích thước mô hình.
D. Mã hóa thông tin vị trí của từ trong câu.
5. Dropout là một kỹ thuật regularization (chính quy hóa) thường dùng trong mạng nơ-ron. Mục đích của nó là gì?
A. Tăng tốc độ huấn luyện mô hình.
B. Giảm overfitting bằng cách ngẫu nhiên bỏ qua một số nơ-ron trong quá trình huấn luyện.
C. Tăng độ chính xác trên dữ liệu huấn luyện.
D. Đơn giản hóa kiến trúc mạng nơ-ron.
6. Phân tích cú pháp (parsing) trong NLP giúp đạt được điều gì?
A. Tìm ra cảm xúc của người viết.
B. Hiểu cấu trúc ngữ pháp của câu và mối quan hệ giữa các từ.
C. Tạo ra văn bản mới dựa trên văn bản gốc.
D. Phân loại văn bản theo thể loại.
7. Fine-tuning (tinh chỉnh) một mô hình ngôn ngữ đã được pre-trained (huấn luyện trước) là quá trình làm gì?
A. Huấn luyện lại toàn bộ mô hình từ đầu.
B. Tiếp tục huấn luyện mô hình đã pre-trained trên một tập dữ liệu nhỏ hơn, cụ thể cho tác vụ mục tiêu.
C. Nén kích thước mô hình để giảm bộ nhớ sử dụng.
D. Thay đổi kiến trúc mạng nơ-ron của mô hình.
8. Điều gì là mục tiêu chính của quá trình tiền xử lý văn bản trong Xử lý ngôn ngữ tự nhiên (NLP)?
A. Tăng độ phức tạp của dữ liệu văn bản.
B. Loại bỏ thông tin không liên quan và chuẩn hóa dữ liệu văn bản để cải thiện hiệu suất mô hình.
C. Thêm các yếu tố gây nhiễu vào dữ liệu văn bản để kiểm tra độ mạnh mẽ của mô hình.
D. Thay đổi hoàn toàn ý nghĩa ban đầu của văn bản.
9. Trong ngữ cảnh của chatbot, 'intent recognition′ (nhận dạng ý định) có nghĩa là gì?
A. Nhận dạng giọng nói của người dùng.
B. Xác định mục đích hoặc mong muốn của người dùng thông qua câu nói của họ.
C. Nhận dạng tên riêng trong câu hỏi của người dùng.
D. Nhận dạng ngôn ngữ mà người dùng đang sử dụng.
10. Pre-training (huấn luyện trước) các mô hình ngôn ngữ lớn như BERT và GPT thường được thực hiện trên dữ liệu nào?
A. Dữ liệu hình ảnh và video.
B. Lượng lớn dữ liệu văn bản thô, không có nhãn.
C. Dữ liệu văn bản đã được gán nhãn cẩn thận.
D. Dữ liệu âm thanh và giọng nói.
11. Cross-validation (kiểm định chéo) được sử dụng trong NLP để làm gì?
A. Tăng kích thước dữ liệu huấn luyện.
B. Đánh giá khách quan hiệu suất của mô hình trên dữ liệu chưa từng thấy.
C. Tối ưu hóa tốc độ huấn luyện.
D. Chọn thuật toán NLP tốt nhất.
12. Phân tích cảm xúc (sentiment analysis) trong NLP được sử dụng để làm gì?
A. Chuyển đổi văn bản thành giọng nói.
B. Xác định cảm xúc hoặc thái độ được thể hiện trong văn bản (ví dụ: tích cực, tiêu cực, trung lập).
C. Tóm tắt nội dung văn bản.
D. Kiểm tra lỗi chính tả và ngữ pháp trong văn bản.
13. Ethical considerations (vấn đề đạo đức) ngày càng quan trọng trong NLP. Điều gì KHÔNG phải là một vấn đề đạo đức chính liên quan đến NLP?
A. Thiên kiến (bias) trong dữ liệu huấn luyện dẫn đến kết quả không công bằng.
B. Sự riêng tư và bảo mật dữ liệu người dùng.
C. Khả năng NLP thay thế hoàn toàn con người trong mọi công việc.
D. Sử dụng NLP cho mục đích thao túng thông tin hoặc tạo tin giả.
14. Dialog management (quản lý hội thoại) là một thành phần quan trọng trong chatbot. Nó chịu trách nhiệm cho điều gì?
A. Chuyển đổi văn bản thành giọng nói.
B. Quản lý luồng hội thoại, quyết định phản hồi tiếp theo của chatbot dựa trên lịch sử hội thoại và ý định của người dùng.
C. Nhận dạng và phân loại cảm xúc của người dùng.
D. Kết nối chatbot với cơ sở dữ liệu bên ngoài.
15. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của NLP?
A. Dịch máy.
B. Nhận dạng khuôn mặt.
C. Chatbot.
D. Phân tích cảm xúc trên mạng xã hội.
16. Mục đích của việc loại bỏ 'stop words′ (từ dừng) trong NLP là gì?
A. Để làm cho văn bản trở nên dễ đọc hơn.
B. Để giảm kích thước dữ liệu và tập trung vào các từ có ý nghĩa hơn.
C. Để tăng tần suất xuất hiện của các từ phổ biến.
D. Để cải thiện khả năng dịch thuật của mô hình.
17. Mục tiêu chính của 'Named Entity Recognition′ (NER) là gì?
A. Dịch tên riêng sang các ngôn ngữ khác.
B. Xác định và phân loại các thực thể có tên trong văn bản (ví dụ: tên người, tổ chức, địa điểm).
C. Tạo ra tên mới cho sản phẩm hoặc dịch vụ.
D. Tìm kiếm tên các bài báo khoa học liên quan đến một chủ đề.
18. Reinforcement learning (học tăng cường) có thể được áp dụng trong NLP cho tác vụ nào?
A. Phân loại hình ảnh.
B. Huấn luyện chatbot tương tác tự nhiên và hiệu quả hơn thông qua phần thưởng và phạt.
C. Nhận dạng khuôn mặt.
D. Dự báo thời tiết.
19. Phương pháp 'stemming′ trong NLP hoạt động như thế nào?
A. Phân tích ngữ nghĩa của từ để tìm ra gốc từ.
B. Loại bỏ hậu tố và tiền tố của từ dựa trên các quy tắc.
C. Thay thế từ bằng từ đồng nghĩa của nó.
D. Chuyển đổi từ về dạng nguyên thể dựa trên từ điển.
20. Trong NLP, 'tokenization′ đề cập đến quá trình nào?
A. Chuyển đổi văn bản thành giọng nói.
B. Phân chia văn bản thành các đơn vị nhỏ hơn như từ hoặc cụm từ.
C. Tìm kiếm thông tin quan trọng trong văn bản.
D. Loại bỏ các từ dừng (stop words) khỏi văn bản.
21. Backpropagation là thuật toán quan trọng trong quá trình huấn luyện mô hình mạng nơ-ron. Nó được sử dụng để làm gì?
A. Tăng tốc độ xử lý dữ liệu đầu vào.
B. Tính toán gradient của hàm mất mát và cập nhật trọng số của mạng.
C. Chọn kiến trúc mạng nơ-ron phù hợp nhất.
D. Phân tích dữ liệu đầu ra của mạng.
22. Word embeddings (biểu diễn từ) như Word2Vec và GloVe được sử dụng để làm gì?
A. Nén dữ liệu văn bản.
B. Biểu diễn từ dưới dạng vector số, thể hiện ý nghĩa ngữ nghĩa của từ.
C. Mã hóa văn bản để bảo mật thông tin.
D. Phân loại từ theo từ loại.
23. Ví dụ nào sau đây thể hiện ứng dụng của NLP trong lĩnh vực y tế?
A. Dự đoán giá cổ phiếu.
B. Phân tích hồ sơ bệnh án điện tử để cải thiện chẩn đoán và điều trị.
C. Tạo ra hiệu ứng đặc biệt cho phim.
D. Điều khiển robot công nghiệp.
24. Beam search là một thuật toán giải mã thường được sử dụng trong dịch máy và tạo văn bản. Nó hoạt động bằng cách nào?
A. Tìm kiếm ngẫu nhiên các câu dịch.
B. Duy trì một số lượng nhất định các giả thuyết (beams) tốt nhất và mở rộng chúng trong quá trình tạo chuỗi đầu ra.
C. Tìm kiếm câu dịch ngắn nhất có thể.
D. Sử dụng tìm kiếm vét cạn để tìm câu dịch tốt nhất.
25. Kỹ thuật 'Part-of-speech tagging′ (gán nhãn từ loại) trong NLP dùng để làm gì?
A. Phân loại văn bản theo chủ đề.
B. Xác định vai trò ngữ pháp của mỗi từ trong câu (ví dụ: danh từ, động từ, tính từ).
C. Dịch văn bản sang ngôn ngữ khác.
D. Tóm tắt nội dung chính của văn bản.
26. Khái niệm 'transfer learning′ (học chuyển giao) trong NLP mang lại lợi ích gì?
A. Giảm nhu cầu về dữ liệu huấn luyện lớn cho các tác vụ mới.
B. Tăng độ phức tạp của mô hình.
C. Giảm thời gian kiểm thử mô hình.
D. Tạo ra mô hình có khả năng học từ nhiều ngôn ngữ cùng lúc.
27. Mô hình ngôn ngữ (language model) trong NLP có vai trò gì?
A. Phân tích hình ảnh trong văn bản.
B. Dự đoán xác suất xuất hiện của một chuỗi từ trong ngôn ngữ.
C. Chuyển đổi văn bản thành mã máy.
D. Tạo ra đồ họa từ dữ liệu văn bản.
28. 'Zero-shot learning′ trong NLP đề cập đến khả năng gì của mô hình?
A. Học hỏi từ dữ liệu không có nhãn.
B. Thực hiện tốt các tác vụ mà mô hình chưa từng được huấn luyện trực tiếp trước đó.
C. Huấn luyện mô hình mà không cần dữ liệu.
D. Chuyển kiến thức từ ngôn ngữ này sang ngôn ngữ khác.
29. Transformer networks, đặc biệt là kiến trúc 'Attention′, đã mang lại đột phá lớn trong lĩnh vực NLP nào?
A. Nhận dạng giọng nói.
B. Dịch máy và các tác vụ xử lý chuỗi dài.
C. Phân tích cảm xúc trong hình ảnh.
D. Nén dữ liệu video.
30. F1-score là một chỉ số đánh giá hiệu suất mô hình phân loại trong NLP. Nó là trung bình điều hòa của chỉ số nào?
A. Accuracy và Recall.
B. Precision và Recall.
C. Precision và Accuracy.
D. Specificity và Sensitivity.