1. Phương pháp nào sau đây thuộc về kỹ thuật 'Bag-of-Words′ trong NLP?
A. Mô hình hóa chủ đề (Topic Modeling).
B. Biểu diễn từ dưới dạng vector dựa trên ngữ cảnh (Word Embeddings).
C. Đếm tần suất xuất hiện của từ trong văn bản.
D. Mạng nơ-ron hồi quy (Recurrent Neural Networks).
2. Kỹ thuật 'sentiment lexicon′ (từ điển cảm xúc) hoạt động như thế nào trong phân tích quan điểm?
A. Sử dụng mạng nơ-ron để học biểu diễn cảm xúc.
B. Dựa trên từ điển chứa các từ được gán nhãn cảm xúc (tích cực, tiêu cực).
C. Phân tích ngữ pháp để xác định cảm xúc.
D. Sử dụng thống kê tần suất từ để suy luận cảm xúc.
3. Kỹ thuật 'Stemming′ trong NLP nhằm mục đích gì?
A. Tìm dạng nguyên gốc của từ (lemma).
B. Phân tích cấu trúc ngữ pháp của câu.
C. Rút gọn từ về dạng gốc bằng cách loại bỏ hậu tố∕tiền tố.
D. Phát hiện ngôn ngữ của văn bản.
4. Phương pháp 'transfer learning′ (học chuyển giao) được ứng dụng trong NLP như thế nào?
A. Tăng tốc độ huấn luyện mô hình từ đầu.
B. Sử dụng mô hình tiền huấn luyện trên tập dữ liệu lớn để cải thiện hiệu suất trên tác vụ cụ thể với dữ liệu nhỏ.
C. Giảm độ phức tạp của mô hình.
D. Thay thế hoàn toàn việc huấn luyện mô hình.
5. Trong NLP, 'Named Entity Recognition′ (NER) là gì?
A. Phân tích cấu trúc câu.
B. Nhận dạng và phân loại các thực thể có tên trong văn bản (ví dụ: người, tổ chức, địa điểm).
C. Dịch văn bản sang ngôn ngữ khác.
D. Tóm tắt văn bản dài.
6. Kỹ thuật 'coreference resolution′ (giải quyết đồng tham chiếu) trong NLP nhằm mục đích gì?
A. Phân tích cú pháp câu phức.
B. Xác định các thực thể khác nhau đề cập đến cùng một đối tượng trong văn bản.
C. Dịch các đại từ nhân xưng sang ngôn ngữ khác.
D. Tóm tắt các đoạn văn dài.
7. Trong NLP, 'Part-of-Speech Tagging′ (POS Tagging) là quá trình:
A. Phân tích cấu trúc ngữ pháp của câu.
B. Gán nhãn từ loại (ví dụ: danh từ, động từ, tính từ) cho mỗi từ trong câu.
C. Phát hiện các cụm từ cố định.
D. Chỉnh sửa lỗi chính tả trong văn bản.
8. Trong đánh giá mô hình dịch máy, độ đo 'BLEU score′ dùng để làm gì?
A. Đo tốc độ dịch.
B. Đo mức độ tương đồng giữa bản dịch của máy và bản dịch tham khảo của người.
C. Đo độ chính xác của nhận dạng thực thể.
D. Đo hiệu suất sử dụng bộ nhớ của mô hình.
9. Đâu là mục tiêu chính của Xử lý ngôn ngữ tự nhiên (NLP)?
A. Biên dịch ngôn ngữ lập trình.
B. Giúp máy tính hiểu và xử lý ngôn ngữ con người.
C. Tạo ra các hệ thống cơ sở dữ liệu ngôn ngữ.
D. Phân tích cú pháp của các ngôn ngữ hình thức.
10. Mô hình 'Recurrent Neural Networks′ (RNNs) phù hợp với tác vụ NLP nào?
A. Phân loại hình ảnh.
B. Xử lý dữ liệu chuỗi tuần tự như văn bản.
C. Phát hiện đối tượng trong ảnh.
D. Phân tích dữ liệu dạng bảng.
11. Kỹ thuật 'TF-IDF′ được sử dụng để làm gì trong NLP?
A. Giảm chiều dữ liệu của văn bản.
B. Tính toán độ quan trọng của từ trong một văn bản so với tập hợp văn bản.
C. Phân tích quan điểm của văn bản.
D. Sinh văn bản mới.
12. Đánh giá mô hình NLP cho tác vụ phân loại văn bản thường sử dụng độ đo nào?
A. Mean Squared Error (MSE).
B. Precision, Recall, F1-score, Accuracy.
C. Root Mean Squared Error (RMSE).
D. R-squared.
13. Vấn đề 'ambiguity′ (đa nghĩa) trong ngôn ngữ tự nhiên gây khó khăn gì cho NLP?
A. Làm chậm quá trình xử lý.
B. Khiến máy tính khó hiểu đúng ý nghĩa của câu, dẫn đến sai sót.
C. Tăng yêu cầu về bộ nhớ.
D. Giảm độ chính xác của POS Tagging.
14. Mục tiêu của 'Text Summarization′ (Tóm tắt văn bản) trong NLP là gì?
A. Dịch văn bản sang ngôn ngữ khác.
B. Tạo ra phiên bản ngắn gọn hơn của văn bản gốc, giữ lại thông tin quan trọng nhất.
C. Phân loại văn bản theo chủ đề.
D. Tìm kiếm thông tin cụ thể trong văn bản.
15. So sánh 'Stemming′ và 'Lemmatization′, đâu là phát biểu đúng?
A. Stemming phức tạp hơn Lemmatization.
B. Lemmatization cho kết quả dạng gốc từ có nghĩa, Stemming có thể không.
C. Cả hai đều không hiệu quả trong việc giảm chiều dữ liệu văn bản.
D. Stemming sử dụng từ điển, Lemmatization dùng quy tắc.
16. Phương pháp 'topic modeling′ (mô hình hóa chủ đề), ví dụ LDA, giúp ích gì trong NLP?
A. Tăng tốc độ dịch máy.
B. Phân loại văn bản dựa trên chủ đề tiềm ẩn.
C. Cải thiện độ chính xác của POS tagging.
D. Tạo ra word embeddings chất lượng cao hơn.
17. Ứng dụng nào sau đây KHÔNG phải là ứng dụng chính của NLP?
A. Dịch máy (Machine Translation).
B. Nhận dạng khuôn mặt (Facial Recognition).
C. Chatbot và trợ lý ảo.
D. Phân tích quan điểm khách hàng.
18. Phương pháp 'Word Embeddings′ (ví dụ: Word2Vec, GloVe) biểu diễn từ ngữ như thế nào?
A. Dạng cây cú pháp.
B. Dạng vector số trong không gian đa chiều.
C. Dạng bảng tần số từ.
D. Dạng quy tắc ngữ pháp.
19. Khái niệm 'tokenization′ trong NLP đề cập đến quá trình nào?
A. Loại bỏ các từ dừng (stop words) khỏi văn bản.
B. Chia văn bản thành các đơn vị nhỏ hơn, ví dụ như từ hoặc cụm từ.
C. Gán nhãn từ loại (part-of-speech) cho mỗi từ trong câu.
D. Tìm ra dạng gốc của từ (lemma).
20. Công cụ hoặc thư viện nào sau đây phổ biến cho NLP trong Python?
A. OpenCV.
B. TensorFlow.
C. NLTK (Natural Language Toolkit).
D. Pandas.
21. Hạn chế của mô hình 'Bag-of-Words′ trong biểu diễn văn bản là gì?
A. Khó xử lý văn bản dài.
B. Mất thông tin về thứ tự và ngữ pháp của từ trong câu.
C. Yêu cầu bộ nhớ lớn để lưu trữ vector.
D. Chỉ hoạt động tốt với tiếng Anh.
22. Để xử lý tiếng Việt trong NLP, một thách thức đặc thù là gì?
A. Thiếu tài nguyên ngôn ngữ số hóa.
B. Tính đa dạng vùng miền và phương ngữ lớn.
C. Cấu trúc ngữ pháp quá phức tạp.
D. Không có bảng mã chuẩn.
23. Thách thức lớn nhất trong 'Machine Translation′ (Dịch máy) là gì?
A. Xử lý ngôn ngữ lập trình.
B. Duy trì ý nghĩa và sắc thái của ngôn ngữ gốc trong ngôn ngữ đích.
C. Tối ưu hóa tốc độ dịch thuật.
D. Giảm chi phí tính toán cho mô hình dịch.
24. Trong ngữ cảnh chatbot, 'Natural Language Generation′ (NLG) đóng vai trò gì?
A. Hiểu ý định của người dùng.
B. Tạo ra phản hồi bằng ngôn ngữ tự nhiên.
C. Quản lý lịch sử hội thoại.
D. Kết nối với cơ sở dữ liệu.
25. Mô hình ngôn ngữ (Language Model) trong NLP có chức năng chính là gì?
A. Phân loại văn bản theo chủ đề.
B. Dự đoán từ tiếp theo trong một chuỗi văn bản.
C. Trích xuất thông tin từ văn bản.
D. Tạo ra vector biểu diễn từ.
26. Ứng dụng của NLP trong lĩnh vực y tế bao gồm:
A. Phân tích hình ảnh y tế.
B. Trích xuất thông tin bệnh án từ văn bản.
C. Điều khiển robot phẫu thuật.
D. Thiết kế thuốc mới.
27. Mô hình Transformer, đặc biệt là kiến trúc 'Attention′, mang lại cải tiến gì cho NLP?
A. Giảm thiểu nhu cầu về dữ liệu huấn luyện.
B. Xử lý tốt hơn các phụ thuộc dài hạn trong văn bản, khắc phục hạn chế của RNN.
C. Tăng tốc độ xử lý ngôn ngữ lên gấp nhiều lần.
D. Đơn giản hóa quá trình tiền xử lý văn bản.
28. Ưu điểm chính của việc sử dụng 'Word Embeddings′ so với 'Bag-of-Words′ là gì?
A. Word Embeddings nhanh hơn trong tính toán.
B. Word Embeddings giữ được thông tin về ngữ nghĩa và quan hệ giữa các từ.
C. Bag-of-Words hiệu quả hơn với dữ liệu lớn.
D. Bag-of-Words dễ dàng diễn giải hơn.
29. Trong NLP, 'stop words′ thường được xử lý như thế nào?
A. Được giữ lại vì chúng quan trọng cho ngữ cảnh.
B. Được loại bỏ để giảm nhiễu và tăng hiệu quả xử lý.
C. Được chuyển đổi thành dạng chữ hoa.
D. Được mã hóa thành số nguyên.
30. Thác vụ NLP nào liên quan đến việc xác định xem một đoạn văn bản thể hiện cảm xúc tích cực, tiêu cực hay trung lập?
A. Nhận dạng thực thể có tên (Named Entity Recognition).
B. Phân tích cú pháp (Parsing).
C. Phân tích quan điểm (Sentiment Analysis).
D. Sinh ngôn ngữ tự nhiên (Natural Language Generation).