1. Ứng dụng nào sau đây KHÔNG thuộc lĩnh vực NLP?
A. Chatbot.
B. Hệ thống đề xuất phim.
C. Phân tích đánh giá sản phẩm trực tuyến.
D. Công cụ kiểm tra chính tả.
2. Word Sense Disambiguation (WSD) là một bài toán NLP liên quan đến vấn đề gì?
A. Xác định cấu trúc ngữ pháp của câu.
B. Phân biệt ý nghĩa khác nhau của một từ đa nghĩa trong ngữ cảnh cụ thể.
C. Loại bỏ các từ không quan trọng trong văn bản.
D. Tìm các từ đồng nghĩa và trái nghĩa của một từ.
3. Attention mechanism (cơ chế chú ý) trong mô hình Transformer giúp giải quyết vấn đề chính nào trong NLP?
A. Vấn đề từ vựng ngoài tập huấn luyện (Out-of-Vocabulary words).
B. Vấn đề phụ thuộc xa (Long-range dependencies) trong câu.
C. Vấn đề tốc độ xử lý chậm của mô hình RNN.
D. Vấn đề thiếu dữ liệu huấn luyện.
4. Named Entity Recognition (NER) là một tác vụ NLP nhằm mục đích gì?
A. Phân tích cảm xúc của văn bản.
B. Xác định và phân loại các thực thể có tên (ví dụ: tên người, tổ chức, địa điểm) trong văn bản.
C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
D. Tóm tắt văn bản thành dạng ngắn gọn hơn.
5. Mục tiêu chính của Xử lý ngôn ngữ tự nhiên (NLP) là gì?
A. Phân tích và hiểu ngôn ngữ lập trình của máy tính.
B. Cho phép máy tính hiểu, diễn giải và tạo ra ngôn ngữ của con người.
C. Tối ưu hóa hiệu suất của phần cứng máy tính.
D. Phát triển các thuật toán nén dữ liệu hiệu quả.
6. Phương pháp nào sau đây thường được sử dụng để đánh giá hiệu suất của mô hình phân loại văn bản trong NLP?
A. Độ chính xác (Accuracy), Độ đo F1 (F1-score), Ma trận nhầm lẫn (Confusion Matrix).
B. Thời gian phản hồi trung bình (Average Response Time).
C. Số lượng tham số mô hình (Number of Model Parameters).
D. Mức tiêu thụ năng lượng (Power Consumption).
7. Khi nào thì việc sử dụng 'character-level models′ (mô hình mức ký tự) có thể hữu ích hơn so với 'word-level models′ (mô hình mức từ) trong NLP?
A. Khi xử lý các ngôn ngữ có từ vựng rất lớn và phức tạp.
B. Khi xử lý các ngôn ngữ có hình thái học phong phú (ví dụ: tiếng Việt, tiếng Thổ Nhĩ Kỳ) hoặc khi gặp lỗi chính tả.
C. Khi cần tốc độ xử lý nhanh và hiệu quả.
D. Khi cần phân tích ngữ nghĩa sâu sắc của văn bản.
8. Word embedding (biểu diễn từ) được sử dụng để làm gì trong NLP?
A. Mã hóa văn bản thành hình ảnh.
B. Biểu diễn từ dưới dạng vector số, nắm bắt ý nghĩa ngữ nghĩa.
C. Tăng tốc độ xử lý văn bản.
D. Giảm kích thước bộ nhớ cần thiết để lưu trữ văn bản.
9. Kỹ thuật 'stemming′ trong NLP nhằm mục đích gì?
A. Chuyển đổi văn bản thành chữ thường.
B. Loại bỏ dấu câu khỏi văn bản.
C. Rút gọn từ về dạng gốc của nó (ví dụ: 'running′ thành 'run′).
D. Tìm các từ đồng nghĩa của một từ.
10. Paraphrasing (diễn giải lại) trong NLP là gì?
A. Dịch văn bản sang ngôn ngữ khác.
B. Tóm tắt văn bản gốc.
C. Diễn đạt lại một văn bản hoặc câu bằng từ ngữ khác nhưng vẫn giữ nguyên ý nghĩa.
D. Phân tích sắc thái cảm xúc của văn bản.
11. So sánh ưu điểm chính của 'rule-based NLP′ (NLP dựa trên luật) so với 'machine learning-based NLP′ (NLP dựa trên học máy).
A. Rule-based NLP có khả năng xử lý ngôn ngữ tự nhiên hơn.
B. Rule-based NLP dễ dàng mở rộng và thích ứng với nhiều ngôn ngữ khác nhau.
C. Rule-based NLP có thể diễn giải và debug dễ dàng hơn do dựa trên các quy tắc rõ ràng.
D. Rule-based NLP có độ chính xác cao hơn trong hầu hết các tác vụ NLP.
12. Coreference resolution (giải quyết đồng tham chiếu) là quá trình nào trong NLP?
A. Phân tích cấu trúc cú pháp của câu.
B. Xác định các từ hoặc cụm từ khác nhau cùng đề cập đến một thực thể trong văn bản.
C. Dịch các đại từ nhân xưng sang ngôn ngữ khác.
D. Loại bỏ các tham chiếu mơ hồ trong văn bản.
13. Trong ngữ cảnh của dịch máy, BLEU score (điểm BLEU) dùng để làm gì?
A. Đo lường tốc độ dịch của hệ thống dịch máy.
B. Đánh giá sự trôi chảy và tự nhiên của bản dịch.
C. Đo lường mức độ tương đồng giữa bản dịch máy và bản dịch tham khảo của con người.
D. Phân tích cấu trúc ngữ pháp của bản dịch máy.
14. Transformer models (mô hình Transformer) vượt trội hơn RNNs trong nhiều tác vụ NLP chủ yếu nhờ vào ưu điểm nào?
A. Khả năng xử lý ngôn ngữ tượng hình tốt hơn.
B. Khả năng xử lý song song và cơ chế chú ý (attention mechanism).
C. Yêu cầu ít dữ liệu huấn luyện hơn.
D. Khả năng diễn giải kết quả tốt hơn.
15. Phương pháp nào sau đây KHÔNG phải là một kỹ thuật phổ biến trong NLP?
A. Phân tích tình cảm (Sentiment Analysis).
B. Dịch máy (Machine Translation).
C. Nhận dạng hình ảnh (Image Recognition).
D. Trích xuất thông tin (Information Extraction).
16. Khái niệm 'perplexity′ được sử dụng để đánh giá điều gì trong mô hình ngôn ngữ?
A. Tốc độ suy luận của mô hình.
B. Độ chính xác của mô hình trong việc dự đoán từ tiếp theo.
C. Độ phức tạp của kiến trúc mô hình.
D. Khả năng xử lý ngôn ngữ đa ngôn ngữ của mô hình.
17. Trong NLP, 'tokenization′ đề cập đến quá trình nào?
A. Chuyển đổi văn bản thành giọng nói.
B. Chia văn bản thành các đơn vị nhỏ hơn, chẳng hạn như từ hoặc cụm từ.
C. Loại bỏ các từ dừng (stop words) khỏi văn bản.
D. Gán nhãn ngữ pháp cho các từ trong câu.
18. Bias (thiên kiến) trong dữ liệu huấn luyện có thể ảnh hưởng đến mô hình NLP như thế nào?
A. Giúp mô hình học nhanh hơn và chính xác hơn.
B. Dẫn đến kết quả không công bằng hoặc phân biệt đối xử trong dự đoán của mô hình.
C. Không ảnh hưởng đến hiệu suất của mô hình nếu dữ liệu đủ lớn.
D. Chỉ ảnh hưởng đến tốc độ huấn luyện, không ảnh hưởng đến kết quả cuối cùng.
19. Recurrent Neural Networks (RNNs) gặp khó khăn chính nào khi xử lý các chuỗi văn bản dài?
A. Khó khăn trong việc song song hóa tính toán.
B. Vấn đề biến mất gradient (Vanishing gradient problem).
C. Yêu cầu lượng lớn dữ liệu huấn luyện.
D. Khó khăn trong việc xử lý ngôn ngữ đa ngôn ngữ.
20. Zero-shot learning trong NLP đề cập đến khả năng của mô hình như thế nào?
A. Học một ngôn ngữ mới từ đầu mà không cần dữ liệu huấn luyện.
B. Thực hiện một tác vụ mà mô hình chưa từng được huấn luyện trực tiếp cho tác vụ đó.
C. Huấn luyện mô hình chỉ với một lượng rất nhỏ dữ liệu.
D. Đạt độ chính xác 0% trên tập dữ liệu kiểm tra.
21. Mục đích chính của việc sử dụng 'bag-of-words′ representation (biểu diễn túi từ) trong NLP là gì?
A. Giữ lại thứ tự của từ trong câu.
B. Chuyển đổi văn bản thành vector số dựa trên tần suất xuất hiện của từ, bỏ qua thứ tự.
C. Phân tích mối quan hệ ngữ pháp giữa các từ.
D. Tạo ra biểu diễn ngữ nghĩa sâu sắc của văn bản.
22. Semantic analysis (phân tích ngữ nghĩa) trong NLP tập trung vào điều gì?
A. Cấu trúc ngữ pháp của câu.
B. Ý nghĩa của từ và câu, mối quan hệ giữa chúng.
C. Âm thanh của ngôn ngữ.
D. Hình thức viết của ngôn ngữ.
23. Thuật ngữ 'n-gram′ trong NLP đề cập đến điều gì?
A. Một loại mô hình mạng nơ-ron đặc biệt.
B. Một chuỗi gồm n từ liên tiếp trong một văn bản.
C. Một phương pháp đánh giá độ chính xác của mô hình NLP.
D. Một kỹ thuật mã hóa văn bản để bảo mật thông tin.
24. Fine-tuning (tinh chỉnh) một mô hình ngôn ngữ pre-trained (được huấn luyện trước) có nghĩa là gì?
A. Huấn luyện lại toàn bộ mô hình từ đầu với dữ liệu mới.
B. Tiếp tục huấn luyện mô hình đã được huấn luyện trước trên một tập dữ liệu cụ thể cho một tác vụ cụ thể.
C. Giảm kích thước của mô hình để tăng tốc độ suy luận.
D. Thay đổi kiến trúc của mô hình gốc.
25. Backpropagation là thuật toán quan trọng trong loại mô hình học máy nào thường được sử dụng trong NLP?
A. Cây quyết định (Decision Trees).
B. Máy vector hỗ trợ (Support Vector Machines).
C. Mạng nơ-ron sâu (Deep Neural Networks).
D. K-Means Clustering.
26. 'Knowledge graph′ (đồ thị tri thức) được sử dụng trong NLP để làm gì?
A. Phân tích cấu trúc ngữ pháp của văn bản.
B. Lưu trữ và truy xuất thông tin dưới dạng các thực thể và mối quan hệ giữa chúng.
C. Tạo ra các tóm tắt văn bản tự động.
D. Dịch văn bản giữa các ngôn ngữ khác nhau.
27. Mô hình ngôn ngữ (Language Model) được sử dụng để làm gì?
A. Phân loại văn bản theo chủ đề.
B. Dự đoán từ hoặc chuỗi từ tiếp theo trong một câu.
C. Phân tích cấu trúc ngữ pháp của câu.
D. Tạo ra các tóm tắt văn bản ngắn gọn.
28. Mục tiêu chính của 'topic modeling′ (mô hình chủ đề) trong NLP là gì?
A. Phân loại văn bản theo chủ đề được xác định trước.
B. Khám phá và xác định các chủ đề tiềm ẩn trong một tập hợp văn bản.
C. Tóm tắt văn bản thành các chủ đề chính.
D. Dịch văn bản sang ngôn ngữ khác theo chủ đề.
29. TF-IDF là viết tắt của thuật ngữ nào và nó được sử dụng để làm gì?
A. Term Frequency - Inverse Document Frequency; đo lường tầm quan trọng của từ trong văn bản.
B. Text Formatting - Information Distribution Formula; định dạng văn bản và phân phối thông tin.
C. Token Frequency - Inverted Data Flow; tần suất xuất hiện token và luồng dữ liệu đảo ngược.
D. Tree Filtering - Iterative Document Finding; lọc cây và tìm kiếm tài liệu lặp đi lặp lại.
30. Trong ngữ cảnh của NLP, 'stop words′ (từ dừng) là gì?
A. Các từ mang thông tin ngữ nghĩa quan trọng nhất trong văn bản.
B. Các từ xuất hiện với tần suất cao nhưng ít mang ý nghĩa, thường bị loại bỏ.
C. Các từ được sử dụng để đánh dấu sự kết thúc của một câu.
D. Các từ chỉ được sử dụng trong ngôn ngữ nói, không xuất hiện trong văn bản viết.