1. Mô hình ngôn ngữ 'BERT′ (Bidirectional Encoder Representations from Transformers) có điểm nổi bật nào so với các mô hình trước đó?
A. Chỉ sử dụng cơ chế RNN.
B. Huấn luyện theo hướng một chiều (unidirectional).
C. Huấn luyện theo hướng hai chiều (bidirectional) để hiểu ngữ cảnh tốt hơn.
D. Không sử dụng cơ chế attention.
2. Kỹ thuật nào sau đây thường được sử dụng để tóm tắt văn bản (text summarization) trong NLP?
A. Tokenization.
B. Stemming.
C. Abstractive summarization và extractive summarization.
D. Part-of-speech tagging.
3. Khó khăn chính trong việc xử lý ngôn ngữ tự nhiên liên quan đến sự đa dạng của ngôn ngữ là gì?
A. Tốc độ xử lý của máy tính còn chậm.
B. Ngôn ngữ tự nhiên mang tính mơ hồ, đa nghĩa và phụ thuộc ngữ cảnh.
C. Thiếu dữ liệu văn bản đủ lớn để huấn luyện mô hình.
D. Các thuật toán học máy chưa đủ mạnh để xử lý ngôn ngữ.
4. Trong lĩnh vực chatbot, 'intent recognition′ là gì?
A. Quá trình tạo ra câu trả lời tự động.
B. Xác định mục đích hoặc ý định của người dùng đằng sau câu hỏi hoặc yêu cầu.
C. Chuyển đổi văn bản thành giọng nói.
D. Phân tích cảm xúc của người dùng.
5. Ứng dụng của 'topic modeling′ (ví dụ Latent Dirichlet Allocation - LDA) trong NLP là gì?
A. Phân loại văn bản theo chủ đề.
B. Tóm tắt văn bản dài thành văn bản ngắn gọn hơn.
C. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
D. Nhận dạng các thực thể có tên trong văn bản.
6. Kỹ thuật nào thường được sử dụng để giảm chiều dữ liệu (dimensionality reduction) trong biểu diễn vector từ (word embeddings)?
A. Mã hóa one-hot (One-hot encoding).
B. Phân tích thành phần chính (Principal Component Analysis - PCA).
C. Biểu diễn TF-IDF.
D. Mô hình Markov ẩn (Hidden Markov Model).
7. Dependency parsing trong NLP tập trung vào việc phân tích mối quan hệ gì giữa các từ trong câu?
A. Mối quan hệ về tần suất xuất hiện.
B. Mối quan hệ ngữ nghĩa.
C. Mối quan hệ phụ thuộc ngữ pháp (syntactic dependencies).
D. Mối quan hệ về độ dài từ.
8. Trong NLP, 'Named Entity Recognition′ (NER) nhằm mục đích gì?
A. Phân tích cấu trúc ngữ pháp của câu.
B. Xác định và phân loại các thực thể có tên (ví dụ: người, tổ chức, địa điểm) trong văn bản.
C. Dự đoán từ tiếp theo trong một câu.
D. Đánh giá mức độ tích cực, tiêu cực của văn bản.
9. Recurrent Neural Networks (RNNs) phù hợp với loại dữ liệu nào trong NLP?
A. Dữ liệu dạng bảng.
B. Dữ liệu dạng chuỗi (sequential data) như văn bản hoặc chuỗi thời gian.
C. Dữ liệu hình ảnh.
D. Dữ liệu âm thanh.
10. Ethical considerations trong NLP trở nên quan trọng, đặc biệt liên quan đến vấn đề nào sau đây?
A. Tốc độ xử lý của mô hình NLP.
B. Độ chính xác của mô hình dịch máy.
C. Thiên kiến (bias) trong dữ liệu và mô hình, dẫn đến kết quả không công bằng hoặc phân biệt đối xử.
D. Dung lượng bộ nhớ cần thiết để lưu trữ mô hình NLP.
11. Ứng dụng của coreference resolution trong NLP là gì?
A. Phân loại văn bản theo chủ đề.
B. Xác định các cụm từ cùng chỉ một đối tượng trong văn bản.
C. Dịch văn bản sang ngôn ngữ khác.
D. Tóm tắt văn bản.
12. Mô hình Transformer, nổi tiếng trong NLP, dựa trên cơ chế chính nào?
A. Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN).
B. Cơ chế tự chú ý (Self-attention mechanism).
C. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN).
D. Mô hình Markov ẩn (Hidden Markov Model - HMM).
13. Phương pháp nào sau đây thường được sử dụng để xử lý bài toán phân loại văn bản (text classification)?
A. K-means clustering.
B. Naive Bayes.
C. Phân tích thành phần chính (PCA).
D. Thuật toán PageRank.
14. Công đoạn nào sau đây KHÔNG thuộc quy trình tiền xử lý văn bản (text preprocessing) trong NLP?
A. Tách từ (Tokenization).
B. Loại bỏ stop words.
C. Phân tích cảm xúc (Sentiment analysis).
D. Chuẩn hóa văn bản (Text normalization).
15. Kỹ thuật 'n-gram′ trong NLP được sử dụng để làm gì?
A. Phân tích cấu trúc ngữ pháp của câu.
B. Chia văn bản thành các chuỗi gồm n từ liên tiếp.
C. Biểu diễn từ dưới dạng vector số.
D. Tóm tắt nội dung văn bản.
16. Trong NLP, 'stop words′ thường được loại bỏ vì lý do chính nào?
A. Chúng chứa đựng thông tin ngữ nghĩa quan trọng.
B. Chúng xuất hiện rất ít trong văn bản.
C. Chúng xuất hiện quá thường xuyên và ít đóng góp vào việc phân biệt ý nghĩa văn bản.
D. Chúng gây khó khăn cho việc tokenization.
17. Phương pháp 'Bag of Words′ biểu diễn văn bản dựa trên yếu tố nào?
A. Thứ tự xuất hiện của các từ trong câu.
B. Tần suất xuất hiện của mỗi từ trong văn bản.
C. Mối quan hệ ngữ nghĩa giữa các từ.
D. Cấu trúc ngữ pháp của câu.
18. Nguyên nhân chính gây ra sự mơ hồ về ngữ nghĩa (semantic ambiguity) trong ngôn ngữ tự nhiên là gì?
A. Sự khác biệt về ngôn ngữ giữa các quốc gia.
B. Một từ có thể có nhiều nghĩa khác nhau tùy theo ngữ cảnh.
C. Lỗi chính tả và ngữ pháp trong văn bản.
D. Số lượng từ vựng trong ngôn ngữ tự nhiên quá lớn.
19. Phân biệt sự khác nhau giữa 'syntax′ và 'semantics′ trong ngôn ngữ học và NLP.
A. Syntax là ý nghĩa của từ, semantics là cấu trúc câu.
B. Syntax là cấu trúc ngữ pháp của câu, semantics là ý nghĩa của câu.
C. Syntax và semantics đều chỉ ý nghĩa của câu, nhưng syntax tập trung vào nghĩa đen, semantics vào nghĩa bóng.
D. Syntax và semantics đều chỉ cấu trúc câu, nhưng syntax tập trung vào cấu trúc bề mặt, semantics vào cấu trúc sâu.
20. Mục tiêu chính của Xử lý ngôn ngữ tự nhiên (NLP) là gì?
A. Chuyển đổi ngôn ngữ lập trình cấp cao sang ngôn ngữ máy.
B. Giúp máy tính hiểu, diễn giải và tạo ra ngôn ngữ của con người.
C. Phân tích dữ liệu số lượng lớn để tìm ra xu hướng thống kê.
D. Tối ưu hóa hiệu suất của phần cứng máy tính khi chạy các ứng dụng.
21. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của NLP?
A. Phân loại ảnh (Image classification).
B. Dịch máy (Machine translation).
C. Trợ lý ảo (Virtual assistants).
D. Phân tích cảm xúc (Sentiment analysis).
22. Trong lĩnh vực dịch máy, BLEU score được sử dụng để làm gì?
A. Đo tốc độ dịch của hệ thống.
B. Đánh giá chất lượng bản dịch so với bản dịch tham khảo.
C. Xác định ngôn ngữ gốc của văn bản.
D. Phân tích độ phức tạp ngữ pháp của văn bản.
23. Word embeddings như Word2Vec và GloVe giúp ích gì trong NLP?
A. Tăng tốc độ xử lý văn bản.
B. Biểu diễn từ dưới dạng vector số, nắm bắt được ngữ nghĩa và quan hệ giữa các từ.
C. Giảm dung lượng lưu trữ dữ liệu văn bản.
D. Loại bỏ hoàn toàn sự mơ hồ của ngôn ngữ.
24. Trong xử lý văn bản, 'character encoding′ có vai trò gì?
A. Tăng tốc độ xử lý văn bản.
B. Chuyển đổi ký tự thành dạng số để máy tính có thể xử lý.
C. Loại bỏ các ký tự đặc biệt khỏi văn bản.
D. Kiểm tra và sửa lỗi chính tả trong văn bản.
25. Cơ chế 'attention′ trong Transformer models giải quyết vấn đề gì của RNNs trong NLP?
A. Tốc độ xử lý chậm.
B. Khả năng xử lý song song kém.
C. Khó khăn trong việc ghi nhớ thông tin ở các vị trí xa nhau trong chuỗi (long-range dependencies).
D. Khả năng xử lý dữ liệu phi cấu trúc.
26. Trong mô hình ngôn ngữ (language model), perplexity được sử dụng để đánh giá điều gì?
A. Độ chính xác của việc phân loại văn bản.
B. Khả năng dự đoán từ tiếp theo của mô hình.
C. Tốc độ xử lý văn bản của mô hình.
D. Mức độ phức tạp của kiến trúc mô hình.
27. Mục đích chính của 'information retrieval′ (IR) sử dụng NLP là gì?
A. Dịch văn bản sang ngôn ngữ khác.
B. Tìm kiếm và truy xuất thông tin phù hợp từ một tập hợp lớn các tài liệu văn bản.
C. Tóm tắt nội dung của một tài liệu văn bản.
D. Phân tích cảm xúc trong văn bản.
28. Điểm khác biệt chính giữa stemming và lemmatization trong NLP là gì?
A. Stemming chậm hơn nhưng chính xác hơn lemmatization.
B. Lemmatization đưa từ về dạng gốc có nghĩa, trong khi stemming có thể tạo ra gốc từ không có nghĩa.
C. Stemming chỉ áp dụng cho tiếng Anh, lemmatization áp dụng được cho nhiều ngôn ngữ.
D. Lemmatization loại bỏ stop words, stemming thì không.
29. Trong phân tích cảm xúc (sentiment analysis), độ phân cực (polarity) đề cập đến điều gì?
A. Mức độ chủ quan hay khách quan của văn bản.
B. Cường độ cảm xúc được thể hiện trong văn bản.
C. Hướng cảm xúc (tích cực, tiêu cực hoặc trung tính) của văn bản.
D. Ngôn ngữ được sử dụng trong văn bản (ví dụ: tiếng Anh, tiếng Việt).
30. Mục đích của 'part-of-speech tagging′ (POS tagging) là gì?
A. Dịch văn bản sang ngôn ngữ khác.
B. Phân loại văn bản theo chủ đề.
C. Gán nhãn từ loại (ví dụ: danh từ, động từ, tính từ) cho mỗi từ trong câu.
D. Nhận dạng các thực thể có tên trong văn bản.