1. Trong NLP, 'tokenization′ đề cập đến quá trình nào?
A. Biến đổi văn bản thành giọng nói.
B. Chia văn bản thành các đơn vị nhỏ hơn, ví dụ như từ hoặc cụm từ.
C. Xác định ý nghĩa của từ trong ngữ cảnh.
D. Loại bỏ các từ dừng (stop words) khỏi văn bản.
2. Kỹ thuật 'Word Embeddings′ (ví dụ Word2Vec, GloVe) biểu diễn từ ngữ như thế nào?
A. Dạng hình ảnh.
B. Dạng số nguyên duy nhất.
C. Dạng vectơ số thực đa chiều.
D. Dạng mã nhị phân.
3. Fine-tuning (tinh chỉnh) một mô hình pre-trained (ví dụ BERT, GPT) có nghĩa là gì?
A. Huấn luyện lại mô hình từ đầu với dữ liệu lớn hơn.
B. Tiếp tục huấn luyện mô hình đã được huấn luyện trước đó trên một tập dữ liệu nhỏ hơn, cụ thể cho một tác vụ nhất định.
C. Thay đổi kiến trúc mô hình.
D. Nén mô hình để giảm kích thước.
4. Kỹ thuật 'sequence-to-sequence′ (seq2seq) thường được sử dụng trong bài toán NLP nào?
A. Phân loại văn bản.
B. Dịch máy và tóm tắt văn bản.
C. Phân tích cảm xúc.
D. Nhận diện thực thể có tên.
5. Phương pháp nào thường được sử dụng để đánh giá hiệu suất của một mô hình phân loại văn bản (text classification)?
A. Độ chính xác (Accuracy).
B. Độ đo F1 (F1-score).
C. Ma trận nhầm lẫn (Confusion Matrix).
D. Tất cả các phương pháp trên.
6. Kỹ thuật 'stemming′ trong NLP nhằm mục đích gì?
A. Tìm dạng nguyên gốc của từ bằng cách loại bỏ các hậu tố.
B. Thay thế từ bằng từ đồng nghĩa.
C. Phân loại từ theo loại từ (danh từ, động từ…).
D. Phân tích ý nghĩa ngữ cảnh của từ.
7. GPT (Generative Pre-trained Transformer) được biết đến nhiều nhất với khả năng nào?
A. Phân loại văn bản với độ chính xác cao.
B. Sinh văn bản mạch lạc, tự nhiên và đa dạng, gần giống văn phong con người.
C. Phân tích cú pháp câu phức tạp.
D. Nhận diện khuôn mặt trong ảnh và video.
8. Ưu điểm chính của phương pháp 'học sâu′ (Deep Learning) so với các phương pháp truyền thống trong NLP là gì?
A. Dễ dàng giải thích kết quả hơn.
B. Đòi hỏi ít dữ liệu huấn luyện hơn.
C. Khả năng tự động học các đặc trưng phức tạp từ dữ liệu thô.
D. Tốc độ xử lý nhanh hơn.
9. Trong NLP, 'Named Entity Recognition′ (NER) có chức năng gì?
A. Dịch tên riêng sang ngôn ngữ khác.
B. Nhận diện và phân loại các thực thể có tên trong văn bản (ví dụ: người, tổ chức, địa điểm).
C. Tìm kiếm các từ khóa quan trọng trong văn bản.
D. Sửa lỗi chính tả trong văn bản.
10. Vấn đề 'bias′ (thiên kiến) trong NLP có thể phát sinh từ đâu?
A. Do lỗi lập trình trong thuật toán.
B. Do chất lượng phần cứng máy tính kém.
C. Từ dữ liệu huấn luyện có chứa thiên kiến xã hội hoặc văn hóa.
D. Do sử dụng ngôn ngữ lập trình không phù hợp.
11. Transformer networks, kiến trúc nền tảng của mô hình BERT và GPT, loại bỏ thành phần nào so với mô hình RNN truyền thống trong seq2seq?
A. Cơ chế attention.
B. Cơ chế recurrent (tính tuần hoàn).
C. Lớp embedding.
D. Lớp fully connected.
12. Mục tiêu chính của Xử lý ngôn ngữ tự nhiên (NLP) là gì?
A. Phân tích cú pháp câu văn.
B. Giúp máy tính hiểu, diễn giải và tạo ra ngôn ngữ của con người.
C. Dịch ngôn ngữ giữa các quốc gia.
D. Lưu trữ và truy xuất dữ liệu văn bản.
13. Trong NLP, 'attention mechanism′ (cơ chế chú ý) giải quyết vấn đề gì trong mô hình seq2seq?
A. Tăng tốc độ huấn luyện mô hình.
B. Giúp mô hình tập trung vào các phần quan trọng của chuỗi đầu vào khi tạo chuỗi đầu ra, khắc phục hạn chế của việc nén toàn bộ thông tin vào một vectơ ngữ cảnh cố định.
C. Giảm thiểu overfitting.
D. Cải thiện khả năng xử lý ngôn ngữ đa ngôn ngữ.
14. Trong lĩnh vực dịch máy (machine translation), 'BLEU score′ được sử dụng để làm gì?
A. Đo tốc độ dịch của hệ thống.
B. Đánh giá chất lượng bản dịch tự động so với bản dịch tham khảo.
C. Đo mức độ sử dụng tài nguyên máy tính của hệ thống dịch.
D. Xác định ngôn ngữ nguồn và ngôn ngữ đích.
15. Trong ngữ cảnh của hệ thống hỏi đáp (Question Answering), 'extractive QA′ khác với 'abstractive QA′ như thế nào?
A. Extractive QA nhanh hơn abstractive QA.
B. Extractive QA trích xuất câu trả lời trực tiếp từ văn bản nguồn, còn abstractive QA tạo ra câu trả lời mới, diễn đạt lại ý từ văn bản nguồn.
C. Abstractive QA chỉ hoạt động với văn bản tiếng Anh.
D. Extractive QA sử dụng mô hình học sâu, còn abstractive QA thì không.
16. Kỹ thuật 'topic modeling′ (ví dụ LDA) trong NLP giúp khám phá điều gì trong một tập hợp văn bản?
A. Cấu trúc cú pháp của câu.
B. Mối quan hệ giữa các thực thể có tên.
C. Các chủ đề tiềm ẩn (latent topics) bao trùm các văn bản.
D. Cảm xúc chủ đạo trong từng văn bản.
17. Thách thức chính của NLP trong xử lý ngôn ngữ tiếng Việt là gì so với tiếng Anh?
A. Tiếng Việt có ít từ vựng hơn tiếng Anh.
B. Tiếng Việt là ngôn ngữ đơn lập, không biến hình, và có thanh điệu, gây khó khăn trong phân tích hình thái và xử lý ngữ nghĩa.
C. Tiếng Việt không có bảng chữ cái Latinh.
D. Tiếng Việt không có ngữ pháp.
18. Trong NLP, 'zero-shot learning′ (học không mẫu) đề cập đến khả năng gì của mô hình?
A. Học từ dữ liệu không có nhãn.
B. Giải quyết các tác vụ mà mô hình chưa từng được huấn luyện trực tiếp trên dữ liệu của tác vụ đó.
C. Huấn luyện mô hình mà không cần dữ liệu.
D. Chuyển kiến thức từ một ngôn ngữ sang ngôn ngữ khác mà không cần dữ liệu song ngữ.
19. Trong ngữ cảnh của chatbot, 'intent recognition′ (nhận diện ý định) là gì?
A. Xác định ngôn ngữ mà người dùng đang sử dụng.
B. Phân tích cảm xúc của người dùng.
C. Hiểu mục đích hoặc mong muốn của người dùng thông qua câu nói của họ.
D. Tạo ra phản hồi tự nhiên và phù hợp.
20. Phương pháp nào sau đây KHÔNG thuộc về kỹ thuật 'phân tích cú pháp′ (parsing) trong NLP?
A. Phân tích cú pháp phụ thuộc (Dependency parsing).
B. Phân tích cú pháp thành phần (Constituency parsing).
C. Phân tích hình thái học (Morphological analysis).
D. Phân tích cú pháp chuyển đổi (Transition-based parsing).
21. Mô hình BERT (Bidirectional Encoder Representations from Transformers) nổi bật với khả năng gì?
A. Sinh văn bản tự do giống con người.
B. Hiểu ngữ cảnh hai chiều (bidirectional context) của từ trong câu, cải thiện hiệu suất trong nhiều bài toán NLP.
C. Dịch ngôn ngữ theo thời gian thực.
D. Tóm tắt văn bản cực dài.
22. Mô hình ngôn ngữ (Language Model) trong NLP được sử dụng để làm gì?
A. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
B. Dự đoán xác suất xuất hiện của một chuỗi từ trong ngôn ngữ.
C. Phân tích cảm xúc của văn bản.
D. Tóm tắt văn bản dài thành văn bản ngắn gọn hơn.
23. Kỹ thuật 'information extraction′ (IE) trong NLP tập trung vào việc gì?
A. Tạo ra văn bản thông tin mới.
B. Trích xuất thông tin có cấu trúc từ văn bản phi cấu trúc (ví dụ: mối quan hệ, sự kiện, thuộc tính).
C. Dịch thông tin sang ngôn ngữ khác.
D. Tóm tắt thông tin quan trọng nhất trong văn bản.
24. Khi đánh giá mô hình NLP, tại sao cần sử dụng tập kiểm thử (test set) riêng biệt với tập huấn luyện (training set)?
A. Để tăng tốc độ huấn luyện.
B. Để đánh giá khả năng khái quát hóa của mô hình trên dữ liệu mới, chưa từng thấy trong quá trình huấn luyện, tránh đánh giá quá lạc quan do 'học vẹt′ trên dữ liệu huấn luyện.
C. Để dễ dàng so sánh với các mô hình khác.
D. Để giảm overfitting.
25. Hạn chế của mô hình ngôn ngữ thống kê n-gram là gì?
A. Khó xử lý ngôn ngữ có cấu trúc phức tạp.
B. Không thể học được ngữ nghĩa của từ.
C. Vấn đề 'sparsity′ (dữ liệu thưa thớt) khi n lớn, dẫn đến khó khái quát hóa cho các n-gram chưa gặp.
D. Chỉ hoạt động tốt với tiếng Anh.
26. Giải pháp nào sau đây KHÔNG giúp giảm thiểu 'bias′ trong mô hình NLP?
A. Thu thập và sử dụng dữ liệu huấn luyện đa dạng và cân bằng hơn.
B. Sử dụng các kỹ thuật 'data augmentation′ (tăng cường dữ liệu).
C. Tăng kích thước mô hình (thêm nhiều tham số).
D. Áp dụng các phương pháp 'debiasing′ (giảm thiên kiến) trong quá trình huấn luyện hoặc sau huấn luyện.
27. Ứng dụng nào sau đây KHÔNG phải là ứng dụng trực tiếp của NLP?
A. Chatbot hỗ trợ khách hàng.
B. Phần mềm nhận diện khuôn mặt.
C. Công cụ dịch máy.
D. Hệ thống phân tích cảm xúc văn bản.
28. Ứng dụng nào của NLP có tiềm năng lớn nhất trong lĩnh vực y tế?
A. Chatbot hỗ trợ đặt lịch khám.
B. Phân tích bệnh án điện tử để hỗ trợ chẩn đoán và điều trị.
C. Dịch thuật tài liệu y tế.
D. Tóm tắt thông tin bệnh nhân.
29. Khi nào thì 'phân tích cảm xúc′ (sentiment analysis) trở nên đặc biệt hữu ích?
A. Khi cần dịch văn bản sang nhiều ngôn ngữ.
B. Khi muốn tự động tóm tắt nội dung văn bản dài.
C. Khi cần đánh giá ý kiến, thái độ của người dùng từ dữ liệu văn bản (ví dụ: đánh giá sản phẩm, bình luận trên mạng xã hội).
D. Khi cần nhận diện các thực thể có tên trong văn bản pháp luật.
30. Sự khác biệt chính giữa 'stemming′ và 'lemmatization′ là gì?
A. Stemming chậm hơn lemmatization.
B. Lemmatization tạo ra từ gốc có nghĩa, trong khi stemming có thể tạo ra gốc từ không có nghĩa.
C. Stemming sử dụng từ điển, còn lemmatization thì không.
D. Lemmatization chỉ áp dụng cho tiếng Anh, stemming cho mọi ngôn ngữ.