1. Kỹ thuật 'backpropagation′ được sử dụng để làm gì trong huấn luyện mạng nơ-ron cho NLP?
A. Tăng tốc độ xử lý
B. Cập nhật trọng số của mạng nơ-ron dựa trên lỗi dự đoán, giúp mô hình học hỏi
C. Giảm kích thước mô hình
D. Biểu diễn dữ liệu văn bản thành vector
2. Dependency parsing (phân tích cú pháp phụ thuộc) khác biệt với constituency parsing (phân tích cú pháp thành phần) như thế nào?
A. Dependency parsing nhanh hơn constituency parsing
B. Dependency parsing tập trung vào quan hệ phụ thuộc giữa các từ, constituency parsing chia câu thành các cụm từ
C. Constituency parsing chính xác hơn dependency parsing
D. Constituency parsing phù hợp hơn cho ngôn ngữ có cấu trúc tự do
3. Bias trong dữ liệu huấn luyện có thể ảnh hưởng đến mô hình NLP như thế nào?
A. Làm giảm tốc độ huấn luyện
B. Dẫn đến kết quả không công bằng hoặc thiên vị trong dự đoán của mô hình
C. Tăng độ chính xác của mô hình
D. Làm mô hình khó hiểu hơn
4. Nhiệm vụ NLP nào liên quan trực tiếp nhất đến việc hiểu cảm xúc trong văn bản?
A. Gán nhãn Part-of-speech
B. Nhận dạng thực thể có tên
C. Phân tích cảm xúc
D. Tóm tắt văn bản
5. Đâu là sự khác biệt chính giữa stemming và lemmatization?
A. Stemming chính xác hơn lemmatization
B. Lemmatization tạo ra dạng cơ sở có nghĩa từ điển, stemming có thể không
C. Stemming xét ngữ cảnh, lemmatization thì không
D. Lemmatization nhanh hơn stemming
6. Fine-tuning một mô hình ngôn ngữ pre-trained (ví dụ BERT) nghĩa là gì?
A. Huấn luyện lại toàn bộ mô hình từ đầu
B. Tiếp tục huấn luyện mô hình pre-trained trên một tập dữ liệu cụ thể cho một nhiệm vụ cụ thể
C. Giảm kích thước của mô hình pre-trained
D. Thay đổi kiến trúc của mô hình pre-trained
7. Chatbot trong NLP sử dụng kỹ thuật gì để duy trì ngữ cảnh trong cuộc hội thoại?
A. Phân tích cú pháp
B. Quản lý trạng thái hội thoại (dialogue state management) và bộ nhớ
C. Nhận dạng giọng nói
D. Sinh văn bản
8. Kịch bản nào sau đây hưởng lợi nhiều nhất từ Nhận dạng thực thể có tên (NER)?
A. Tạo ra các tác phẩm viết sáng tạo
B. Tự động trích xuất thông tin quan trọng (tên, địa điểm, tổ chức) từ bài báo
C. Dịch tài liệu giữa các ngôn ngữ
D. Tóm tắt tài liệu dài thành phiên bản ngắn hơn
9. Token hóa (Tokenization) trong NLP là gì?
A. Nhóm các từ thành câu
B. Chia văn bản thành các từ hoặc đơn vị nhỏ hơn
C. Xác định ranh giới câu
D. Loại bỏ stop words
10. Zero-shot learning trong NLP đề cập đến khả năng gì?
A. Học mà không cần dữ liệu huấn luyện
B. Mô hình có thể thực hiện nhiệm vụ trên các lớp hoặc ngôn ngữ chưa từng thấy trong huấn luyện
C. Huấn luyện mô hình trên dữ liệu tổng hợp
D. Giảm số lượng tham số mô hình xuống 0
11. Question Answering (QA) system trong NLP hoạt động như thế nào?
A. Dịch câu hỏi sang ngôn ngữ máy tính
B. Tiếp nhận câu hỏi bằng ngôn ngữ tự nhiên và trả lời bằng ngôn ngữ tự nhiên, thường dựa trên một nguồn kiến thức
C. Phân tích cú pháp câu hỏi
D. Tóm tắt câu trả lời
12. TF-IDF (Term Frequency-Inverse Document Frequency) được sử dụng để làm gì trong NLP?
A. Giảm số chiều của dữ liệu văn bản
B. Đo lường tầm quan trọng của từ trong một văn bản so với tập hợp văn bản
C. Phân loại văn bản dựa trên chủ đề
D. Phát hiện ngôn ngữ của văn bản
13. Hiện tượng 'catastrophic forgetting′ (quên thảm họa) thường gặp ở loại mô hình học máy nào, và tại sao nó là vấn đề trong NLP?
A. Decision Trees, do dễ bị quá khớp
B. Neural Networks, khi học nhiệm vụ mới, mô hình có thể quên kiến thức từ nhiệm vụ cũ
C. Support Vector Machines, do khó cập nhật mô hình
D. K-Means Clustering, do dữ liệu thay đổi theo thời gian
14. Recurrent Neural Networks (RNNs) đặc biệt phù hợp với nhiệm vụ NLP nào?
A. Phân loại hình ảnh
B. Xử lý dữ liệu dạng chuỗi tuần tự như văn bản
C. Phát hiện gian lận
D. Dự đoán giá cổ phiếu
15. Mô hình word embedding như Word2Vec hoặc GloVe giúp NLP như thế nào?
A. Cải thiện tốc độ xử lý văn bản
B. Biểu diễn từ thành vector số, nắm bắt ngữ nghĩa và quan hệ giữa các từ
C. Giảm dung lượng lưu trữ văn bản
D. Phát hiện lỗi chính tả trong văn bản
16. Stop words trong NLP là gì và tại sao chúng thường bị loại bỏ?
A. Từ mang thông tin quan trọng, loại bỏ để tăng tốc độ xử lý
B. Từ phổ biến, ít mang thông tin ngữ nghĩa, loại bỏ để giảm nhiễu và tập trung vào từ khóa
C. Từ hiếm gặp, loại bỏ để giảm kích thước từ vựng
D. Từ mang cảm xúc tiêu cực, loại bỏ để phân tích khách quan hơn
17. Một thách thức lớn trong NLP liên quan đến sự đa dạng của ngôn ngữ tự nhiên là gì?
A. Tốc độ xử lý chậm
B. Sự mơ hồ (ambiguity) về nghĩa của từ và cấu trúc câu
C. Thiếu dữ liệu huấn luyện
D. Khó khăn trong việc biểu diễn số
18. Mục tiêu chính của Xử lý ngôn ngữ tự nhiên (NLP) là gì?
A. Nhận dạng hình ảnh
B. Tổng hợp giọng nói
C. Hiểu và xử lý ngôn ngữ con người
D. Quản lý cơ sở dữ liệu
19. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của NLP?
A. Chatbot và trợ lý ảo
B. Dịch máy
C. Phân tích dữ liệu tài chính
D. Phân tích cảm xúc trên mạng xã hội
20. Attention mechanism trong Transformer hoạt động bằng cách nào?
A. Loại bỏ thông tin không liên quan
B. Tính toán trọng số cho mỗi từ trong input khi xử lý một từ khác, thể hiện mức độ liên quan
C. Sắp xếp lại thứ tự từ trong câu
D. Nén dữ liệu đầu vào để giảm độ phức tạp
21. N-gram trong NLP là gì?
A. Phương pháp mã hóa ký tự
B. Chuỗi gồm N từ liên tiếp trong văn bản
C. Mô hình ngôn ngữ dựa trên mạng nơ-ron
D. Kỹ thuật giảm nhiễu trong văn bản
22. Bag-of-Words (BoW) là gì trong NLP?
A. Phương pháp biểu diễn văn bản dựa trên thứ tự từ
B. Phương pháp biểu diễn văn bản chỉ đếm tần suất xuất hiện của từ, bỏ qua thứ tự
C. Phương pháp mã hóa văn bản thành vector nhị phân
D. Phương pháp giảm chiều dữ liệu văn bản
23. Mục tiêu của Text Summarization (tóm tắt văn bản) trong NLP là gì?
A. Dịch văn bản sang ngôn ngữ khác
B. Rút gọn văn bản dài thành phiên bản ngắn hơn nhưng vẫn giữ được thông tin quan trọng
C. Phân tích cảm xúc của văn bản
D. Phân loại văn bản theo chủ đề
24. Ưu điểm chính của việc sử dụng mô hình Transformer so với RNNs trong các nhiệm vụ NLP là gì?
A. Transformer dễ huấn luyện hơn
B. Transformer có thể xử lý song song các phần của chuỗi đầu vào, nhanh hơn và hiệu quả hơn cho chuỗi dài
C. Transformer yêu cầu ít dữ liệu huấn luyện hơn
D. Transformer có khả năng diễn giải kết quả tốt hơn
25. Word Sense Disambiguation (WSD) là gì và tại sao nó quan trọng trong NLP?
A. Loại bỏ các từ đa nghĩa khỏi văn bản
B. Xác định nghĩa chính xác của một từ trong ngữ cảnh cụ thể khi từ đó có nhiều nghĩa
C. Dịch các từ đa nghĩa sang ngôn ngữ khác
D. Tóm tắt các định nghĩa của từ đa nghĩa
26. Part-of-Speech (POS) tagging là gì?
A. Phân loại văn bản theo chủ đề
B. Gán nhãn từ loại (danh từ, động từ, tính từ…) cho mỗi từ trong câu
C. Phân tích cú pháp câu
D. Tách câu thành các cụm từ
27. Trong dịch máy (Machine Translation), BLEU score được dùng để làm gì?
A. Đánh giá tốc độ dịch
B. Đánh giá chất lượng bản dịch tự động so với bản dịch tham khảo
C. Đo lường độ phức tạp của văn bản gốc
D. Xác định ngôn ngữ của văn bản
28. Coreference resolution (giải quyết đồng tham chiếu) là gì?
A. Dịch các đại từ nhân xưng sang danh từ
B. Xác định các cụm từ hoặc đại từ khác nhau trong văn bản cùng đề cập đến một thực thể
C. Phân tích cấu trúc câu phức
D. Tóm tắt các tham chiếu trong văn bản
29. Attention mechanism trong Transformers giải quyết vấn đề gì của RNNs trong NLP?
A. Vấn đề quá khớp (overfitting)
B. Vấn đề vanishing gradients và khả năng xử lý chuỗi dài kém hiệu quả
C. Vấn đề tốc độ xử lý chậm
D. Vấn đề yêu cầu bộ nhớ lớn
30. Semantic similarity (tương đồng ngữ nghĩa) trong NLP là gì?
A. Đo độ giống nhau về mặt chính tả giữa hai từ
B. Đo độ giống nhau về ý nghĩa giữa hai đoạn văn bản hoặc từ
C. Đếm số từ chung giữa hai văn bản
D. Xác định ngôn ngữ của hai văn bản