1. Ưu điểm chính của phương pháp Word Embedding so với Bag-of-Words trong biểu diễn văn bản là gì?
A. Word Embedding đơn giản và dễ thực hiện hơn BoW.
B. Word Embedding giữ lại thông tin về ngữ nghĩa và quan hệ giữa các từ, trong khi BoW thì không.
C. Word Embedding tạo ra vector thưa (sparse vector) hơn BoW.
D. Word Embedding không yêu cầu từ điển (vocabulary).
2. Named Entity Recognition (NER) là gì trong NLP?
A. Nhận dạng giọng nói trong văn bản.
B. Nhận dạng và phân loại các thực thể có tên (ví dụ: người, tổ chức, địa điểm) trong văn bản.
C. Nhận dạng cảm xúc trong văn bản.
D. Nhận dạng ngôn ngữ của văn bản.
3. Trong lĩnh vực tìm kiếm thông tin (Information Retrieval), độ đo 'precision′ và 'recall′ được sử dụng để đánh giá điều gì?
A. Tốc độ tìm kiếm và dung lượng lưu trữ.
B. Độ chính xác của kết quả tìm kiếm (precision) và khả năng tìm ra tất cả các tài liệu liên quan (recall).
C. Độ phức tạp của thuật toán tìm kiếm.
D. Giao diện người dùng của hệ thống tìm kiếm.
4. Recurrent Neural Network (RNN) thường được sử dụng trong NLP cho các tác vụ nào?
A. Phân loại ảnh.
B. Xử lý dữ liệu tuần tự như văn bản, giọng nói, do có khả năng ghi nhớ thông tin từ các bước trước.
C. Phát hiện đối tượng trong ảnh.
D. Giảm nhiễu trong ảnh.
5. Trong đánh giá mô hình dịch máy, BLEU score được sử dụng để làm gì?
A. Đo tốc độ dịch của mô hình.
B. Đo mức độ tương đồng giữa bản dịch của máy và bản dịch tham khảo của con người.
C. Đo độ phức tạp của mô hình dịch.
D. Đo dung lượng bộ nhớ cần thiết để chạy mô hình dịch.
6. Thuật ngữ 'knowledge graph′ (đồ thị tri thức) liên quan đến NLP mô tả điều gì?
A. Một loại mô hình ngôn ngữ dựa trên Transformer.
B. Một mạng lưới biểu diễn tri thức dưới dạng đồ thị, trong đó các nút là thực thể (entities) và các cạnh là quan hệ (relations) giữa các thực thể, thu được từ văn bản và các nguồn dữ liệu khác.
C. Một thuật toán để tóm tắt văn bản.
D. Một phương pháp dịch máy sử dụng đồ thị.
7. Fine-tuning một mô hình ngôn ngữ tiền huấn luyện (pre-trained language model) như BERT nghĩa là gì?
A. Huấn luyện lại toàn bộ mô hình từ đầu với dữ liệu mới.
B. Tiếp tục huấn luyện mô hình tiền huấn luyện trên một tập dữ liệu nhỏ hơn, cụ thể cho một tác vụ NLP nhất định, tận dụng kiến thức đã học từ dữ liệu lớn.
C. Thay đổi kiến trúc mạng của mô hình.
D. Nén mô hình để giảm kích thước.
8. Mô hình ngôn ngữ (Language Model) trong NLP được sử dụng để làm gì?
A. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
B. Dự đoán xác suất xuất hiện của một chuỗi từ trong ngôn ngữ.
C. Tóm tắt văn bản dài thành văn bản ngắn hơn.
D. Phân tích cảm xúc của văn bản.
9. Từ dừng (stop words) trong NLP là gì và tại sao chúng thường bị loại bỏ?
A. Các từ quan trọng nhất trong văn bản, bị loại bỏ để giảm nhiễu.
B. Các từ phổ biến, ít mang ý nghĩa ngữ nghĩa trong ngữ cảnh cụ thể, thường bị loại bỏ để tập trung vào từ khóa quan trọng.
C. Các từ không có trong từ điển, bị loại bỏ để chuẩn hóa văn bản.
D. Các từ mang tính cảm xúc tiêu cực, bị loại bỏ để phân tích văn bản khách quan.
10. Mục tiêu chính của tiền xử lý văn bản trong NLP là gì?
A. Tăng kích thước bộ dữ liệu văn bản.
B. Giảm độ phức tạp và chuẩn hóa dữ liệu văn bản để phân tích hiệu quả hơn.
C. Tạo ra văn bản mới từ dữ liệu hiện có.
D. Thay đổi ngôn ngữ của văn bản.
11. Trong ngữ cảnh của chatbot, 'intent classification′ (phân loại ý định) là gì?
A. Phân loại cảm xúc của người dùng.
B. Xác định mục đích hoặc ý định chính của người dùng trong câu hỏi hoặc yêu cầu của họ.
C. Phân loại ngôn ngữ mà người dùng đang sử dụng.
D. Phân loại chủ đề của cuộc trò chuyện.
12. Phương pháp 'n-gram′ được sử dụng trong NLP để làm gì?
A. Phân tích cú pháp của câu.
B. Phân tích ngữ nghĩa của câu.
C. Mô hình hóa chuỗi ngôn ngữ bằng cách xem xét chuỗi n từ liên tiếp, hữu ích trong mô hình ngôn ngữ và các tác vụ liên quan đến chuỗi.
D. Tóm tắt văn bản.
13. BERT (Bidirectional Encoder Representations from Transformers) là gì và điểm nổi bật của nó trong NLP là gì?
A. Một mô hình dịch máy dựa trên RNN.
B. Một mô hình ngôn ngữ Transformer được huấn luyện song hướng (bidirectional), hiểu ngữ cảnh từ cả hai phía của từ, cải thiện đáng kể hiệu suất trong nhiều tác vụ NLP.
C. Một thuật toán nén văn bản để giảm kích thước dữ liệu.
D. Một phương pháp tạo sinh văn bản ngẫu nhiên.
14. Trong lĩnh vực chatbot, NLU (Natural Language Understanding) đóng vai trò gì?
A. Tạo ra phản hồi văn bản.
B. Hiểu ý định của người dùng từ ngôn ngữ tự nhiên đầu vào.
C. Chuyển đổi văn bản thành giọng nói.
D. Quản lý lịch sử hội thoại.
15. Bài toán 'coreference resolution′ trong NLP giải quyết vấn đề gì?
A. Phân loại chủ đề của văn bản.
B. Xác định các cụm từ hoặc đại từ khác nhau trong văn bản cùng đề cập đến một thực thể.
C. Dịch văn bản sang ngôn ngữ khác.
D. Tóm tắt văn bản.
16. Thách thức lớn nhất hiện nay trong phát triển NLP cho các ngôn ngữ ít tài nguyên (low-resource languages) là gì?
A. Thiếu phần cứng máy tính mạnh mẽ.
B. Sự khan hiếm dữ liệu huấn luyện có nhãn chất lượng cao và các công cụ NLP được phát triển cho các ngôn ngữ này.
C. Sự phức tạp của ngữ pháp các ngôn ngữ này.
D. Thiếu chuyên gia NLP am hiểu các ngôn ngữ này.
17. Mục tiêu của 'sentiment analysis′ (phân tích cảm xúc) trong NLP là gì?
A. Phân loại văn bản theo chủ đề.
B. Xác định cảm xúc hoặc thái độ thể hiện trong văn bản (ví dụ: tích cực, tiêu cực, trung lập).
C. Dịch văn bản sang ngôn ngữ khác.
D. Tóm tắt văn bản.
18. Phương pháp 'backpropagation′ được sử dụng trong huấn luyện mạng nơ-ron cho NLP để làm gì?
A. Tăng tốc độ xử lý văn bản.
B. Cập nhật trọng số của mạng nơ-ron dựa trên lỗi dự đoán, nhằm giảm thiểu lỗi và cải thiện độ chính xác.
C. Chọn kiến trúc mạng nơ-ron phù hợp.
D. Tiền xử lý dữ liệu văn bản.
19. Phương pháp 'stemming′ trong NLP thường được sử dụng để làm gì?
A. Tăng cường ý nghĩa của từ.
B. Giảm số lượng từ khác nhau bằng cách đưa các từ về dạng gốc.
C. Tìm từ đồng nghĩa của từ.
D. Kiểm tra chính tả của từ.
20. Kỹ thuật 'tokenization′ trong NLP đề cập đến quá trình nào?
A. Chuyển đổi văn bản thành giọng nói.
B. Chia văn bản thành các đơn vị nhỏ hơn, chẳng hạn như từ hoặc cụm từ.
C. Loại bỏ các từ dừng (stop words) khỏi văn bản.
D. Phân tích cú pháp của câu.
21. Bag-of-Words (BoW) là một phương pháp biểu diễn văn bản trong NLP. Nhược điểm chính của BoW là gì?
A. BoW không thể xử lý văn bản dài.
B. BoW mất đi thông tin về thứ tự và cấu trúc ngữ pháp của từ trong câu.
C. BoW chỉ hoạt động với tiếng Anh.
D. BoW yêu cầu lượng lớn dữ liệu huấn luyện.
22. Một ứng dụng của NLP trong lĩnh vực y tế là gì?
A. Nhận dạng khuôn mặt bệnh nhân.
B. Phân tích hồ sơ bệnh án điện tử để trích xuất thông tin bệnh sử, triệu chứng, và hỗ trợ chẩn đoán.
C. Điều khiển robot phẫu thuật.
D. Quản lý kho thuốc.
23. Phân tích cú pháp (parsing) trong NLP nhằm mục đích gì?
A. Tìm từ đồng nghĩa của từ trong câu.
B. Phân tích cấu trúc ngữ pháp của câu, xác định vai trò và quan hệ giữa các thành phần câu.
C. Dịch câu từ ngôn ngữ này sang ngôn ngữ khác.
D. Tóm tắt nội dung chính của câu.
24. Transformer Networks, đặc biệt là cơ chế 'self-attention′, đã cải thiện hiệu suất NLP như thế nào so với RNN?
A. Transformer chậm hơn nhưng chính xác hơn RNN.
B. Transformer cho phép xử lý song song các phần của chuỗi đầu vào, khắc phục hạn chế tuần tự của RNN, tăng tốc độ và hiệu quả, đặc biệt với chuỗi dài.
C. Transformer chỉ hiệu quả với ngôn ngữ có cấu trúc ngữ pháp đơn giản.
D. Transformer kém hiệu quả hơn RNN trong việc ghi nhớ thông tin ngữ cảnh dài hạn.
25. Lemmatization khác với stemming như thế nào trong NLP?
A. Lemmatization nhanh hơn stemming.
B. Lemmatization đưa từ về dạng gốc có nghĩa (lemma) dựa trên từ điển và phân tích hình thái, trong khi stemming chỉ đơn giản cắt bỏ hậu tố có thể không tạo ra từ có nghĩa.
C. Lemmatization chỉ áp dụng cho tiếng Anh, còn stemming áp dụng cho mọi ngôn ngữ.
D. Stemming chính xác hơn lemmatization.
26. Word Embedding (ví dụ: Word2Vec, GloVe) trong NLP có vai trò gì?
A. Mã hóa văn bản thành hình ảnh.
B. Biểu diễn từ thành vector số trong không gian nhiều chiều, thể hiện mối quan hệ ngữ nghĩa giữa các từ.
C. Phân loại văn bản dựa trên chủ đề.
D. Tạo ra văn bản mới dựa trên phong cách cho trước.
27. Vấn đề 'vanishing gradient′ (gradient biến mất) thường gặp phải trong quá trình huấn luyện mạng RNN dài. Giải pháp phổ biến để giảm thiểu vấn đề này là gì?
A. Sử dụng hàm kích hoạt ReLU thay vì sigmoid.
B. Sử dụng kiến trúc LSTM hoặc GRU, có cơ chế cổng (gate) giúp duy trì thông tin qua các bước thời gian dài hơn.
C. Tăng kích thước batch size.
D. Giảm số lượng lớp trong mạng RNN.
28. TF-IDF là viết tắt của thuật ngữ nào và nó được sử dụng để làm gì trong NLP?
A. Term Frequency - Inverse Document Frequency, dùng để đánh giá tầm quan trọng của từ trong một văn bản so với tập hợp văn bản.
B. Text Filtering - Information Distribution Function, dùng để lọc thông tin và phân phối văn bản.
C. Topic Frequency - Inverse Document Format, dùng để xác định tần suất chủ đề trong định dạng văn bản.
D. Time Frame - Interval Data Filter, dùng để lọc dữ liệu theo khung thời gian.
29. Trong NLP, 'zero-shot learning′ đề cập đến khả năng gì của mô hình?
A. Khả năng học mà không cần dữ liệu huấn luyện.
B. Khả năng thực hiện tốt trên các tác vụ hoặc lớp (class) mà mô hình chưa từng được huấn luyện trực tiếp.
C. Khả năng học siêu nhanh.
D. Khả năng quên kiến thức cũ khi học kiến thức mới.
30. Ứng dụng nào sau đây KHÔNG phải là ứng dụng chính của NLP?
A. Dịch máy tự động.
B. Nhận dạng hình ảnh.
C. Phân tích cảm xúc văn bản.
D. Chatbot và trợ lý ảo.