1. Trong lĩnh vực thương mại điện tử, NLP có thể được sử dụng để:
A. Tối ưu hóa thiết kế website.
B. Phân tích đánh giá sản phẩm của khách hàng.
C. Quản lý kho hàng tự động.
D. Dự đoán xu hướng thị trường chứng khoán.
2. Một ứng dụng của NLP trong việc hỗ trợ người khuyết tật là gì?
A. Điều khiển thiết bị bằng giọng nói cho người khuyết tật vận động.
B. Phân tích dữ liệu gen để chữa bệnh di truyền.
C. Tạo ra robot phẫu thuật từ xa.
D. Phát triển hệ thống giao thông thông minh.
3. Mục đích chính của 'stop word removal′ trong NLP là gì?
A. Tăng cường tính đa dạng từ vựng trong văn bản.
B. Giảm kích thước dữ liệu và cải thiện hiệu suất xử lý.
C. Đảm bảo tất cả các từ trong văn bản đều có nghĩa.
D. Chuyển đổi tất cả các từ về dạng nguyên gốc của chúng.
4. Một thách thức lớn trong NLP khi xử lý ngôn ngữ tiếng Việt là gì?
A. Tiếng Việt không có bảng chữ cái.
B. Sự đa dạng về phương ngữ và biến thể ngôn ngữ.
C. Tiếng Việt không có từ vay mượn.
D. Tiếng Việt là ngôn ngữ đơn âm tiết.
5. Transformer networks, kiến trúc nền tảng của BERT và GPT, khắc phục nhược điểm chính nào của RNNs trong NLP?
A. Khả năng xử lý song song kém và khó học các phụ thuộc xa trong chuỗi.
B. Yêu cầu lượng dữ liệu đào tạo quá lớn.
C. Khó khăn trong việc xử lý ngôn ngữ đa ngôn ngữ.
D. Hiệu suất kém khi xử lý văn bản ngắn.
6. TF-IDF là viết tắt của thuật ngữ nào và nó được sử dụng để làm gì trong NLP?
A. Term Frequency - Inverse Document Frequency; đo lường tầm quan trọng của từ trong một văn bản so với toàn bộ tập văn bản.
B. Text Filtering and Information Distribution Function; phân loại và phân phối thông tin văn bản.
C. Topic Frequency - Iterative Document Filtering; xác định chủ đề chính và lọc tài liệu liên quan.
D. Transformational Feature - Independent Data Format; chuyển đổi và định dạng dữ liệu đặc trưng độc lập.
7. Trong NLP, 'coreference resolution′ (giải quyết đồng tham chiếu) là gì?
A. Dịch các cụm từ đồng nghĩa sang ngôn ngữ khác.
B. Xác định các cụm từ hoặc đại từ khác nhau trong văn bản cùng tham chiếu đến một thực thể.
C. Loại bỏ các từ lặp lại trong văn bản.
D. Tìm kiếm các từ có liên quan đến một chủ đề cụ thể.
8. Tại sao việc xử lý ngôn ngữ tự nhiên lại quan trọng trong thời đại thông tin hiện nay?
A. Vì máy tính không thể hiểu được ngôn ngữ lập trình.
B. Vì phần lớn dữ liệu trên thế giới tồn tại ở dạng ngôn ngữ tự nhiên.
C. Vì con người ngày càng ít sử dụng ngôn ngữ viết.
D. Vì NLP giúp giảm chi phí dịch thuật.
9. Trong NLP, 'parsing′ (phân tích cú pháp) nhằm mục đích gì?
A. Chuyển đổi văn bản thành giọng nói.
B. Phân tích cấu trúc ngữ pháp của câu và mối quan hệ giữa các thành phần.
C. Loại bỏ các từ không quan trọng trong câu.
D. Dịch câu sang ngôn ngữ khác.
10. Ứng dụng nào sau đây KHÔNG phải là một ứng dụng phổ biến của NLP?
A. Chatbots và trợ lý ảo.
B. Phân tích dữ liệu tài chính.
C. Dịch máy tự động.
D. Phân tích cảm xúc trên mạng xã hội.
11. Mục tiêu của 'Sentiment Analysis′ (Phân tích cảm xúc) trong NLP là gì?
A. Dịch văn bản sang ngôn ngữ khác dựa trên cảm xúc.
B. Xác định và phân loại cảm xúc thể hiện trong văn bản, như tích cực, tiêu cực, trung lập.
C. Tạo ra văn bản thể hiện một cảm xúc cụ thể.
D. Đánh giá chất lượng văn bản dựa trên độ dài và cấu trúc câu.
12. GPT (Generative Pre-trained Transformer) được biết đến nhiều nhất với khả năng nào?
A. Phân tích cảm xúc văn bản.
B. Sinh văn bản tự nhiên, mạch lạc và giống con người.
C. Dịch máy chính xác cao.
D. Nhận dạng giọng nói.
13. Kỹ thuật 'Part-of-speech tagging′ (POS tagging) trong NLP là gì?
A. Phân chia văn bản thành các câu.
B. Gán nhãn từ loại (danh từ, động từ, tính từ,…) cho mỗi từ trong câu.
C. Loại bỏ các từ không quan trọng trong câu.
D. Tìm kiếm các từ khóa quan trọng trong văn bản.
14. BERT (Bidirectional Encoder Representations from Transformers) khác biệt so với các mô hình ngôn ngữ trước đó như thế nào?
A. Chỉ có thể được sử dụng cho tác vụ phân loại văn bản.
B. Được đào tạo trên dữ liệu hình ảnh thay vì văn bản.
C. Sử dụng đào tạo hai chiều (bidirectional) để hiểu ngữ cảnh từ cả hai phía của từ.
D. Chỉ hỗ trợ tiếng Anh và không thể mở rộng sang các ngôn ngữ khác.
15. Word embeddings, như Word2Vec và GloVe, được sử dụng để làm gì trong NLP?
A. Mã hóa văn bản thành hình ảnh để phân tích trực quan.
B. Biểu diễn từ dưới dạng vector số thực trong không gian nhiều chiều, nắm bắt ngữ nghĩa.
C. Nén dữ liệu văn bản để giảm dung lượng lưu trữ.
D. Phân tích cảm xúc của văn bản dựa trên từ khóa.
16. Cơ chế 'Attention′ trong Transformer networks hoạt động như thế nào?
A. Loại bỏ các từ không quan trọng trong câu.
B. Tập trung vào các phần quan trọng nhất của đầu vào khi tạo ra đầu ra.
C. Chia nhỏ câu thành các phần nhỏ hơn để xử lý tuần tự.
D. Sử dụng bộ nhớ đệm để lưu trữ kết quả trung gian.
17. Một ví dụ về ứng dụng NLP trong lĩnh vực giáo dục là gì?
A. Tự động chấm điểm bài luận và bài tập viết.
B. Phân tích dữ liệu điểm thi trắc nghiệm.
C. Tạo ra phần mềm mô phỏng thí nghiệm khoa học.
D. Quản lý hồ sơ học sinh trực tuyến.
18. Mục tiêu chính của xử lý ngôn ngữ tự nhiên (NLP) là gì?
A. Chuyển đổi ngôn ngữ lập trình sang ngôn ngữ tự nhiên.
B. Giúp máy tính hiểu, diễn giải và tạo ra ngôn ngữ của con người.
C. Phát triển các thuật toán nén dữ liệu văn bản.
D. Tạo ra các hệ thống dịch máy hoàn hảo cho mọi ngôn ngữ.
19. Ứng dụng của NLP trong lĩnh vực y tế bao gồm:
A. Phân tích hình ảnh X-quang.
B. Tự động hóa phẫu thuật.
C. Trích xuất thông tin từ hồ sơ bệnh án điện tử.
D. Thiết kế thuốc mới.
20. Trong ngữ cảnh của NLP, 'Bag of Words′ (BoW) là gì?
A. Một kỹ thuật để tạo ra văn bản mới từ dữ liệu hiện có.
B. Một phương pháp biểu diễn văn bản dưới dạng tập hợp không thứ tự của các từ.
C. Một thuật toán để dịch văn bản giữa các ngôn ngữ khác nhau.
D. Một kỹ thuật để phân tích cấu trúc cú pháp của câu.
21. Phương pháp nào sau đây thường được sử dụng để đánh giá hiệu suất của mô hình dịch máy NLP?
A. Độ chính xác phân loại (Classification Accuracy).
B. Điểm BLEU (Bilingual Evaluation Understudy).
C. Giá trị F1 (F1-score).
D. Độ đo AUC (Area Under the Curve).
22. Trong NLP, 'Named Entity Recognition′ (NER) là quá trình gì?
A. Chuyển đổi tên thực thể thành dạng số.
B. Xác định và phân loại các thực thể có tên trong văn bản, như người, tổ chức, địa điểm.
C. Loại bỏ tên riêng khỏi văn bản để bảo vệ quyền riêng tư.
D. Tạo ra tên mới cho các sản phẩm hoặc dịch vụ.
23. Recurrent Neural Networks (RNNs) đặc biệt phù hợp cho tác vụ NLP nào?
A. Phân loại hình ảnh.
B. Xử lý dữ liệu tuần tự như văn bản và giọng nói.
C. Dự đoán giá cổ phiếu.
D. Phát hiện gian lận trong giao dịch tài chính.
24. Kỹ thuật 'Stemming′ trong NLP làm gì?
A. Chuyển đổi văn bản thành giọng nói.
B. Rút gọn từ về dạng gốc bằng cách loại bỏ hậu tố và tiền tố.
C. Phân tích cấu trúc ngữ pháp của câu.
D. Tìm kiếm các từ đồng nghĩa của một từ.
25. So sánh 'Stemming′ và 'Lemmatization′, điểm khác biệt chính là gì?
A. Stemming chậm hơn Lemmatization nhưng chính xác hơn.
B. Lemmatization đưa về dạng từ điển (lemma), Stemming chỉ đơn giản cắt tỉa.
C. Stemming chỉ áp dụng cho tiếng Anh, Lemmatization áp dụng cho mọi ngôn ngữ.
D. Lemmatization loại bỏ stop words, Stemming thì không.
26. Trong NLP, 'tokenization′ đề cập đến quá trình nào?
A. Chuyển đổi văn bản thành giọng nói.
B. Phân chia văn bản thành các đơn vị nhỏ hơn, như từ hoặc cụm từ.
C. Loại bỏ các từ dừng (stop words) khỏi văn bản.
D. Gán nhãn từ loại (part-of-speech tagging) cho mỗi từ trong văn bản.
27. Phương pháp nào sau đây KHÔNG phải là một kỹ thuật phổ biến trong NLP để xử lý văn bản?
A. Stemming và Lemmatization.
B. Phân tích cú pháp (Parsing).
C. Mã hóa hình ảnh (Image encoding).
D. Nhận dạng thực thể có tên (Named Entity Recognition).
28. Điều gì KHÔNG phải là một bước tiền xử lý văn bản phổ biến trong NLP?
A. Chuyển đổi văn bản thành chữ thường.
B. Thêm thông tin ngữ cảnh vào văn bản.
C. Loại bỏ dấu câu và ký tự đặc biệt.
D. Phân tách từ (word segmentation).
29. Mô hình ngôn ngữ (Language Model) trong NLP được sử dụng để làm gì?
A. Dịch văn bản sang ngôn ngữ khác.
B. Dự đoán xác suất xuất hiện của một chuỗi từ trong ngôn ngữ.
C. Phân loại văn bản theo chủ đề.
D. Tóm tắt văn bản dài thành văn bản ngắn hơn.
30. Trong NLP, 'knowledge graph′ (biểu đồ tri thức) được sử dụng để làm gì?
A. Biểu diễn văn bản dưới dạng đồ thị hình ảnh.
B. Lưu trữ và truy xuất thông tin dưới dạng các thực thể và mối quan hệ giữa chúng.
C. Phân tích cấu trúc cú pháp của câu dưới dạng đồ thị.
D. Tạo ra các mô hình ngôn ngữ dựa trên đồ thị.