1. Text summarization (tóm tắt văn bản) trong NLP có hai phương pháp chính là:
A. Stemming và lemmatization.
B. Extractive và abstractive summarization.
C. Rule-based và statistical methods.
D. Supervised và unsupervised learning.
2. Zero-shot learning trong NLP có nghĩa là:
A. Mô hình học mà không cần bất kỳ dữ liệu huấn luyện nào.
B. Mô hình có thể thực hiện tác vụ mà nó chưa từng được huấn luyện trực tiếp.
C. Mô hình chỉ học từ dữ liệu không có nhãn.
D. Mô hình được huấn luyện trên dữ liệu tổng hợp.
3. Xử lý ngôn ngữ tự nhiên (NLP) tập trung chủ yếu vào việc:
A. Phân tích dữ liệu số lượng lớn.
B. Tương tác giữa máy tính và ngôn ngữ con người.
C. Thiết kế giao diện người dùng trực quan.
D. Phát triển phần cứng máy tính mạnh mẽ hơn.
4. Information Extraction (trích xuất thông tin) trong NLP nhằm mục đích:
A. Dịch thông tin sang ngôn ngữ khác.
B. Tự động trích xuất thông tin có cấu trúc từ văn bản phi cấu trúc.
C. Tóm tắt thông tin quan trọng trong văn bản.
D. Phân tích cảm xúc của thông tin.
5. Recurrent Neural Networks (RNNs) đặc biệt phù hợp cho các tác vụ NLP nào?
A. Phân loại hình ảnh.
B. Xử lý dữ liệu chuỗi tuần tự như văn bản.
C. Phát hiện gian lận trong giao dịch tài chính.
D. Tối ưu hóa đường đi trong bản đồ.
6. Stop words (từ dừng) thường được loại bỏ trong NLP vì:
A. Chúng chứa thông tin ngữ nghĩa quan trọng nhất.
B. Chúng xuất hiện rất thường xuyên và ít đóng góp vào ý nghĩa.
C. Chúng gây khó khăn cho việc tokenization.
D. Chúng chỉ có trong một số ngôn ngữ nhất định.
7. Phương pháp nào sau đây thuộc về kỹ thuật 'stemming′ trong NLP?
A. Thay thế từ bằng dạng gốc có nghĩa (lemma).
B. Giảm từ về dạng gốc bằng cách loại bỏ hậu tố.
C. Phân tích cấu trúc ngữ pháp của câu.
D. Xác định ý nghĩa ngữ cảnh của từ.
8. Một thách thức lớn trong NLP liên quan đến sự mơ hồ của ngôn ngữ là:
A. Tốc độ xử lý chậm.
B. Một từ hoặc cụm từ có thể có nhiều nghĩa khác nhau tùy thuộc vào ngữ cảnh.
C. Thiếu dữ liệu huấn luyện đủ lớn.
D. Khó khăn trong việc biểu diễn ngôn ngữ dưới dạng số.
9. Sentiment analysis (phân tích cảm xúc) trong NLP thường được sử dụng để:
A. Tóm tắt văn bản dài.
B. Xác định thái độ, cảm xúc (tích cực, tiêu cực, trung lập) được thể hiện trong văn bản.
C. Dịch văn bản sang ngôn ngữ khác.
D. Sửa lỗi ngữ pháp trong văn bản.
10. Chatbots và conversational AI là ứng dụng của NLP tập trung vào:
A. Phân tích cấu trúc ngữ pháp phức tạp.
B. Tương tác ngôn ngữ tự nhiên giữa người và máy tính.
C. Nhận dạng và phân loại thực thể trong văn bản.
D. Tạo ra văn bản tóm tắt từ văn bản dài.
11. Enity Recognition (Nhận dạng thực thể) trong NLP nhằm mục đích:
A. Phân tích cảm xúc của văn bản.
B. Xác định và phân loại các thực thể có tên (named entities) trong văn bản (ví dụ: người, tổ chức, địa điểm).
C. Dịch tên thực thể sang ngôn ngữ khác.
D. Tạo ra các thực thể mới dựa trên văn bản.
12. Lemmatization khác biệt với stemming chủ yếu ở điểm nào?
A. Lemmatization nhanh hơn stemming.
B. Lemmatization tạo ra dạng gốc có nghĩa của từ (lemma).
C. Stemming sử dụng từ điển, lemmatization thì không.
D. Stemming chính xác hơn lemmatization.
13. Bài toán 'Machine Translation′ (dịch máy) trong NLP nhằm mục đích:
A. Phân tích cảm xúc trong văn bản gốc.
B. Tự động chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác.
C. Tóm tắt nội dung chính của văn bản gốc.
D. Sửa lỗi chính tả và ngữ pháp trong văn bản gốc.
14. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của NLP?
A. Phân tích cảm xúc khách hàng về sản phẩm.
B. Dự báo thời tiết.
C. Chatbot hỗ trợ khách hàng.
D. Dịch máy tự động.
15. Mục tiêu chính của 'part-of-speech tagging′ (gán nhãn từ loại) là gì?
A. Phân tích cảm xúc của văn bản.
B. Xác định vai trò ngữ pháp của mỗi từ trong câu.
C. Dịch văn bản sang ngôn ngữ khác.
D. Tóm tắt nội dung chính của văn bản.
16. Attention mechanism (cơ chế chú ý) trong Transformer giúp mô hình tập trung vào:
A. Toàn bộ văn bản đầu vào một cách đồng đều.
B. Các phần quan trọng nhất của văn bản đầu vào khi đưa ra dự đoán.
C. Các từ dừng (stop words) để loại bỏ chúng hiệu quả hơn.
D. Các từ ít phổ biến để tăng cường độ quan trọng của chúng.
17. Transformer networks, so với RNNs, có ưu điểm chính nào trong NLP?
A. Khả năng xử lý song song và hiệu quả hơn với dữ liệu dài.
B. Khả năng xử lý dữ liệu âm thanh tốt hơn.
C. Yêu cầu ít dữ liệu huấn luyện hơn.
D. Dễ dàng diễn giải kết quả hơn.
18. Trong NLP, 'n-gram′ đề cập đến:
A. Một phương pháp mã hóa ký tự.
B. Chuỗi gồm n từ liên tiếp trong một văn bản.
C. Một loại mạng nơ-ron đặc biệt.
D. Một kỹ thuật đánh giá mô hình ngôn ngữ.
19. BERT (Bidirectional Encoder Representations from Transformers) nổi tiếng với khả năng:
A. Tạo sinh văn bản một cách sáng tạo.
B. Hiểu ngữ cảnh hai chiều của từ trong câu.
C. Dịch văn bản theo thời gian thực.
D. Phân tích giọng nói thành văn bản.
20. Word embeddings (biểu diễn từ) như Word2Vec và GloVe có ưu điểm gì?
A. Biểu diễn từ dưới dạng số, nắm bắt được ngữ nghĩa và quan hệ giữa các từ.
B. Tăng tốc độ xử lý văn bản.
C. Giảm kích thước bộ nhớ cần thiết để lưu trữ văn bản.
D. Giúp máy tính phát âm văn bản một cách tự nhiên hơn.
21. Fine-tuning (tinh chỉnh) mô hình ngôn ngữ pre-trained (đã được huấn luyện trước) là quá trình:
A. Huấn luyện lại mô hình từ đầu với dữ liệu mới.
B. Huấn luyện tiếp mô hình đã được huấn luyện trước trên một tập dữ liệu cụ thể cho một tác vụ cụ thể.
C. Giảm kích thước mô hình để chạy nhanh hơn.
D. Thay đổi kiến trúc mô hình để phù hợp với phần cứng mới.
22. Bag-of-words (BOW) là một phương pháp biểu diễn văn bản đơn giản, bỏ qua yếu tố nào?
A. Tần suất xuất hiện của từ.
B. Thứ tự của từ trong câu.
C. Loại từ (part-of-speech).
D. Ngữ nghĩa của từ.
23. Trong NLP, 'tokenization′ đề cập đến quá trình:
A. Chuyển đổi văn bản thành giọng nói.
B. Chia văn bản thành các đơn vị nhỏ hơn như từ hoặc cụm từ.
C. Loại bỏ các từ dừng (stop words) khỏi văn bản.
D. Gán nhãn từ loại (part-of-speech) cho mỗi từ.
24. Ưu điểm chính của phương pháp Rule-based (dựa trên quy tắc) trong NLP là gì?
A. Dễ dàng mở rộng và thích ứng với dữ liệu mới.
B. Độ chính xác cao khi quy tắc được thiết kế tốt.
C. Yêu cầu ít kiến thức chuyên môn về ngôn ngữ.
D. Có thể học quy tắc tự động từ dữ liệu.
25. Topic modeling (mô hình hóa chủ đề) như LDA (Latent Dirichlet Allocation) giúp:
A. Dự đoán chủ đề của một từ đơn lẻ.
B. Khám phá các chủ đề tiềm ẩn trong một tập hợp văn bản lớn.
C. Phân loại văn bản dựa trên cảm xúc.
D. Dịch chủ đề sang ngôn ngữ khác.
26. Coreference resolution (giải quyết đồng tham chiếu) trong NLP là quá trình:
A. Dịch các cụm từ đồng nghĩa sang ngôn ngữ khác.
B. Xác định tất cả các biểu thức tham chiếu đến cùng một thực thể trong văn bản.
C. Loại bỏ các tham chiếu mơ hồ trong văn bản.
D. Thay thế các tham chiếu bằng tên thực thể đầy đủ.
27. Nhược điểm của phương pháp Rule-based trong NLP là:
A. Khó diễn giải và gỡ lỗi.
B. Khó mở rộng và duy trì khi quy tắc trở nên phức tạp.
C. Đòi hỏi dữ liệu huấn luyện rất lớn.
D. Chỉ hoạt động tốt với dữ liệu có cấu trúc.
28. TF-IDF là một kỹ thuật phổ biến trong NLP, được sử dụng để:
A. Dịch văn bản tự động.
B. Đánh giá mức độ quan trọng của từ trong một tài liệu so với tập hợp tài liệu.
C. Phân loại văn bản theo chủ đề.
D. Sửa lỗi chính tả trong văn bản.
29. Phương pháp Statistical NLP (NLP thống kê) dựa trên:
A. Các quy tắc ngữ pháp được định nghĩa trước.
B. Mô hình xác suất và dữ liệu huấn luyện.
C. Từ điển và tri thức ngôn ngữ học.
D. Phân tích ngữ nghĩa sâu sắc.
30. Phân tích cú pháp (parsing) trong NLP nhằm mục đích:
A. Tìm kiếm thông tin cụ thể trong văn bản.
B. Hiểu cấu trúc ngữ pháp và mối quan hệ giữa các từ trong câu.
C. Đánh giá mức độ tích cực hay tiêu cực của văn bản.
D. Tạo ra văn bản mới dựa trên văn bản gốc.