1. Mô hình ngôn ngữ 'BERT′ (Bidirectional Encoder Representations from Transformers) khác biệt so với các mô hình trước đó chủ yếu ở điểm nào?
A. BERT chỉ có thể xử lý dữ liệu tiếng Anh.
B. BERT là mô hình đơn hướng, chỉ xem xét ngữ cảnh từ trái sang phải.
C. BERT là mô hình hai chiều, xem xét ngữ cảnh cả từ trái sang phải và phải sang trái.
D. BERT không sử dụng cơ chế attention.
2. Thuật ngữ 'Bag of Words′ trong NLP mô tả phương pháp biểu diễn văn bản như thế nào?
A. Biểu diễn văn bản dưới dạng hình ảnh trực quan.
B. Biểu diễn văn bản chỉ dựa trên thứ tự từ xuất hiện.
C. Biểu diễn văn bản bằng cách đếm tần suất xuất hiện của mỗi từ, bỏ qua thứ tự từ.
D. Biểu diễn văn bản bằng cách mã hóa ngữ pháp của câu.
3. Trong bối cảnh đánh giá mô hình NLP, 'precision′ và 'recall′ là các chỉ số đo lường điều gì?
A. Tốc độ và hiệu quả bộ nhớ của mô hình.
B. Độ chính xác và độ phủ của kết quả dự đoán so với thực tế.
C. Độ phức tạp và khả năng mở rộng của mô hình.
D. Khả năng xử lý ngôn ngữ đa ngôn ngữ của mô hình.
4. Ứng dụng nào sau đây thể hiện rõ nhất việc sử dụng kỹ thuật 'phân tích tình cảm′ (sentiment analysis) trong NLP?
A. Phần mềm diệt virus.
B. Hệ thống đề xuất sản phẩm dựa trên đánh giá của khách hàng.
C. Công cụ quản lý cơ sở dữ liệu.
D. Trình duyệt web.
5. Trong NLP, 'tokenization′ là quá trình gì?
A. Chuyển đổi văn bản thành giọng nói.
B. Phân chia văn bản thành các đơn vị nhỏ hơn, ví dụ như từ hoặc câu.
C. Loại bỏ thông tin không liên quan khỏi văn bản.
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác.
6. Mô hình ngôn ngữ 'Recurrent Neural Network′ (RNN) đặc biệt phù hợp cho các tác vụ NLP nào?
A. Phân loại hình ảnh.
B. Xử lý dữ liệu chuỗi có tính tuần tự, như dịch máy và nhận dạng giọng nói.
C. Phân tích dữ liệu dạng bảng.
D. Nén dữ liệu văn bản.
7. Trong NLP, 'knowledge graph′ (đồ thị tri thức) được sử dụng để biểu diễn điều gì?
A. Biểu diễn cấu trúc ngữ pháp của câu.
B. Biểu diễn mối quan hệ và thực thể trong thế giới thực dưới dạng đồ thị.
C. Biểu diễn phân bố tần suất từ trong văn bản.
D. Biểu diễn dòng chảy thông tin trong hệ thống.
8. Trong NLP, thuật ngữ 'zero-shot learning′ đề cập đến khả năng của mô hình như thế nào?
A. Khả năng học mà không cần dữ liệu huấn luyện.
B. Khả năng nhận biết và phân loại các đối tượng hoặc khái niệm mà mô hình chưa từng được huấn luyện trực tiếp.
C. Khả năng tự động sửa lỗi trong dữ liệu huấn luyện.
D. Khả năng thích ứng với các ngôn ngữ khác nhau.
9. Trong NLP, 'perplexity′ là một chỉ số đánh giá điều gì?
A. Độ chính xác của mô hình phân loại văn bản.
B. Khả năng dự đoán từ tiếp theo của một mô hình ngôn ngữ.
C. Tốc độ xử lý văn bản của hệ thống.
D. Mức độ phức tạp của ngữ pháp trong văn bản.
10. Kỹ thuật 'Named Entity Recognition′ (NER) trong NLP nhằm mục đích xác định và phân loại điều gì trong văn bản?
A. Cảm xúc và thái độ của người viết.
B. Các thực thể có tên như người, tổ chức, địa điểm, ngày tháng.
C. Cấu trúc ngữ pháp của câu.
D. Chủ đề chính của văn bản.
11. Trong NLP, 'coreference resolution′ là quá trình giải quyết vấn đề gì?
A. Xác định ngôn ngữ gốc của văn bản.
B. Tìm ra tất cả các từ đồng nghĩa trong văn bản.
C. Xác định các cụm từ hoặc đại từ nào đề cập đến cùng một thực thể trong văn bản.
D. Sửa lỗi chính tả và ngữ pháp trong văn bản.
12. Xử lý ngôn ngữ tự nhiên (NLP) chủ yếu tập trung vào việc cho phép máy tính thực hiện công việc nào?
A. Phân tích dữ liệu số lượng lớn.
B. Hiểu và tạo ra ngôn ngữ của con người.
C. Điều khiển phần cứng máy tính.
D. Tối ưu hóa hiệu suất mạng.
13. Trong ngữ cảnh của chatbot, NLP đóng vai trò quan trọng nhất ở giai đoạn nào?
A. Giai đoạn thiết kế giao diện người dùng.
B. Giai đoạn xử lý và hiểu ngôn ngữ người dùng nhập vào.
C. Giai đoạn kết nối cơ sở dữ liệu.
D. Giai đoạn triển khai và bảo trì hệ thống.
14. Ứng dụng của NLP trong lĩnh vực y tế KHÔNG bao gồm:
A. Phân tích hồ sơ bệnh án điện tử để cải thiện chăm sóc bệnh nhân.
B. Hỗ trợ chẩn đoán bệnh dựa trên mô tả triệu chứng của bệnh nhân.
C. Tự động hóa quy trình sản xuất thuốc.
D. Tóm tắt các bài báo khoa học y tế.
15. Kỹ thuật 'transfer learning′ trong NLP mang lại lợi ích chính nào?
A. Giảm độ phức tạp của mô hình.
B. Tăng tốc độ xử lý văn bản.
C. Cho phép mô hình học nhanh hơn và hiệu quả hơn trên các tác vụ mới với ít dữ liệu hơn.
D. Cải thiện khả năng dịch thuật giữa các ngôn ngữ.
16. Phương pháp nào sau đây KHÔNG phải là một kỹ thuật phổ biến trong NLP để xử lý văn bản?
A. Phân tích cú pháp (Parsing).
B. Gán nhãn từ loại (Part-of-speech tagging).
C. Nén dữ liệu (Data compression).
D. Nhận dạng thực thể có tên (Named Entity Recognition).
17. Ứng dụng nào sau đây KHÔNG thuộc lĩnh vực Xử lý ngôn ngữ tự nhiên?
A. Dịch máy.
B. Nhận dạng giọng nói.
C. Phân tích thị trường chứng khoán.
D. Tổng hợp văn bản thành giọng nói.
18. Khi đánh giá hệ thống dịch máy, chỉ số 'BLEU′ (Bilingual Evaluation Understudy) đo lường điều gì?
A. Tốc độ dịch của hệ thống.
B. Độ trôi chảy của bản dịch.
C. Mức độ tương đồng giữa bản dịch của máy và bản dịch tham khảo của con người.
D. Mức độ phức tạp về ngữ pháp của bản dịch.
19. Thách thức lớn nhất trong NLP khi xử lý ngôn ngữ tiếng Việt so với tiếng Anh thường là gì?
A. Tiếng Việt có ít từ vựng hơn tiếng Anh.
B. Tiếng Việt là ngôn ngữ đơn âm tiết và có tính phân tích cao, ít biến đổi hình thái.
C. Tiếng Việt không có dấu.
D. Tiếng Việt có cấu trúc ngữ pháp phức tạp hơn tiếng Anh.
20. Mô hình ngôn ngữ 'Transformer′ (ví dụ: BERT, GPT) nổi tiếng với khả năng xử lý tốt loại dữ liệu nào?
A. Dữ liệu ảnh.
B. Dữ liệu âm thanh.
C. Dữ liệu văn bản và chuỗi.
D. Dữ liệu số dạng bảng.
21. Mục tiêu chính của 'stemming′ và 'lemmatization′ trong NLP là gì?
A. Tăng độ dài của văn bản.
B. Giảm số lượng từ khác nhau bằng cách đưa chúng về dạng gốc.
C. Cải thiện tốc độ xử lý văn bản bằng cách mã hóa.
D. Phát hiện và sửa lỗi chính tả.
22. Trong NLP, 'semantic similarity′ (tương đồng ngữ nghĩa) đo lường điều gì?
A. Sự giống nhau về cách viết giữa hai từ.
B. Mức độ liên quan về ý nghĩa giữa hai từ, câu hoặc đoạn văn bản.
C. Tần suất xuất hiện cùng nhau của hai từ trong văn bản.
D. Độ dài tương đương của hai văn bản.
23. Trong lĩnh vực chatbot, 'intent recognition′ (nhận dạng ý định) là quá trình gì?
A. Tạo ra phản hồi tự nhiên cho người dùng.
B. Xác định mục đích hoặc mục tiêu mà người dùng muốn đạt được thông qua câu nói của họ.
C. Chuyển đổi văn bản thành giọng nói.
D. Theo dõi lịch sử hội thoại với người dùng.
24. Kỹ thuật 'backpropagation′ đóng vai trò gì trong huấn luyện mạng nơ-ron cho các tác vụ NLP?
A. Tăng tốc độ xử lý văn bản.
B. Tính toán và cập nhật trọng số của mạng nơ-ron dựa trên lỗi dự đoán.
C. Làm giảm kích thước của mô hình mạng nơ-ron.
D. Chuyển đổi dữ liệu văn bản thành dạng số.
25. Kỹ thuật 'Word Embedding′ (ví dụ: Word2Vec, GloVe) trong NLP nhằm mục đích gì?
A. Mã hóa văn bản thành hình ảnh.
B. Biểu diễn từ ngữ dưới dạng vector số trong không gian nhiều chiều.
C. Phân loại văn bản dựa trên độ dài.
D. Tạo ra văn bản mới từ dữ liệu có sẵn.
26. Khái niệm 'stop words′ trong NLP đề cập đến điều gì?
A. Các từ quan trọng nhất trong một văn bản.
B. Các từ phổ biến thường bị loại bỏ trước khi xử lý văn bản.
C. Các từ mới được thêm vào từ điển.
D. Các từ dùng để đánh dấu sự kết thúc câu.
27. Phương pháp 'Dependency Parsing′ trong NLP tập trung vào việc phân tích cấu trúc nào của câu?
A. Cấu trúc âm thanh của từ.
B. Cấu trúc cú pháp dựa trên quan hệ phụ thuộc giữa các từ.
C. Cấu trúc ngữ nghĩa của câu.
D. Cấu trúc hình thái của từ.
28. Kỹ thuật 'data augmentation′ trong NLP có mục đích chính là gì?
A. Tăng kích thước tập dữ liệu huấn luyện bằng cách tạo ra các biến thể dữ liệu hiện có.
B. Giảm kích thước tập dữ liệu để tăng tốc độ huấn luyện.
C. Cải thiện chất lượng dữ liệu bằng cách sửa lỗi.
D. Mã hóa dữ liệu để bảo mật thông tin.
29. Phương pháp 'TF-IDF′ (Term Frequency-Inverse Document Frequency) được sử dụng trong NLP để làm gì?
A. Dịch văn bản giữa các ngôn ngữ.
B. Đánh giá tầm quan trọng của từ trong một văn bản so với tập hợp các văn bản.
C. Phát hiện đạo văn trong văn bản.
D. Tóm tắt văn bản tự động.
30. Trong mô hình ngôn ngữ thống kê, 'n-gram′ đề cập đến điều gì?
A. Một loại thuật toán mã hóa dữ liệu.
B. Một chuỗi gồm n từ liên tiếp trong văn bản.
C. Số lượng lớp ẩn trong mạng nơ-ron.
D. Đơn vị đo lường độ phức tạp của ngôn ngữ.