1. Trong kiến trúc Kappa (Kappa Architecture) cho Dữ liệu lớn, dữ liệu được xử lý chủ yếu theo mô hình nào?
A. Batch processing (Xử lý hàng loạt).
B. Stream processing (Xử lý luồng).
C. Kết hợp cả batch và stream processing.
D. Xử lý theo yêu cầu (on-demand processing).
2. Loại dữ liệu nào sau đây được xem là 'phi cấu trúc′ (unstructured data)?
A. Dữ liệu trong bảng cơ sở dữ liệu quan hệ.
B. Dữ liệu JSON.
C. Hình ảnh và video.
D. Dữ liệu CSV.
3. Khía cạnh 'Velocity′ (Tốc độ) của Dữ liệu lớn đề cập đến điều gì?
A. Dung lượng dữ liệu được tạo ra và lưu trữ.
B. Tốc độ dữ liệu được tạo ra và cần được xử lý.
C. Sự đa dạng của các loại dữ liệu khác nhau.
D. Độ chính xác và tin cậy của dữ liệu.
4. Trong bối cảnh Dữ liệu lớn, thuật ngữ 'data governance′ (quản trị dữ liệu) có vai trò quan trọng nhất trong việc đảm bảo điều gì?
A. Tốc độ xử lý dữ liệu nhanh chóng.
B. Khả năng mở rộng hệ thống lưu trữ.
C. Chất lượng, bảo mật và tuân thủ quy định của dữ liệu.
D. Chi phí lưu trữ dữ liệu thấp.
5. Công nghệ MapReduce hoạt động theo mô hình lập trình nào?
A. Mô hình hướng đối tượng.
B. Mô hình song song và phân tán.
C. Mô hình tuần tự.
D. Mô hình máy chủ-khách hàng.
6. Trong bối cảnh bảo mật Dữ liệu lớn, kỹ thuật 'data masking′ (che dấu dữ liệu) được sử dụng để làm gì?
A. Mã hóa toàn bộ dữ liệu trước khi lưu trữ.
B. Ngăn chặn truy cập trái phép vào hệ thống dữ liệu.
C. Thay thế dữ liệu nhạy cảm bằng dữ liệu giả hoặc ẩn danh hóa.
D. Giám sát và ghi lại hoạt động truy cập dữ liệu.
7. Trong ngữ cảnh Dữ liệu lớn, thuật ngữ 'in-memory processing′ (xử lý trong bộ nhớ) mang lại lợi ích chính nào?
A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng tốc độ xử lý dữ liệu đáng kể so với xử lý trên đĩa.
C. Đảm bảo tính toàn vẹn dữ liệu cao hơn.
D. Đơn giản hóa quá trình lập trình MapReduce.
8. Công nghệ nào sau đây thường được sử dụng để thu thập và chuyển dữ liệu luồng từ nhiều nguồn khác nhau vào Hadoop?
A. Spark SQL.
B. Kafka.
C. HBase.
D. Pig.
9. Trong mô hình MapReduce, giai đoạn 'Reduce′ có chức năng chính là gì?
A. Phân chia dữ liệu đầu vào thành các phần nhỏ hơn.
B. Áp dụng các hàm biến đổi lên từng phần dữ liệu.
C. Tổng hợp và xử lý kết quả từ giai đoạn 'Map′.
D. Lưu trữ dữ liệu đầu ra vào hệ thống tệp phân tán.
10. Hadoop Distributed File System (HDFS) được thiết kế chủ yếu để giải quyết vấn đề gì trong Dữ liệu lớn?
A. Đảm bảo tính toàn vẹn dữ liệu trong môi trường giao dịch trực tuyến.
B. Lưu trữ và xử lý hiệu quả lượng dữ liệu cực lớn trên nhiều máy tính.
C. Tối ưu hóa tốc độ truy vấn dữ liệu có cấu trúc.
D. Cung cấp giao diện người dùng đồ họa để phân tích dữ liệu.
11. Thuật ngữ 'schema-on-read′ thường được liên kết với loại kho dữ liệu nào trong Dữ liệu lớn?
A. Cơ sở dữ liệu quan hệ (RDBMS).
B. Data Warehouse (Kho dữ liệu).
C. Data Lake (Hồ dữ liệu).
D. Cơ sở dữ liệu NoSQL dạng cột.
12. Công cụ nào sau đây thường được dùng để truy vấn và phân tích dữ liệu trong Hadoop Data Lake bằng ngôn ngữ SQL-like?
A. Spark Core.
B. HBase.
C. Hive.
D. Flume.
13. Công nghệ nào sau đây KHÔNG thuộc hệ sinh thái Hadoop?
A. HDFS.
B. MapReduce.
C. Spark.
D. Kafka.
14. Trong mô hình CAP theorem, hệ thống Dữ liệu lớn phân tán thường ưu tiên tính nhất quán (Consistency) và khả năng sẵn sàng (Availability) hơn là tính phân vùng (Partition tolerance).
A. Đúng
B. Sai
C. Không chắc chắn
D. Không liên quan
15. Thách thức chính của 'Veracity′ (Độ xác thực) trong Dữ liệu lớn là gì?
A. Lưu trữ lượng dữ liệu khổng lồ.
B. Xử lý dữ liệu với tốc độ cao.
C. Đối phó với dữ liệu không chính xác, nhiễu hoặc không đáng tin cậy.
D. Tích hợp nhiều loại dữ liệu khác nhau.
16. Trong kiến trúc Lambda (Lambda Architecture) cho Dữ liệu lớn, lớp 'batch layer′ (lớp xử lý hàng loạt) thường sử dụng công nghệ nào?
A. Kafka.
B. Spark Streaming.
C. Hadoop MapReduce.
D. Cassandra.
17. Công nghệ blockchain có thể được ứng dụng trong Dữ liệu lớn để giải quyết vấn đề nào?
A. Tăng tốc độ xử lý dữ liệu.
B. Đảm bảo tính toàn vẹn và minh bạch của dữ liệu.
C. Giảm chi phí lưu trữ dữ liệu.
D. Trực quan hóa dữ liệu hiệu quả hơn.
18. Loại hình phân tích dữ liệu nào tập trung vào việc dự đoán xu hướng và kết quả trong tương lai?
A. Descriptive analytics (Phân tích mô tả).
B. Diagnostic analytics (Phân tích chẩn đoán).
C. Predictive analytics (Phân tích dự đoán).
D. Prescriptive analytics (Phân tích chỉ dẫn).
19. Thuật ngữ 'Data Lake′ (Hồ dữ liệu) trong bối cảnh Dữ liệu lớn dùng để chỉ điều gì?
A. Một kho lưu trữ dữ liệu có cấu trúc chặt chẽ, tối ưu cho truy vấn SQL.
B. Một hệ thống quản lý cơ sở dữ liệu quan hệ phân tán.
C. Một kho lưu trữ dữ liệu thô, đa dạng, có thể chứa dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc.
D. Một công nghệ nén dữ liệu tiên tiến để giảm dung lượng lưu trữ.
20. Đặc điểm nào sau đây KHÔNG phải là một trong '5Vs′ thường được dùng để mô tả Dữ liệu lớn?
A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Veracity (Độ xác thực)
D. Variety (Đa dạng)
21. Ứng dụng của Dữ liệu lớn trong lĩnh vực y tế có thể bao gồm điều gì?
A. Chẩn đoán bệnh dựa trên phân tích hình ảnh y tế và lịch sử bệnh án.
B. Quản lý hồ sơ bệnh án điện tử cá nhân.
C. Soạn thảo văn bản hành chính và báo cáo y tế.
D. Gửi email nhắc lịch hẹn khám bệnh cho bệnh nhân.
22. Ưu điểm của việc sử dụng công nghệ đám mây (cloud computing) cho Dữ liệu lớn là gì?
A. Giảm độ trễ mạng khi truy cập dữ liệu.
B. Tăng cường khả năng kiểm soát vật lý đối với cơ sở hạ tầng.
C. Khả năng mở rộng linh hoạt và chi phí đầu tư ban đầu thấp.
D. Đảm bảo tính tương thích hoàn toàn với các hệ thống cũ.
23. Khái niệm 'data wrangling′ (chuẩn bị dữ liệu) trong Dữ liệu lớn bao gồm những công việc chính nào?
A. Thu thập, lưu trữ và bảo mật dữ liệu.
B. Làm sạch, biến đổi, và định dạng dữ liệu để sẵn sàng cho phân tích.
C. Trực quan hóa và trình bày kết quả phân tích dữ liệu.
D. Xây dựng mô hình học máy và thuật toán khai phá dữ liệu.
24. Thách thức về 'Variety′ (Đa dạng) của Dữ liệu lớn liên quan đến điều gì?
A. Khối lượng dữ liệu quá lớn để xử lý.
B. Tốc độ dữ liệu thay đổi quá nhanh.
C. Sự khác biệt về định dạng và nguồn gốc của dữ liệu.
D. Độ tin cậy và chính xác của dữ liệu không đảm bảo.
25. Trong bối cảnh Dữ liệu lớn, 'Data Mining′ (Khai phá dữ liệu) chủ yếu tập trung vào điều gì?
A. Thu thập và lưu trữ dữ liệu từ nhiều nguồn khác nhau.
B. Trực quan hóa dữ liệu để dễ dàng nhận biết xu hướng.
C. Phân tích dữ liệu để khám phá ra các mẫu, xu hướng và kiến thức ẩn.
D. Đảm bảo chất lượng và tính nhất quán của dữ liệu.
26. Công cụ nào sau đây thường được sử dụng để xử lý luồng dữ liệu (stream processing) trong Dữ liệu lớn?
A. Hadoop MapReduce.
B. Apache Spark Streaming.
C. Hive.
D. SQL Server.
27. Yếu tố nào sau đây KHÔNG phải là động lực chính thúc đẩy sự phát triển của Dữ liệu lớn?
A. Sự gia tăng mạnh mẽ của dữ liệu số từ Internet và thiết bị di động.
B. Nhu cầu phân tích dữ liệu phức tạp để đưa ra quyết định kinh doanh tốt hơn.
C. Sự phát triển của công nghệ lưu trữ và xử lý dữ liệu hiệu quả và chi phí thấp.
D. Sự hạn chế của các phương pháp phân tích thống kê truyền thống.
28. Ứng dụng nào sau đây KHÔNG phải là một ứng dụng phổ biến của Dữ liệu lớn?
A. Phân tích hành vi khách hàng trong thương mại điện tử.
B. Dự báo thời tiết và biến đổi khí hậu.
C. Quản lý cơ sở dữ liệu cá nhân trên máy tính đơn lẻ.
D. Phát hiện gian lận trong giao dịch tài chính.
29. Ưu điểm chính của cơ sở dữ liệu NoSQL so với cơ sở dữ liệu quan hệ truyền thống trong xử lý Dữ liệu lớn là gì?
A. Khả năng đảm bảo tính toàn vẹn dữ liệu ACID mạnh mẽ hơn.
B. Khả năng mở rộng linh hoạt và xử lý dữ liệu phi cấu trúc tốt hơn.
C. Khả năng truy vấn dữ liệu phức tạp bằng SQL hiệu quả hơn.
D. Chi phí triển khai và vận hành thấp hơn đáng kể.
30. Công cụ nào sau đây thường được sử dụng để trực quan hóa dữ liệu lớn?
A. Hadoop MapReduce.
B. Apache Spark.
C. Tableau.
D. HBase.