1. Trong môi trường Big Data, 'Scalability′ (Khả năng mở rộng) đề cập đến điều gì?
A. Khả năng giảm chi phí lưu trữ dữ liệu
B. Khả năng xử lý dữ liệu nhanh hơn trên một máy chủ duy nhất
C. Khả năng hệ thống xử lý tốt hơn khi tăng khối lượng dữ liệu hoặc người dùng
D. Khả năng mã hóa dữ liệu an toàn hơn
2. Loại hình phân tích dữ liệu nào tập trung vào việc dự đoán các sự kiện hoặc xu hướng trong tương lai?
A. Descriptive analytics (Phân tích mô tả)
B. Diagnostic analytics (Phân tích chẩn đoán)
C. Predictive analytics (Phân tích dự đoán)
D. Prescriptive analytics (Phân tích chỉ định)
3. Trong hệ sinh thái Hadoop, thành phần nào cung cấp dịch vụ thư mục phân tán và metadata cho dữ liệu HDFS?
A. NameNode
B. DataNode
C. ResourceManager
D. NodeManager
4. Trong Hadoop, 'DataNode′ có vai trò chính là gì?
A. Quản lý metadata của hệ thống file
B. Lưu trữ các khối dữ liệu thực tế
C. Lập lịch và quản lý công việc MapReduce
D. Cung cấp giao diện truy vấn SQL
5. Thuật ngữ 'Data Lake′ (Hồ dữ liệu) trong Big Data dùng để chỉ điều gì?
A. Một loại cơ sở dữ liệu quan hệ
B. Kho lưu trữ dữ liệu có cấu trúc và đã qua xử lý
C. Kho lưu trữ dữ liệu thô ở nhiều định dạng khác nhau
D. Hệ thống quản lý dữ liệu thời gian thực
6. Ứng dụng của Big Data trong lĩnh vực Y tế thường tập trung vào điều gì?
A. Quản lý hồ sơ bệnh nhân trên giấy
B. Dự đoán và phòng ngừa dịch bệnh, cá nhân hóa điều trị
C. Sử dụng điện thoại bàn để liên lạc với bệnh nhân
D. In ấn kết quả xét nghiệm
7. Công cụ lập lịch công việc và quản lý workflow phổ biến trong hệ sinh thái Hadoop là gì?
A. HDFS
B. MapReduce
C. Oozie
D. Hive
8. Công cụ nào sau đây KHÔNG phải là một framework xử lý stream dữ liệu phổ biến?
A. Apache Flink
B. Apache Storm
C. Apache Spark Streaming
D. Apache Pig
9. Trong Big Data, 'Data Science′ (Khoa học dữ liệu) là lĩnh vực tập trung vào điều gì?
A. Quản lý cơ sở dữ liệu quan hệ
B. Phát triển phần mềm ứng dụng
C. Sử dụng phương pháp khoa học để phân tích và hiểu dữ liệu
D. Bảo trì hệ thống mạng máy tính
10. Công cụ trực quan hóa dữ liệu (Data Visualization) nào sau đây phổ biến trong Big Data?
A. Microsoft Word
B. Microsoft PowerPoint
C. Tableau
D. Microsoft Paint
11. Trong ngữ cảnh Big Data, 'Data Governance′ (Quản trị dữ liệu) có vai trò chính là gì?
A. Tối ưu hóa tốc độ xử lý dữ liệu
B. Đảm bảo chất lượng, bảo mật và tuân thủ quy định về dữ liệu
C. Mở rộng khả năng lưu trữ dữ liệu
D. Phân tích dữ liệu thời gian thực
12. Thuật ngữ 'Data Mining′ (Khai phá dữ liệu) trong Big Data liên quan đến hoạt động nào?
A. Thu thập dữ liệu từ nhiều nguồn
B. Làm sạch và chuyển đổi dữ liệu
C. Tìm kiếm mẫu và tri thức ẩn trong dữ liệu
D. Lưu trữ dữ liệu trong hệ thống phân tán
13. Kiến trúc Lambda trong Big Data được thiết kế để giải quyết vấn đề gì?
A. Lưu trữ dữ liệu phi cấu trúc
B. Xử lý dữ liệu thời gian thực và batch processing
C. Đảm bảo tính bảo mật dữ liệu
D. Giảm chi phí lưu trữ dữ liệu
14. Khía cạnh 'Value′ (Giá trị) trong '5Vs′ của Big Data nhấn mạnh vào điều gì?
A. Tầm quan trọng của việc thu thập dữ liệu
B. Chi phí lưu trữ dữ liệu
C. Khả năng khai thác thông tin hữu ích và giá trị từ dữ liệu
D. Sự đa dạng của nguồn dữ liệu
15. Công nghệ nào sau đây thường được sử dụng để stream dữ liệu thời gian thực vào hệ thống Big Data?
A. Hadoop HDFS
B. Apache Kafka
C. MapReduce
D. Hive
16. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Big Data?
A. Phân tích hành vi khách hàng trong thương mại điện tử
B. Dự báo thời tiết
C. Quản lý kho hàng cho một cửa hàng nhỏ
D. Phát hiện gian lận trong giao dịch tài chính
17. Ưu điểm chính của việc sử dụng 'in-memory processing′ (xử lý trong bộ nhớ) như Apache Spark so với MapReduce là gì?
A. Khả năng lưu trữ dữ liệu lớn hơn
B. Tốc độ xử lý nhanh hơn đáng kể
C. Chi phí phần cứng thấp hơn
D. Dễ dàng tích hợp với các hệ thống cơ sở dữ liệu truyền thống
18. Trong bối cảnh Big Data, 'ETL′ là viết tắt của quy trình nào?
A. Extract, Transform, Load
B. Encrypt, Transfer, Link
C. Evaluate, Test, Learn
D. Error, Track, Log
19. Thách thức lớn nhất của 'Veracity′ (Tính xác thực) trong Big Data là gì?
A. Tốc độ xử lý dữ liệu quá nhanh
B. Khối lượng dữ liệu quá lớn để lưu trữ
C. Sự không đáng tin cậy và không chính xác của dữ liệu
D. Đa dạng các định dạng dữ liệu
20. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu lớn phân tán?
A. MySQL
B. Microsoft Excel
C. Hadoop
D. Oracle Database
21. Trong mô hình xử lý Big Data, 'Data Warehouse′ (Kho dữ liệu) thường được sử dụng cho mục đích gì?
A. Lưu trữ dữ liệu thô ban đầu
B. Xử lý dữ liệu thời gian thực
C. Phân tích dữ liệu lịch sử và tạo báo cáo
D. Thu thập dữ liệu từ các nguồn khác nhau
22. Công nghệ nào sau đây thường được dùng để thực hiện truy vấn và phân tích dữ liệu trên Hadoop, sử dụng cú pháp SQL-like?
A. MapReduce
B. HDFS
C. Hive
D. Spark
23. Thách thức về 'Volume′ (Khối lượng) trong Big Data chủ yếu liên quan đến vấn đề gì?
A. Đa dạng các loại dữ liệu
B. Tốc độ dữ liệu được tạo ra
C. Khả năng lưu trữ và xử lý lượng dữ liệu khổng lồ
D. Độ tin cậy của dữ liệu
24. Thuật ngữ 'Data Wrangling′ (Chuẩn bị dữ liệu) trong Big Data bao gồm các công đoạn nào?
A. Chỉ thu thập và lưu trữ dữ liệu
B. Làm sạch, chuyển đổi, và định dạng lại dữ liệu
C. Chỉ phân tích và trực quan hóa dữ liệu
D. Chỉ bảo mật và mã hóa dữ liệu
25. Ưu điểm của việc sử dụng 'columnar database′ (cơ sở dữ liệu cột) trong Big Data Analytics là gì?
A. Tối ưu cho các truy vấn OLTP
B. Tối ưu hóa hiệu suất truy vấn cho các cột được chọn
C. Dễ dàng cập nhật dữ liệu theo hàng
D. Giảm chi phí phần cứng lưu trữ
26. Yếu tố 'Variety′ (Đa dạng) trong '5Vs′ của Big Data đề cập đến điều gì?
A. Tốc độ tạo ra dữ liệu
B. Sự không chắc chắn của dữ liệu
C. Khối lượng dữ liệu khổng lồ
D. Các loại và định dạng dữ liệu khác nhau
27. Ngôn ngữ lập trình nào thường được sử dụng để viết các ứng dụng MapReduce trong Hadoop?
A. Python
B. Java
C. C++
D. JavaScript
28. Đặc điểm nào sau đây KHÔNG thuộc '5Vs′ của Dữ liệu lớn?
A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Value (Giá trị)
D. Validity (Tính hợp lệ)
29. Công cụ nào sau đây KHÔNG phải là một nền tảng NoSQL thường dùng trong Big Data?
A. MongoDB
B. Cassandra
C. HBase
D. SQL Server
30. Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cluster và lập lịch công việc?
A. HDFS (Hadoop Distributed File System)
B. MapReduce
C. YARN (Yet Another Resource Negotiator)
D. Hive