1. Ứng dụng nào sau đây của Big Data có thể giúp cải thiện dịch vụ chăm sóc sức khỏe?
A. Dự đoán xu hướng thời trang.
B. Cá nhân hóa phác đồ điều trị dựa trên dữ liệu bệnh sử và gen của bệnh nhân.
C. Tối ưu hóa chuỗi cung ứng bán lẻ.
D. Phân tích tâm lý người dùng trên mạng xã hội.
2. Trong mô hình lambda architecture cho Big Data, layer nào chịu trách nhiệm xử lý dữ liệu batch (lô) lịch sử?
A. Speed layer (Lớp tốc độ)
B. Batch layer (Lớp lô)
C. Serving layer (Lớp phục vụ)
D. Storage layer (Lớp lưu trữ)
3. Trong bối cảnh Big Data và phân tích dữ liệu, thuật ngữ 'Data Scientist′ (Nhà khoa học dữ liệu) mô tả vai trò chuyên gia nào?
A. Chuyên gia quản trị hệ thống cơ sở dữ liệu.
B. Chuyên gia về mạng máy tính.
C. Chuyên gia có kỹ năng phân tích thống kê, học máy, lập trình và kiến thức về lĩnh vực ứng dụng, để giải quyết các bài toán kinh doanh và khoa học bằng dữ liệu.
D. Chuyên gia về bảo mật dữ liệu.
4. Loại tấn công bảo mật nào đặc biệt nguy hiểm trong môi trường Dữ liệu lớn do khối lượng và tốc độ dữ liệu lớn, khiến việc phát hiện và ngăn chặn trở nên khó khăn hơn?
A. SQL Injection
B. Distributed Denial of Service (DDoS)
C. Phishing
D. Man-in-the-middle attack
5. Khía cạnh 'Variety′ (Sự đa dạng) của Big Data đề cập đến điều gì?
A. Tốc độ dữ liệu được tạo ra và xử lý.
B. Độ chính xác và tin cậy của dữ liệu.
C. Sự đa dạng về nguồn và định dạng dữ liệu (có cấu trúc, bán cấu trúc, phi cấu trúc).
D. Khối lượng dữ liệu khổng lồ.
6. Thách thức lớn nhất của 'Veracity′ (Độ xác thực) trong Big Data là gì?
A. Khối lượng dữ liệu quá lớn để xử lý.
B. Tốc độ dữ liệu thay đổi quá nhanh.
C. Sự thiếu tin cậy và không chắc chắn của nguồn dữ liệu.
D. Sự đa dạng của các loại dữ liệu.
7. Phương pháp nào sau đây KHÔNG phải là một kỹ thuật phân tích dữ liệu lớn phổ biến?
A. Machine Learning (Học máy)
B. Statistical Analysis (Phân tích thống kê)
C. Data Visualization (Trực quan hóa dữ liệu)
D. Manual Data Entry (Nhập dữ liệu thủ công)
8. Trong Big Data, 'Data Governance′ (Quản trị dữ liệu) đề cập đến điều gì?
A. Tối ưu hóa hiệu suất truy vấn dữ liệu.
B. Các chính sách, quy trình và tiêu chuẩn để quản lý, bảo vệ và đảm bảo chất lượng dữ liệu trong tổ chức.
C. Lựa chọn công nghệ lưu trữ dữ liệu phù hợp.
D. Xây dựng mô hình học máy hiệu quả.
9. Yếu tố 'Value′ (Giá trị) trong 5Vs của Big Data đề cập đến điều gì?
A. Khối lượng dữ liệu được tạo ra.
B. Tốc độ xử lý dữ liệu.
C. Giá trị kinh doanh và lợi ích mà dữ liệu lớn mang lại cho tổ chức.
D. Độ tin cậy của dữ liệu.
10. Trong quy trình ETL, giai đoạn 'Transform′ (Biến đổi) bao gồm các hoạt động chính nào?
A. Kết nối đến các nguồn dữ liệu khác nhau.
B. Làm sạch dữ liệu, chuẩn hóa định dạng, tích hợp dữ liệu, và chuyển đổi dữ liệu sang dạng phù hợp với hệ thống đích.
C. Tải dữ liệu đã biến đổi vào hệ thống đích.
D. Giám sát và theo dõi chất lượng dữ liệu.
11. Đặc điểm nào sau đây KHÔNG phải là một trong '5Vs′ thường được dùng để mô tả Dữ liệu lớn?
A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Veracity (Độ xác thực)
D. Variety (Sự đa dạng)
12. Khi nào thì việc sử dụng Big Data trở nên thực sự cần thiết và mang lại giá trị?
A. Khi dữ liệu có cấu trúc rõ ràng và dễ quản lý bằng các công cụ truyền thống.
B. Khi cần xử lý dữ liệu với khối lượng lớn, tốc độ cao, đa dạng và phức tạp, vượt quá khả năng của các hệ thống truyền thống.
C. Khi chỉ cần phân tích dữ liệu tĩnh và không cần cập nhật liên tục.
D. Khi mục tiêu chỉ là lưu trữ dữ liệu một cách đơn giản.
13. Công nghệ nào sau đây cho phép truy vấn dữ liệu trong Hadoop Data Lake bằng ngôn ngữ SQL, tương tự như truy vấn cơ sở dữ liệu quan hệ?
A. HDFS
B. MapReduce
C. Hive
D. YARN
14. Thuật ngữ 'Schema-on-read′ thường được liên kết với loại hệ thống lưu trữ dữ liệu nào?
A. Data Warehouse
B. Data Lake
C. Relational Database (Cơ sở dữ liệu quan hệ)
D. Operational Data Store (ODS)
15. Trong phân tích Dữ liệu lớn, 'Feature Engineering′ (Kỹ thuật đặc trưng) đóng vai trò quan trọng như thế nào?
A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng cường hiệu suất và độ chính xác của các mô hình học máy bằng cách tạo ra các đặc trưng phù hợp từ dữ liệu thô.
C. Đảm bảo an toàn dữ liệu.
D. Cải thiện khả năng trực quan hóa dữ liệu.
16. Trong ngữ cảnh Big Data, 'Data Mining′ (Khai thác dữ liệu) chủ yếu tập trung vào điều gì?
A. Lưu trữ và quản lý dữ liệu hiệu quả.
B. Tìm kiếm các mẫu, xu hướng và tri thức ẩn sâu trong dữ liệu.
C. Trực quan hóa dữ liệu để dễ dàng hiểu.
D. Đảm bảo tính bảo mật và riêng tư của dữ liệu.
17. Ngôn ngữ lập trình nào thường được sử dụng NHẤT trong hệ sinh thái Hadoop để xử lý và phân tích dữ liệu lớn?
A. Java
B. Python
C. C++
D. R
18. Thuật ngữ 'ETL′ trong Dữ liệu lớn đề cập đến quy trình nào?
A. Extract, Transform, Load (Trích xuất, Biến đổi, Tải)
B. Evaluate, Test, Learn (Đánh giá, Kiểm thử, Học hỏi)
C. Encrypt, Transmit, Log (Mã hóa, Truyền tải, Ghi nhật ký)
D. Error, Track, Fix (Lỗi, Theo dõi, Sửa chữa)
19. Công nghệ nào sau đây thường được sử dụng để lưu trữ và xử lý dữ liệu lớn phân tán trên nhiều máy tính?
A. Microsoft Excel
B. Hadoop
C. MySQL
D. Oracle Database
20. Ưu điểm chính của việc sử dụng xử lý dữ liệu 'in-memory′ (trong bộ nhớ) như Apache Spark so với MapReduce là gì?
A. Khả năng xử lý dữ liệu thời gian thực tốt hơn.
B. Tốc độ xử lý nhanh hơn đáng kể do giảm thiểu việc đọc∕ghi dữ liệu xuống đĩa.
C. Khả năng lưu trữ dữ liệu lớn hơn.
D. Dễ dàng mở rộng quy mô hơn.
21. Loại cơ sở dữ liệu NoSQL nào phù hợp nhất để lưu trữ dữ liệu dạng đồ thị (graph data) như mạng xã hội hoặc quan hệ giữa các thực thể?
A. Document databases (Cơ sở dữ liệu dạng tài liệu)
B. Key-value stores (Kho khóa-giá trị)
C. Column-family databases (Cơ sở dữ liệu dạng cột)
D. Graph databases (Cơ sở dữ liệu đồ thị)
22. Kỹ thuật nào sau đây thường được sử dụng để giảm chiều dữ liệu (dimensionality reduction) trong phân tích dữ liệu lớn, giúp đơn giản hóa mô hình và tăng hiệu suất?
A. Principal Component Analysis (PCA - Phân tích thành phần chính)
B. Linear Regression (Hồi quy tuyến tính)
C. Clustering (Phân cụm)
D. Classification (Phân loại)
23. Đạo đức và quyền riêng tư dữ liệu trở thành vấn đề ngày càng quan trọng trong Big Data vì lý do chính nào?
A. Chi phí lưu trữ dữ liệu ngày càng tăng.
B. Khả năng thu thập và phân tích dữ liệu cá nhân ở quy mô lớn chưa từng có, có thể dẫn đến xâm phạm quyền riêng tư và phân biệt đối xử.
C. Sự phức tạp của công nghệ Big Data.
D. Nhu cầu về tốc độ xử lý dữ liệu nhanh hơn.
24. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Dữ liệu lớn?
A. Phân tích hành vi khách hàng để cá nhân hóa quảng cáo trực tuyến.
B. Dự báo thời tiết dựa trên dữ liệu từ vệ tinh và trạm khí tượng.
C. Quản lý danh sách liên lạc cá nhân trên điện thoại di động.
D. Phát hiện gian lận trong giao dịch thẻ tín dụng thời gian thực.
25. Công cụ nào sau đây thường được sử dụng để xây dựng pipeline ETL trong môi trường Big Data, giúp tự động hóa và quản lý quy trình tích hợp dữ liệu?
A. Microsoft Excel
B. Apache Airflow
C. Notepad
D. Windows Task Scheduler
26. Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cluster và lập lịch các công việc MapReduce?
A. HDFS (Hadoop Distributed File System)
B. MapReduce
C. YARN (Yet Another Resource Negotiator)
D. Hive
27. Trong ngữ cảnh Dữ liệu lớn, 'Data Lake′ (Hồ dữ liệu) khác biệt với 'Data Warehouse′ (Kho dữ liệu) chủ yếu ở điểm nào?
A. Data Lake chỉ lưu trữ dữ liệu có cấu trúc, còn Data Warehouse lưu trữ dữ liệu phi cấu trúc.
B. Data Lake lưu trữ dữ liệu thô ở định dạng gốc, còn Data Warehouse lưu trữ dữ liệu đã được xử lý và chuyển đổi.
C. Data Lake được thiết kế cho báo cáo và phân tích truyền thống, còn Data Warehouse cho khám phá dữ liệu linh hoạt.
D. Data Lake sử dụng mô hình 'schema-on-write′, còn Data Warehouse sử dụng 'schema-on-read′.
28. Công cụ nào sau đây KHÔNG phải là một framework xử lý dữ liệu lớn thời gian thực (real-time stream processing)?
A. Apache Spark Streaming
B. Apache Flink
C. Apache Kafka Streams
D. Apache Hadoop MapReduce
29. Thách thức về 'Velocity′ (Tốc độ) của Big Data đòi hỏi các hệ thống phải có khả năng gì?
A. Lưu trữ khối lượng dữ liệu khổng lồ.
B. Xử lý dữ liệu với tốc độ nhanh chóng, thường là thời gian thực hoặc gần thời gian thực.
C. Xử lý nhiều loại định dạng dữ liệu khác nhau.
D. Đảm bảo dữ liệu chính xác và tin cậy.
30. Trong mô hình MapReduce, giai đoạn 'Reduce′ thực hiện chức năng chính nào?
A. Phân chia dữ liệu đầu vào thành các phần nhỏ hơn để xử lý song song.
B. Áp dụng các hàm xử lý dữ liệu cục bộ trên từng phần dữ liệu.
C. Tổng hợp và kết hợp kết quả từ giai đoạn 'Map′ để tạo ra kết quả cuối cùng.
D. Lưu trữ dữ liệu trung gian xuống đĩa.