Đề 4 – Bài tập, đề thi trắc nghiệm online Dữ liệu lớn (BigData)

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Dữ liệu lớn (BigData)

Đề 4 - Bài tập, đề thi trắc nghiệm online Dữ liệu lớn (BigData)

1. Công cụ lập lịch và quản lý công việc (workflow scheduling and management) phổ biến trong hệ sinh thái Hadoop là gì?

A. Hive
B. Pig
C. Oozie
D. HBase

2. Yếu tố 'Veracity′ (Tính xác thực) trong 5V của Big Data đề cập đến điều gì?

A. Tốc độ dữ liệu được tạo ra và xử lý.
B. Độ chính xác và đáng tin cậy của dữ liệu.
C. Khối lượng dữ liệu khổng lồ.
D. Sự đa dạng của các loại dữ liệu.

3. Thách thức lớn nhất khi làm việc với dữ liệu lớn về 'Variety′ (Đa dạng) là gì?

A. Dung lượng lưu trữ quá lớn.
B. Tốc độ truy cập dữ liệu chậm.
C. Xử lý dữ liệu từ nhiều nguồn và định dạng khác nhau.
D. Đảm bảo tính bảo mật của dữ liệu.

4. Thuật ngữ 'Data Lake′ (Hồ dữ liệu) trong Big Data dùng để chỉ điều gì?

A. Một loại cơ sở dữ liệu quan hệ truyền thống.
B. Kho lưu trữ tập trung cho dữ liệu có cấu trúc và phi cấu trúc ở định dạng thô.
C. Một hệ thống quản lý dữ liệu giao dịch trực tuyến (OLTP).
D. Công nghệ ảo hóa dữ liệu.

5. Trong mô hình MapReduce, giai đoạn 'Reduce′ có chức năng chính là gì?

A. Chia nhỏ dữ liệu đầu vào thành các phần nhỏ.
B. Ánh xạ (map) dữ liệu đầu vào sang dạng key-value pairs.
C. Tổng hợp và giảm dữ liệu đã được ánh xạ.
D. Lưu trữ kết quả xử lý vào HDFS.

6. Đặc điểm nào sau đây KHÔNG phải là 'V′ trong mô hình 5V thường được dùng để mô tả Dữ liệu lớn?

A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Variety (Đa dạng)
D. Visibility (Khả năng hiển thị)

7. Khái niệm 'Data Warehouse′ (Kho dữ liệu) khác biệt chính so với 'Data Lake′ (Hồ dữ liệu) ở điểm nào?

A. Data Warehouse lưu trữ dữ liệu phi cấu trúc, Data Lake lưu trữ dữ liệu có cấu trúc.
B. Data Warehouse dữ liệu đã được xử lý và chuẩn hóa, Data Lake chứa dữ liệu thô.
C. Data Warehouse sử dụng công nghệ NoSQL, Data Lake sử dụng cơ sở dữ liệu quan hệ.
D. Data Warehouse dành cho phân tích thời gian thực, Data Lake dành cho phân tích lịch sử.

8. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu lớn theo thời gian thực (real-time processing)?

A. Hadoop MapReduce
B. Apache Spark Streaming
C. SQL Server Integration Services (SSIS)
D. Microsoft Excel

9. Hadoop Distributed File System (HDFS) được thiết kế để làm gì?

A. Xử lý truy vấn SQL trên dữ liệu lớn.
B. Lưu trữ dữ liệu lớn phân tán trên nhiều máy tính.
C. Phân tích dữ liệu theo thời gian thực.
D. Trực quan hóa dữ liệu Big Data.

10. Trong Big Data, 'Data Governance′ (Quản trị dữ liệu) có vai trò quan trọng như thế nào?

A. Không quan trọng, vì dữ liệu lớn tự quản lý được.
B. Chỉ quan trọng đối với dữ liệu nhạy cảm.
C. Rất quan trọng để đảm bảo chất lượng, bảo mật và tuân thủ quy định.
D. Chỉ cần thiết khi dữ liệu được chia sẻ bên ngoài tổ chức.

11. Ngôn ngữ lập trình nào thường được sử dụng để viết các chương trình MapReduce trong Hadoop?

A. Python
B. Java
C. C++
D. JavaScript

12. Ưu điểm chính của việc sử dụng hệ thống phân tán (distributed system) trong xử lý Big Data là gì?

A. Giảm chi phí phần cứng đáng kể.
B. Tăng cường bảo mật dữ liệu.
C. Cải thiện khả năng mở rộng và hiệu suất xử lý.
D. Đơn giản hóa việc quản lý dữ liệu.

13. Ưu điểm chính của việc sử dụng cơ sở dữ liệu NoSQL so với cơ sở dữ liệu quan hệ (RDBMS) trong Big Data là gì?

A. Tính nhất quán dữ liệu cao hơn.
B. Khả năng mở rộng tốt hơn và linh hoạt hơn với dữ liệu phi cấu trúc.
C. Hỗ trợ tốt hơn cho các giao dịch phức tạp.
D. Dễ dàng hơn trong việc tuân thủ ACID properties.

14. Ứng dụng của Big Data trong lĩnh vực y tế bao gồm điều gì?

A. Chỉ quản lý hồ sơ bệnh nhân điện tử.
B. Phân tích dữ liệu di truyền và phát triển thuốc mới.
C. Chỉ đặt lịch hẹn khám bệnh trực tuyến.
D. Chỉ thanh toán viện phí trực tuyến.

15. Kiến trúc Lambda (Lambda Architecture) trong Big Data kết hợp phương pháp xử lý nào?

A. Chỉ xử lý theo lô (batch processing).
B. Chỉ xử lý theo thời gian thực (real-time processing).
C. Kết hợp xử lý theo lô và xử lý theo thời gian thực.
D. Không xử lý dữ liệu, chỉ lưu trữ.

16. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của Big Data?

A. Phân tích hành vi khách hàng trong bán lẻ.
B. Dự báo thời tiết.
C. Soạn thảo văn bản hành chính thông thường.
D. Phát hiện gian lận trong giao dịch tài chính.

17. Công cụ nào sau đây KHÔNG phải là công cụ phổ biến cho trực quan hóa dữ liệu Big Data?

A. Tableau
B. Power BI
C. Microsoft Word
D. Qlik Sense

18. Thách thức về 'Volume′ (Khối lượng) trong Big Data chủ yếu liên quan đến vấn đề nào?

A. Đa dạng loại dữ liệu.
B. Tốc độ dữ liệu thay đổi nhanh.
C. Dung lượng lưu trữ và khả năng xử lý dữ liệu quá lớn.
D. Độ tin cậy của dữ liệu.

19. Công nghệ 'In-memory computing′ (Tính toán trong bộ nhớ) đóng vai trò như thế nào trong xử lý Big Data?

A. Giảm dung lượng bộ nhớ cần thiết.
B. Tăng tốc độ xử lý dữ liệu bằng cách giảm thiểu truy cập đĩa.
C. Đơn giản hóa việc quản lý dữ liệu.
D. Tăng cường bảo mật dữ liệu.

20. Loại cơ sở dữ liệu NoSQL nào phù hợp nhất cho việc lưu trữ và truy vấn dữ liệu dạng cột (column-oriented data) trong Big Data?

A. MongoDB (Document database)
B. Cassandra (Column-family database)
C. Redis (Key-value store)
D. Neo4j (Graph database)

21. Trong ngữ cảnh Big Data, 'Data Mining′ (Khai phá dữ liệu) chủ yếu tập trung vào điều gì?

A. Thu thập và lưu trữ dữ liệu.
B. Tìm kiếm các mẫu (patterns) và tri thức ẩn từ dữ liệu.
C. Đảm bảo chất lượng dữ liệu.
D. Trực quan hóa dữ liệu.

22. Thuật ngữ 'Data Wrangling′ (Chuẩn bị dữ liệu) trong Big Data bao gồm các hoạt động nào?

A. Chỉ thu thập dữ liệu từ nhiều nguồn.
B. Chỉ trực quan hóa dữ liệu.
C. Làm sạch, chuyển đổi và chuẩn bị dữ liệu cho phân tích.
D. Chỉ lưu trữ dữ liệu vào Data Lake.

23. Một trong những rủi ro bảo mật chính liên quan đến Big Data là gì?

A. Dữ liệu quá nhỏ để bị tấn công.
B. Khó khăn trong việc kiểm soát truy cập do khối lượng dữ liệu lớn.
C. Big Data luôn được mã hóa mặc định.
D. Không có rủi ro bảo mật trong Big Data.

24. Trong bối cảnh Big Data, 'ETL′ là viết tắt của quy trình nào?

A. Extract, Transform, Load
B. Encrypt, Transfer, Log
C. Evaluate, Test, Learn
D. Error, Track, Locate

25. Lợi ích chính của việc sử dụng công nghệ đám mây (cloud computing) cho Big Data là gì?

A. Giảm tốc độ xử lý dữ liệu.
B. Tăng chi phí đầu tư ban đầu.
C. Khả năng mở rộng linh hoạt và chi phí hiệu quả.
D. Giảm bảo mật dữ liệu.

26. Công nghệ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop Data Lake bằng ngôn ngữ SQL?

A. Spark SQL
B. MapReduce
C. HDFS
D. YARN

27. Trong Big Data, 'Machine Learning′ (Học máy) được ứng dụng để làm gì?

A. Lưu trữ dữ liệu hiệu quả hơn.
B. Trực quan hóa dữ liệu.
C. Xây dựng mô hình dự đoán và tự động hóa quyết định.
D. Đảm bảo bảo mật dữ liệu.

28. Trong Big Data, 'Stream processing′ (Xử lý luồng) khác biệt với 'Batch processing′ (Xử lý theo lô) như thế nào?

A. Stream processing xử lý dữ liệu lịch sử, Batch processing xử lý dữ liệu thời gian thực.
B. Stream processing xử lý dữ liệu liên tục khi nó được tạo ra, Batch processing xử lý dữ liệu theo từng lô định kỳ.
C. Stream processing chỉ sử dụng NoSQL, Batch processing chỉ sử dụng SQL.
D. Stream processing có độ trễ cao hơn Batch processing.

29. Để đạt được 'Value′ (Giá trị) từ Big Data, tổ chức cần tập trung vào điều gì?

A. Thu thập càng nhiều dữ liệu càng tốt, bất kể chất lượng.
B. Đầu tư vào công nghệ lưu trữ dữ liệu lớn nhất.
C. Phân tích dữ liệu để đưa ra quyết định kinh doanh thông minh và hành động phù hợp.
D. Giới hạn quyền truy cập dữ liệu để đảm bảo bảo mật tuyệt đối.

30. Trong hệ sinh thái Hadoop, YARN (Yet Another Resource Negotiator) có vai trò gì?

A. Hệ thống tệp phân tán.
B. Công cụ truy vấn SQL.
C. Hệ thống quản lý tài nguyên và lập lịch công việc.
D. Công cụ ETL.

1 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

1. Công cụ lập lịch và quản lý công việc (workflow scheduling and management) phổ biến trong hệ sinh thái Hadoop là gì?

2 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

2. Yếu tố `Veracity′ (Tính xác thực) trong 5V của Big Data đề cập đến điều gì?

3 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

3. Thách thức lớn nhất khi làm việc với dữ liệu lớn về `Variety′ (Đa dạng) là gì?

4 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

4. Thuật ngữ `Data Lake′ (Hồ dữ liệu) trong Big Data dùng để chỉ điều gì?

5 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

5. Trong mô hình MapReduce, giai đoạn `Reduce′ có chức năng chính là gì?

6 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

6. Đặc điểm nào sau đây KHÔNG phải là `V′ trong mô hình 5V thường được dùng để mô tả Dữ liệu lớn?

7 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

7. Khái niệm `Data Warehouse′ (Kho dữ liệu) khác biệt chính so với `Data Lake′ (Hồ dữ liệu) ở điểm nào?

8 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

8. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu lớn theo thời gian thực (real-time processing)?

9 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

9. Hadoop Distributed File System (HDFS) được thiết kế để làm gì?

10 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

10. Trong Big Data, `Data Governance′ (Quản trị dữ liệu) có vai trò quan trọng như thế nào?

11 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

11. Ngôn ngữ lập trình nào thường được sử dụng để viết các chương trình MapReduce trong Hadoop?

12 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

12. Ưu điểm chính của việc sử dụng hệ thống phân tán (distributed system) trong xử lý Big Data là gì?

13 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

13. Ưu điểm chính của việc sử dụng cơ sở dữ liệu NoSQL so với cơ sở dữ liệu quan hệ (RDBMS) trong Big Data là gì?

14 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

14. Ứng dụng của Big Data trong lĩnh vực y tế bao gồm điều gì?

15 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

15. Kiến trúc Lambda (Lambda Architecture) trong Big Data kết hợp phương pháp xử lý nào?

16 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

16. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của Big Data?

17 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

17. Công cụ nào sau đây KHÔNG phải là công cụ phổ biến cho trực quan hóa dữ liệu Big Data?

18 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

18. Thách thức về `Volume′ (Khối lượng) trong Big Data chủ yếu liên quan đến vấn đề nào?

19 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

19. Công nghệ `In-memory computing′ (Tính toán trong bộ nhớ) đóng vai trò như thế nào trong xử lý Big Data?

20 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

20. Loại cơ sở dữ liệu NoSQL nào phù hợp nhất cho việc lưu trữ và truy vấn dữ liệu dạng cột (column-oriented data) trong Big Data?

21 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

21. Trong ngữ cảnh Big Data, `Data Mining′ (Khai phá dữ liệu) chủ yếu tập trung vào điều gì?

22 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

22. Thuật ngữ `Data Wrangling′ (Chuẩn bị dữ liệu) trong Big Data bao gồm các hoạt động nào?

23 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

23. Một trong những rủi ro bảo mật chính liên quan đến Big Data là gì?

24 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

24. Trong bối cảnh Big Data, `ETL′ là viết tắt của quy trình nào?

25 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

25. Lợi ích chính của việc sử dụng công nghệ đám mây (cloud computing) cho Big Data là gì?

26 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

26. Công nghệ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop Data Lake bằng ngôn ngữ SQL?

27 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

27. Trong Big Data, `Machine Learning′ (Học máy) được ứng dụng để làm gì?

28 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

28. Trong Big Data, `Stream processing′ (Xử lý luồng) khác biệt với `Batch processing′ (Xử lý theo lô) như thế nào?

29 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

29. Để đạt được `Value′ (Giá trị) từ Big Data, tổ chức cần tập trung vào điều gì?

30 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 4

30. Trong hệ sinh thái Hadoop, YARN (Yet Another Resource Negotiator) có vai trò gì?