Đề 3 - Bài tập, đề thi trắc nghiệm online Dữ liệu lớn (BigData)

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!

Dữ liệu lớn (BigData)

1. Trong môi trường Big Data, 'Scalability′ (Khả năng mở rộng) đề cập đến điều gì?

A. Khả năng giảm chi phí lưu trữ dữ liệu

B. Khả năng xử lý dữ liệu nhanh hơn trên một máy chủ duy nhất

C. Khả năng hệ thống xử lý tốt hơn khi tăng khối lượng dữ liệu hoặc người dùng

D. Khả năng mã hóa dữ liệu an toàn hơn

2. Loại hình phân tích dữ liệu nào tập trung vào việc dự đoán các sự kiện hoặc xu hướng trong tương lai?

A. Descriptive analytics (Phân tích mô tả)

B. Diagnostic analytics (Phân tích chẩn đoán)

C. Predictive analytics (Phân tích dự đoán)

D. Prescriptive analytics (Phân tích chỉ định)

3. Trong hệ sinh thái Hadoop, thành phần nào cung cấp dịch vụ thư mục phân tán và metadata cho dữ liệu HDFS?

A. NameNode

B. DataNode

C. ResourceManager

D. NodeManager

4. Trong Hadoop, 'DataNode′ có vai trò chính là gì?

A. Quản lý metadata của hệ thống file

B. Lưu trữ các khối dữ liệu thực tế

C. Lập lịch và quản lý công việc MapReduce

D. Cung cấp giao diện truy vấn SQL

5. Thuật ngữ 'Data Lake′ (Hồ dữ liệu) trong Big Data dùng để chỉ điều gì?

A. Một loại cơ sở dữ liệu quan hệ

B. Kho lưu trữ dữ liệu có cấu trúc và đã qua xử lý

C. Kho lưu trữ dữ liệu thô ở nhiều định dạng khác nhau

D. Hệ thống quản lý dữ liệu thời gian thực

6. Ứng dụng của Big Data trong lĩnh vực Y tế thường tập trung vào điều gì?

A. Quản lý hồ sơ bệnh nhân trên giấy

B. Dự đoán và phòng ngừa dịch bệnh, cá nhân hóa điều trị

C. Sử dụng điện thoại bàn để liên lạc với bệnh nhân

D. In ấn kết quả xét nghiệm

7. Công cụ lập lịch công việc và quản lý workflow phổ biến trong hệ sinh thái Hadoop là gì?

A. HDFS

B. MapReduce

C. Oozie

D. Hive

8. Công cụ nào sau đây KHÔNG phải là một framework xử lý stream dữ liệu phổ biến?

A. Apache Flink

B. Apache Storm

C. Apache Spark Streaming

D. Apache Pig

9. Trong Big Data, 'Data Science′ (Khoa học dữ liệu) là lĩnh vực tập trung vào điều gì?

A. Quản lý cơ sở dữ liệu quan hệ

B. Phát triển phần mềm ứng dụng

C. Sử dụng phương pháp khoa học để phân tích và hiểu dữ liệu

D. Bảo trì hệ thống mạng máy tính

10. Công cụ trực quan hóa dữ liệu (Data Visualization) nào sau đây phổ biến trong Big Data?

A. Microsoft Word

B. Microsoft PowerPoint

C. Tableau

D. Microsoft Paint

11. Trong ngữ cảnh Big Data, 'Data Governance′ (Quản trị dữ liệu) có vai trò chính là gì?

A. Tối ưu hóa tốc độ xử lý dữ liệu

B. Đảm bảo chất lượng, bảo mật và tuân thủ quy định về dữ liệu

C. Mở rộng khả năng lưu trữ dữ liệu

D. Phân tích dữ liệu thời gian thực

12. Thuật ngữ 'Data Mining′ (Khai phá dữ liệu) trong Big Data liên quan đến hoạt động nào?

A. Thu thập dữ liệu từ nhiều nguồn

B. Làm sạch và chuyển đổi dữ liệu

C. Tìm kiếm mẫu và tri thức ẩn trong dữ liệu

D. Lưu trữ dữ liệu trong hệ thống phân tán

13. Kiến trúc Lambda trong Big Data được thiết kế để giải quyết vấn đề gì?

A. Lưu trữ dữ liệu phi cấu trúc

B. Xử lý dữ liệu thời gian thực và batch processing

C. Đảm bảo tính bảo mật dữ liệu

D. Giảm chi phí lưu trữ dữ liệu

14. Khía cạnh 'Value′ (Giá trị) trong '5Vs′ của Big Data nhấn mạnh vào điều gì?

A. Tầm quan trọng của việc thu thập dữ liệu

B. Chi phí lưu trữ dữ liệu

C. Khả năng khai thác thông tin hữu ích và giá trị từ dữ liệu

D. Sự đa dạng của nguồn dữ liệu

15. Công nghệ nào sau đây thường được sử dụng để stream dữ liệu thời gian thực vào hệ thống Big Data?

A. Hadoop HDFS

B. Apache Kafka

C. MapReduce

D. Hive

16. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Big Data?

A. Phân tích hành vi khách hàng trong thương mại điện tử

B. Dự báo thời tiết

C. Quản lý kho hàng cho một cửa hàng nhỏ

D. Phát hiện gian lận trong giao dịch tài chính

17. Ưu điểm chính của việc sử dụng 'in-memory processing′ (xử lý trong bộ nhớ) như Apache Spark so với MapReduce là gì?

A. Khả năng lưu trữ dữ liệu lớn hơn

B. Tốc độ xử lý nhanh hơn đáng kể

C. Chi phí phần cứng thấp hơn

D. Dễ dàng tích hợp với các hệ thống cơ sở dữ liệu truyền thống

18. Trong bối cảnh Big Data, 'ETL′ là viết tắt của quy trình nào?

A. Extract, Transform, Load

B. Encrypt, Transfer, Link

C. Evaluate, Test, Learn

D. Error, Track, Log

19. Thách thức lớn nhất của 'Veracity′ (Tính xác thực) trong Big Data là gì?

A. Tốc độ xử lý dữ liệu quá nhanh

B. Khối lượng dữ liệu quá lớn để lưu trữ

C. Sự không đáng tin cậy và không chính xác của dữ liệu

D. Đa dạng các định dạng dữ liệu

20. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu lớn phân tán?

A. MySQL

B. Microsoft Excel

C. Hadoop

D. Oracle Database

21. Trong mô hình xử lý Big Data, 'Data Warehouse′ (Kho dữ liệu) thường được sử dụng cho mục đích gì?

A. Lưu trữ dữ liệu thô ban đầu

B. Xử lý dữ liệu thời gian thực

C. Phân tích dữ liệu lịch sử và tạo báo cáo

D. Thu thập dữ liệu từ các nguồn khác nhau

22. Công nghệ nào sau đây thường được dùng để thực hiện truy vấn và phân tích dữ liệu trên Hadoop, sử dụng cú pháp SQL-like?

A. MapReduce

B. HDFS

C. Hive

D. Spark

23. Thách thức về 'Volume′ (Khối lượng) trong Big Data chủ yếu liên quan đến vấn đề gì?

A. Đa dạng các loại dữ liệu

B. Tốc độ dữ liệu được tạo ra

C. Khả năng lưu trữ và xử lý lượng dữ liệu khổng lồ

D. Độ tin cậy của dữ liệu

24. Thuật ngữ 'Data Wrangling′ (Chuẩn bị dữ liệu) trong Big Data bao gồm các công đoạn nào?

A. Chỉ thu thập và lưu trữ dữ liệu

B. Làm sạch, chuyển đổi, và định dạng lại dữ liệu

C. Chỉ phân tích và trực quan hóa dữ liệu

D. Chỉ bảo mật và mã hóa dữ liệu

25. Ưu điểm của việc sử dụng 'columnar database′ (cơ sở dữ liệu cột) trong Big Data Analytics là gì?

A. Tối ưu cho các truy vấn OLTP

B. Tối ưu hóa hiệu suất truy vấn cho các cột được chọn

C. Dễ dàng cập nhật dữ liệu theo hàng

D. Giảm chi phí phần cứng lưu trữ

26. Yếu tố 'Variety′ (Đa dạng) trong '5Vs′ của Big Data đề cập đến điều gì?

A. Tốc độ tạo ra dữ liệu

B. Sự không chắc chắn của dữ liệu

C. Khối lượng dữ liệu khổng lồ

D. Các loại và định dạng dữ liệu khác nhau

27. Ngôn ngữ lập trình nào thường được sử dụng để viết các ứng dụng MapReduce trong Hadoop?

A. Python

B. Java

C. C++

D. JavaScript

28. Đặc điểm nào sau đây KHÔNG thuộc '5Vs′ của Dữ liệu lớn?

A. Volume (Khối lượng)

B. Velocity (Tốc độ)

C. Value (Giá trị)

D. Validity (Tính hợp lệ)

29. Công cụ nào sau đây KHÔNG phải là một nền tảng NoSQL thường dùng trong Big Data?

A. MongoDB

B. Cassandra

C. HBase

D. SQL Server

30. Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cluster và lập lịch công việc?

A. HDFS (Hadoop Distributed File System)

B. MapReduce

C. YARN (Yet Another Resource Negotiator)

D. Hive

1 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

1. Trong môi trường Big Data, `Scalability′ (Khả năng mở rộng) đề cập đến điều gì?

A. Khả năng giảm chi phí lưu trữ dữ liệu

B. Khả năng xử lý dữ liệu nhanh hơn trên một máy chủ duy nhất

C. Khả năng hệ thống xử lý tốt hơn khi tăng khối lượng dữ liệu hoặc người dùng

D. Khả năng mã hóa dữ liệu an toàn hơn

2 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

2. Loại hình phân tích dữ liệu nào tập trung vào việc dự đoán các sự kiện hoặc xu hướng trong tương lai?

A. Descriptive analytics (Phân tích mô tả)

B. Diagnostic analytics (Phân tích chẩn đoán)

C. Predictive analytics (Phân tích dự đoán)

D. Prescriptive analytics (Phân tích chỉ định)

3 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

3. Trong hệ sinh thái Hadoop, thành phần nào cung cấp dịch vụ thư mục phân tán và metadata cho dữ liệu HDFS?

A. NameNode

B. DataNode

C. ResourceManager

D. NodeManager

4 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

4. Trong Hadoop, `DataNode′ có vai trò chính là gì?

A. Quản lý metadata của hệ thống file

B. Lưu trữ các khối dữ liệu thực tế

C. Lập lịch và quản lý công việc MapReduce

D. Cung cấp giao diện truy vấn SQL

5 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

5. Thuật ngữ `Data Lake′ (Hồ dữ liệu) trong Big Data dùng để chỉ điều gì?

A. Một loại cơ sở dữ liệu quan hệ

B. Kho lưu trữ dữ liệu có cấu trúc và đã qua xử lý

C. Kho lưu trữ dữ liệu thô ở nhiều định dạng khác nhau

D. Hệ thống quản lý dữ liệu thời gian thực

6 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

6. Ứng dụng của Big Data trong lĩnh vực Y tế thường tập trung vào điều gì?

A. Quản lý hồ sơ bệnh nhân trên giấy

B. Dự đoán và phòng ngừa dịch bệnh, cá nhân hóa điều trị

C. Sử dụng điện thoại bàn để liên lạc với bệnh nhân

D. In ấn kết quả xét nghiệm

7 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

7. Công cụ lập lịch công việc và quản lý workflow phổ biến trong hệ sinh thái Hadoop là gì?

A. HDFS

B. MapReduce

C. Oozie

D. Hive

8 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

8. Công cụ nào sau đây KHÔNG phải là một framework xử lý stream dữ liệu phổ biến?

A. Apache Flink

B. Apache Storm

C. Apache Spark Streaming

D. Apache Pig

9 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

9. Trong Big Data, `Data Science′ (Khoa học dữ liệu) là lĩnh vực tập trung vào điều gì?

A. Quản lý cơ sở dữ liệu quan hệ

B. Phát triển phần mềm ứng dụng

C. Sử dụng phương pháp khoa học để phân tích và hiểu dữ liệu

D. Bảo trì hệ thống mạng máy tính

10 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

10. Công cụ trực quan hóa dữ liệu (Data Visualization) nào sau đây phổ biến trong Big Data?

A. Microsoft Word

B. Microsoft PowerPoint

C. Tableau

D. Microsoft Paint

11 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

11. Trong ngữ cảnh Big Data, `Data Governance′ (Quản trị dữ liệu) có vai trò chính là gì?

A. Tối ưu hóa tốc độ xử lý dữ liệu

B. Đảm bảo chất lượng, bảo mật và tuân thủ quy định về dữ liệu

C. Mở rộng khả năng lưu trữ dữ liệu

D. Phân tích dữ liệu thời gian thực

12 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

12. Thuật ngữ `Data Mining′ (Khai phá dữ liệu) trong Big Data liên quan đến hoạt động nào?

A. Thu thập dữ liệu từ nhiều nguồn

B. Làm sạch và chuyển đổi dữ liệu

C. Tìm kiếm mẫu và tri thức ẩn trong dữ liệu

D. Lưu trữ dữ liệu trong hệ thống phân tán

13 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

13. Kiến trúc Lambda trong Big Data được thiết kế để giải quyết vấn đề gì?

A. Lưu trữ dữ liệu phi cấu trúc

B. Xử lý dữ liệu thời gian thực và batch processing

C. Đảm bảo tính bảo mật dữ liệu

D. Giảm chi phí lưu trữ dữ liệu

14 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

14. Khía cạnh `Value′ (Giá trị) trong `5Vs′ của Big Data nhấn mạnh vào điều gì?

A. Tầm quan trọng của việc thu thập dữ liệu

B. Chi phí lưu trữ dữ liệu

C. Khả năng khai thác thông tin hữu ích và giá trị từ dữ liệu

D. Sự đa dạng của nguồn dữ liệu

15 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

15. Công nghệ nào sau đây thường được sử dụng để stream dữ liệu thời gian thực vào hệ thống Big Data?

B. Apache Kafka

C. MapReduce

D. Hive

A. Hadoop HDFS

16 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

16. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Big Data?

A. Phân tích hành vi khách hàng trong thương mại điện tử

B. Dự báo thời tiết

C. Quản lý kho hàng cho một cửa hàng nhỏ

D. Phát hiện gian lận trong giao dịch tài chính

17 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

17. Ưu điểm chính của việc sử dụng `in-memory processing′ (xử lý trong bộ nhớ) như Apache Spark so với MapReduce là gì?

A. Khả năng lưu trữ dữ liệu lớn hơn

B. Tốc độ xử lý nhanh hơn đáng kể

C. Chi phí phần cứng thấp hơn

D. Dễ dàng tích hợp với các hệ thống cơ sở dữ liệu truyền thống

18 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

18. Trong bối cảnh Big Data, `ETL′ là viết tắt của quy trình nào?

A. Extract, Transform, Load

B. Encrypt, Transfer, Link

C. Evaluate, Test, Learn

D. Error, Track, Log

19 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

19. Thách thức lớn nhất của `Veracity′ (Tính xác thực) trong Big Data là gì?

A. Tốc độ xử lý dữ liệu quá nhanh

B. Khối lượng dữ liệu quá lớn để lưu trữ

C. Sự không đáng tin cậy và không chính xác của dữ liệu

D. Đa dạng các định dạng dữ liệu

20 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

20. Công nghệ nào sau đây thường được sử dụng để xử lý dữ liệu lớn phân tán?

A. MySQL

B. Microsoft Excel

C. Hadoop

D. Oracle Database

21 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

21. Trong mô hình xử lý Big Data, `Data Warehouse′ (Kho dữ liệu) thường được sử dụng cho mục đích gì?

A. Lưu trữ dữ liệu thô ban đầu

B. Xử lý dữ liệu thời gian thực

C. Phân tích dữ liệu lịch sử và tạo báo cáo

D. Thu thập dữ liệu từ các nguồn khác nhau

22 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

22. Công nghệ nào sau đây thường được dùng để thực hiện truy vấn và phân tích dữ liệu trên Hadoop, sử dụng cú pháp SQL-like?

A. MapReduce

B. HDFS

C. Hive

D. Spark

23 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

23. Thách thức về `Volume′ (Khối lượng) trong Big Data chủ yếu liên quan đến vấn đề gì?

A. Đa dạng các loại dữ liệu

B. Tốc độ dữ liệu được tạo ra

C. Khả năng lưu trữ và xử lý lượng dữ liệu khổng lồ

D. Độ tin cậy của dữ liệu

24 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

24. Thuật ngữ `Data Wrangling′ (Chuẩn bị dữ liệu) trong Big Data bao gồm các công đoạn nào?

A. Chỉ thu thập và lưu trữ dữ liệu

B. Làm sạch, chuyển đổi, và định dạng lại dữ liệu

C. Chỉ phân tích và trực quan hóa dữ liệu

D. Chỉ bảo mật và mã hóa dữ liệu

25 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

25. Ưu điểm của việc sử dụng `columnar database′ (cơ sở dữ liệu cột) trong Big Data Analytics là gì?

A. Tối ưu cho các truy vấn OLTP

B. Tối ưu hóa hiệu suất truy vấn cho các cột được chọn

C. Dễ dàng cập nhật dữ liệu theo hàng

D. Giảm chi phí phần cứng lưu trữ

26 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

26. Yếu tố `Variety′ (Đa dạng) trong `5Vs′ của Big Data đề cập đến điều gì?

A. Tốc độ tạo ra dữ liệu

B. Sự không chắc chắn của dữ liệu

C. Khối lượng dữ liệu khổng lồ

D. Các loại và định dạng dữ liệu khác nhau

27 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

27. Ngôn ngữ lập trình nào thường được sử dụng để viết các ứng dụng MapReduce trong Hadoop?

A. Python

B. Java

C. C++

D. JavaScript

28 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

28. Đặc điểm nào sau đây KHÔNG thuộc `5Vs′ của Dữ liệu lớn?

A. Volume (Khối lượng)

B. Velocity (Tốc độ)

C. Value (Giá trị)

D. Validity (Tính hợp lệ)

29 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

29. Công cụ nào sau đây KHÔNG phải là một nền tảng NoSQL thường dùng trong Big Data?

A. MongoDB

B. Cassandra

C. HBase

D. SQL Server

30 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 3

30. Trong kiến trúc Hadoop, thành phần nào chịu trách nhiệm quản lý tài nguyên cluster và lập lịch công việc?

A. HDFS (Hadoop Distributed File System)

B. MapReduce

C. YARN (Yet Another Resource Negotiator)

D. Hive

Xem kết quả

Nội dung liên quan: