Đề 15 – Bài tập, đề thi trắc nghiệm online Dữ liệu lớn (BigData)

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Dữ liệu lớn (BigData)

Đề 15 - Bài tập, đề thi trắc nghiệm online Dữ liệu lớn (BigData)

1. Trong Big Data, ETL (Extract, Transform, Load) là quy trình dùng để làm gì?

A. Trực quan hóa dữ liệu.
B. Phân tích dữ liệu thời gian thực.
C. Thu thập, biến đổi và tải dữ liệu từ nhiều nguồn vào kho dữ liệu để phân tích.
D. Đảm bảo an ninh mạng cho hệ thống Big Data.

2. Trong ngữ cảnh Big Data và Machine Learning, 'feature engineering′ (kỹ thuật đặc trưng) có vai trò gì?

A. Lựa chọn thuật toán Machine Learning phù hợp nhất.
B. Thu thập dữ liệu từ nhiều nguồn khác nhau.
C. Biến đổi và chọn lọc các thuộc tính dữ liệu thô để cải thiện hiệu suất mô hình Machine Learning.
D. Đảm bảo tính bảo mật cho dữ liệu.

3. Hệ thống quản lý cơ sở dữ liệu NoSQL khác biệt với hệ thống RDBMS truyền thống như thế nào trong bối cảnh Big Data?

A. NoSQL chỉ hỗ trợ dữ liệu có cấu trúc.
B. NoSQL có khả năng mở rộng ngang (horizontal scaling) tốt hơn để xử lý dữ liệu lớn.
C. NoSQL đảm bảo tính toàn vẹn dữ liệu ACID mạnh mẽ hơn RDBMS.
D. NoSQL có cú pháp truy vấn phức tạp hơn SQL.

4. Yếu tố 'Variety′ (Đa dạng) trong Big Data mô tả điều gì?

A. Mức độ biến động của dữ liệu theo thời gian.
B. Sự phong phú của các loại dữ liệu khác nhau (có cấu trúc, bán cấu trúc, phi cấu trúc).
C. Tốc độ truy cập dữ liệu.
D. Khả năng mở rộng của hệ thống xử lý dữ liệu.

5. Công nghệ nào sau đây thường được sử dụng để thu thập dữ liệu nhật ký (log data) và sự kiện (event data) trong thời gian thực cho Big Data?

A. Hadoop MapReduce.
B. Spark SQL.
C. Kafka.
D. Hive.

6. Trong Big Data, thuật ngữ 'schema-on-read′ có nghĩa là gì?

A. Cấu trúc dữ liệu phải được định nghĩa trước khi dữ liệu được ghi vào hệ thống.
B. Cấu trúc dữ liệu được xác định khi dữ liệu được đọc và truy vấn.
C. Dữ liệu phải được chuẩn hóa theo một lược đồ chung trước khi lưu trữ.
D. Lược đồ dữ liệu được tự động suy luận từ nội dung dữ liệu.

7. Đặc điểm 'Volume′ (Dung lượng) trong Big Data đề cập đến yếu tố nào?

A. Sự đa dạng của các loại dữ liệu.
B. Tốc độ tạo ra và xử lý dữ liệu.
C. Khối lượng dữ liệu khổng lồ.
D. Tính xác thực và đáng tin cậy của dữ liệu.

8. Trong bối cảnh Big Data, 'Data Governance′ (Quản trị dữ liệu) có mục tiêu chính là gì?

A. Tối ưu hóa hiệu suất truy vấn dữ liệu.
B. Đảm bảo chất lượng, bảo mật, tuân thủ và quản lý dữ liệu hiệu quả trong toàn tổ chức.
C. Giảm chi phí lưu trữ dữ liệu.
D. Tăng tốc độ xử lý dữ liệu.

9. Thách thức lớn nhất của Big Data liên quan đến 'Veracity′ (Tính xác thực) là gì?

A. Lưu trữ dữ liệu với chi phí thấp.
B. Đảm bảo dữ liệu chính xác và loại bỏ dữ liệu nhiễu, không đáng tin cậy.
C. Xử lý dữ liệu với tốc độ cao.
D. Kết hợp nhiều loại dữ liệu khác nhau.

10. Trong mô hình 'Lambda Architecture′ cho Big Data, lớp 'batch layer′ (lớp xử lý theo lô) đảm nhận vai trò gì?

A. Xử lý truy vấn tương tác thời gian thực.
B. Xử lý dữ liệu mới nhất với độ trễ thấp.
C. Tính toán lại toàn bộ tập dữ liệu lịch sử để đảm bảo độ chính xác.
D. Thu thập dữ liệu từ các nguồn khác nhau.

11. Yếu tố nào sau đây quan trọng nhất để đảm bảo thành công của một dự án Big Data?

A. Sử dụng công nghệ Big Data mới nhất.
B. Thu thập càng nhiều dữ liệu càng tốt.
C. Xác định rõ mục tiêu kinh doanh và bài toán cần giải quyết bằng Big Data.
D. Tuyển dụng đội ngũ kỹ sư Big Data lớn nhất.

12. Công cụ nào sau đây thường được sử dụng để thực hiện truy vấn SQL trên dữ liệu Big Data lưu trữ trong Hadoop?

A. Spark Streaming.
B. HBase.
C. Hive.
D. Flume.

13. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của Big Data?

A. Phân tích hành vi khách hàng trong thương mại điện tử.
B. Dự báo thời tiết.
C. Soạn thảo văn bản hành chính.
D. Phát hiện gian lận trong giao dịch tài chính.

14. Sự khác biệt chính giữa xử lý dữ liệu theo lô (batch processing) và xử lý dữ liệu trực tuyến (stream processing) trong Big Data là gì?

A. Xử lý theo lô chỉ dùng cho dữ liệu có cấu trúc, còn xử lý trực tuyến cho dữ liệu phi cấu trúc.
B. Xử lý theo lô tập trung vào dữ liệu quá khứ và phân tích offline, còn xử lý trực tuyến tập trung vào dữ liệu thời gian thực và phân tích online.
C. Xử lý theo lô nhanh hơn xử lý trực tuyến.
D. Xử lý trực tuyến đòi hỏi ít tài nguyên tính toán hơn xử lý theo lô.

15. Khái niệm 'Data Mining′ (Khai phá dữ liệu) trong Big Data liên quan đến hoạt động nào?

A. Lưu trữ dữ liệu trên đám mây.
B. Tìm kiếm các mẫu, xu hướng và tri thức ẩn sâu trong dữ liệu lớn.
C. Truyền tải dữ liệu với tốc độ cao.
D. Bảo vệ dữ liệu khỏi truy cập trái phép.

16. Trong kiến trúc Big Data, tầng lưu trữ (storage layer) có vai trò chính là gì?

A. Trực quan hóa dữ liệu.
B. Thu thập và chuẩn bị dữ liệu.
C. Lưu trữ dữ liệu khổng lồ một cách tin cậy và có khả năng mở rộng.
D. Phân tích dữ liệu thời gian thực.

17. Công cụ nào sau đây thường được sử dụng để xử lý dữ liệu Big Data theo lô (batch processing)?

A. Spark Streaming.
B. Storm.
C. MapReduce.
D. Kafka.

18. Khi nói về 'Data Lake′ trong Big Data, ý nào sau đây mô tả đúng nhất?

A. Một loại cơ sở dữ liệu quan hệ truyền thống.
B. Một kho lưu trữ tập trung, chứa dữ liệu thô ở nhiều định dạng khác nhau, sẵn sàng cho nhiều mục đích sử dụng.
C. Một hệ thống quản lý cơ sở dữ liệu NoSQL cụ thể.
D. Một công cụ trực quan hóa dữ liệu.

19. Công nghệ nào sau đây KHÔNG thuộc hệ sinh thái Hadoop?

A. Spark.
B. Kafka.
C. Hive.
D. HDFS.

20. Trong bối cảnh Big Data, 'Value′ (Giá trị) đề cập đến khía cạnh nào?

A. Chi phí đầu tư vào công nghệ Big Data.
B. Lợi ích kinh tế và giá trị thông tin mà dữ liệu mang lại.
C. Số lượng nhân viên làm việc trong lĩnh vực Big Data.
D. Kích thước vật lý của các trung tâm dữ liệu.

21. Khái niệm 'Data Warehouse′ (Kho dữ liệu) khác biệt với 'Data Lake′ như thế nào?

A. Data Warehouse lưu trữ dữ liệu thô, còn Data Lake lưu trữ dữ liệu đã qua xử lý.
B. Data Warehouse có cấu trúc dữ liệu định trước (schema-on-write), còn Data Lake có cấu trúc linh hoạt (schema-on-read).
C. Data Warehouse chỉ dùng cho dữ liệu có cấu trúc, còn Data Lake cho dữ liệu phi cấu trúc.
D. Data Warehouse nhanh hơn Data Lake trong truy vấn dữ liệu.

22. Ưu điểm chính của việc sử dụng 'in-memory processing′ (xử lý trong bộ nhớ) trong Big Data analytics là gì?

A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng tốc độ xử lý dữ liệu đáng kể so với xử lý trên đĩa.
C. Đơn giản hóa việc quản lý dữ liệu.
D. Cải thiện tính bảo mật dữ liệu.

23. Ứng dụng nào sau đây thể hiện việc sử dụng Big Data để 'cá nhân hóa trải nghiệm người dùng′?

A. Dự báo doanh số bán hàng của một chuỗi siêu thị.
B. Đề xuất sản phẩm cho khách hàng dựa trên lịch sử mua hàng và hành vi duyệt web.
C. Phân tích hiệu quả chiến dịch quảng cáo trực tuyến.
D. Phát hiện gian lận thẻ tín dụng.

24. Đặc điểm 'Veracity′ (Tính xác thực) của Big Data quan tâm đến điều gì?

A. Khả năng dữ liệu được truyền tải nhanh chóng.
B. Tính đúng đắn và đáng tin cậy của dữ liệu.
C. Dung lượng lưu trữ dữ liệu.
D. Các phương pháp phân tích dữ liệu phức tạp.

25. Yếu tố nào sau đây KHÔNG phải là thách thức về mặt kỹ thuật khi triển khai Big Data?

A. Khả năng mở rộng hệ thống để xử lý dữ liệu ngày càng tăng.
B. Đảm bảo tính bảo mật và quyền riêng tư của dữ liệu.
C. Tìm kiếm nhân lực có kỹ năng phân tích Big Data.
D. Xử lý dữ liệu với độ trễ thấp.

26. Trong bối cảnh bảo mật Big Data, phương pháp 'data masking′ (che dấu dữ liệu) được sử dụng để làm gì?

A. Mã hóa toàn bộ dữ liệu.
B. Giới hạn quyền truy cập vào dữ liệu.
C. Thay thế hoặc xáo trộn dữ liệu nhạy cảm để bảo vệ thông tin cá nhân.
D. Sao lưu dữ liệu thường xuyên.

27. Ứng dụng của Big Data trong lĩnh vực y tế KHÔNG bao gồm:

A. Phân tích dữ liệu bệnh án điện tử để cải thiện chẩn đoán và điều trị.
B. Dự đoán dịch bệnh và quản lý nguồn lực y tế.
C. Tối ưu hóa lịch trình làm việc của nhân viên y tế.
D. Phát triển thuốc và liệu pháp cá nhân hóa.

28. Thuật ngữ 'Velocity′ (Tốc độ) trong Big Data liên quan trực tiếp đến khía cạnh nào?

A. Độ chính xác của dữ liệu được thu thập.
B. Tốc độ dữ liệu được tạo ra và cần xử lý nhanh chóng.
C. Số lượng nguồn dữ liệu khác nhau.
D. Giá trị kinh tế mà dữ liệu mang lại.

29. Trong Big Data analytics, 'sampling′ (lấy mẫu) dữ liệu được sử dụng khi nào và để làm gì?

A. Để tăng độ chính xác của kết quả phân tích.
B. Để giảm kích thước dữ liệu và tăng tốc độ phân tích khi làm việc với tập dữ liệu quá lớn.
C. Để đảm bảo tính bảo mật dữ liệu.
D. Để trực quan hóa dữ liệu hiệu quả hơn.

30. Công nghệ nào sau đây thường được sử dụng để lưu trữ và xử lý dữ liệu lớn phân tán?

A. Microsoft Excel.
B. Hadoop.
C. MySQL.
D. Microsoft Word.

1 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

1. Trong Big Data, ETL (Extract, Transform, Load) là quy trình dùng để làm gì?

2 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

2. Trong ngữ cảnh Big Data và Machine Learning, `feature engineering′ (kỹ thuật đặc trưng) có vai trò gì?

3 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

3. Hệ thống quản lý cơ sở dữ liệu NoSQL khác biệt với hệ thống RDBMS truyền thống như thế nào trong bối cảnh Big Data?

4 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

4. Yếu tố `Variety′ (Đa dạng) trong Big Data mô tả điều gì?

5 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

5. Công nghệ nào sau đây thường được sử dụng để thu thập dữ liệu nhật ký (log data) và sự kiện (event data) trong thời gian thực cho Big Data?

6 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

6. Trong Big Data, thuật ngữ `schema-on-read′ có nghĩa là gì?

7 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

7. Đặc điểm `Volume′ (Dung lượng) trong Big Data đề cập đến yếu tố nào?

8 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

8. Trong bối cảnh Big Data, `Data Governance′ (Quản trị dữ liệu) có mục tiêu chính là gì?

9 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

9. Thách thức lớn nhất của Big Data liên quan đến `Veracity′ (Tính xác thực) là gì?

10 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

10. Trong mô hình `Lambda Architecture′ cho Big Data, lớp `batch layer′ (lớp xử lý theo lô) đảm nhận vai trò gì?

11 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

11. Yếu tố nào sau đây quan trọng nhất để đảm bảo thành công của một dự án Big Data?

12 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

12. Công cụ nào sau đây thường được sử dụng để thực hiện truy vấn SQL trên dữ liệu Big Data lưu trữ trong Hadoop?

13 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

13. Ứng dụng nào sau đây KHÔNG phải là ứng dụng phổ biến của Big Data?

14 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

14. Sự khác biệt chính giữa xử lý dữ liệu theo lô (batch processing) và xử lý dữ liệu trực tuyến (stream processing) trong Big Data là gì?

15 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

15. Khái niệm `Data Mining′ (Khai phá dữ liệu) trong Big Data liên quan đến hoạt động nào?

16 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

16. Trong kiến trúc Big Data, tầng lưu trữ (storage layer) có vai trò chính là gì?

17 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

17. Công cụ nào sau đây thường được sử dụng để xử lý dữ liệu Big Data theo lô (batch processing)?

18 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

18. Khi nói về `Data Lake′ trong Big Data, ý nào sau đây mô tả đúng nhất?

19 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

19. Công nghệ nào sau đây KHÔNG thuộc hệ sinh thái Hadoop?

20 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

20. Trong bối cảnh Big Data, `Value′ (Giá trị) đề cập đến khía cạnh nào?

21 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

21. Khái niệm `Data Warehouse′ (Kho dữ liệu) khác biệt với `Data Lake′ như thế nào?

22 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

22. Ưu điểm chính của việc sử dụng `in-memory processing′ (xử lý trong bộ nhớ) trong Big Data analytics là gì?

23 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

23. Ứng dụng nào sau đây thể hiện việc sử dụng Big Data để `cá nhân hóa trải nghiệm người dùng′?

24 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

24. Đặc điểm `Veracity′ (Tính xác thực) của Big Data quan tâm đến điều gì?

25 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

25. Yếu tố nào sau đây KHÔNG phải là thách thức về mặt kỹ thuật khi triển khai Big Data?

26 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

26. Trong bối cảnh bảo mật Big Data, phương pháp `data masking′ (che dấu dữ liệu) được sử dụng để làm gì?

27 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

27. Ứng dụng của Big Data trong lĩnh vực y tế KHÔNG bao gồm:

28 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

28. Thuật ngữ `Velocity′ (Tốc độ) trong Big Data liên quan trực tiếp đến khía cạnh nào?

29 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

29. Trong Big Data analytics, `sampling′ (lấy mẫu) dữ liệu được sử dụng khi nào và để làm gì?

30 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 15

30. Công nghệ nào sau đây thường được sử dụng để lưu trữ và xử lý dữ liệu lớn phân tán?