Đề 10 – Bài tập, đề thi trắc nghiệm online Dữ liệu lớn (BigData)

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Dữ liệu lớn (BigData)

Đề 10 - Bài tập, đề thi trắc nghiệm online Dữ liệu lớn (BigData)

1. Trong lĩnh vực quảng cáo trực tuyến, Dữ liệu lớn được sử dụng chủ yếu để làm gì?

A. Giảm chi phí thuê máy chủ quảng cáo.
B. Tăng tốc độ tải trang web quảng cáo.
C. Cá nhân hóa quảng cáo và tối ưu hóa tỷ lệ nhấp chuột (CTR).
D. Đảm bảo tính bảo mật cho dữ liệu quảng cáo.

2. Công nghệ nào sau đây được thiết kế đặc biệt để xử lý và phân tích Dữ liệu lớn phân tán trên một cụm máy tính?

A. SQL Server
B. Hadoop
C. MySQL
D. Oracle Database

3. Mục đích chính của 'Data Lake′ (Hồ dữ liệu) trong kiến trúc Dữ liệu lớn là gì?

A. Cung cấp một kho lưu trữ dữ liệu đã được làm sạch và chuyển đổi để báo cáo.
B. Lưu trữ dữ liệu thô ở nhiều định dạng khác nhau cho các mục đích phân tích sau này.
C. Thay thế hoàn toàn cơ sở dữ liệu quan hệ trong doanh nghiệp.
D. Tối ưu hóa hiệu suất truy vấn cho các ứng dụng giao dịch trực tuyến.

4. Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop?

A. Microsoft Excel
B. SPSS
C. Hive
D. Microsoft Access

5. Công nghệ 'In-memory computing′ đóng vai trò quan trọng như thế nào trong xử lý Dữ liệu lớn thời gian thực?

A. Giảm chi phí lưu trữ dữ liệu lớn.
B. Tăng tốc độ truy cập và xử lý dữ liệu bằng cách lưu trữ trong bộ nhớ RAM.
C. Cải thiện khả năng bảo mật dữ liệu lớn.
D. Đơn giản hóa quy trình ETL trong Dữ liệu lớn.

6. Phương pháp 'Data Mining′ (Khai thác dữ liệu) trong Dữ liệu lớn chủ yếu tập trung vào điều gì?

A. Làm sạch và chuẩn hóa dữ liệu để đảm bảo chất lượng.
B. Tìm kiếm các mẫu, xu hướng và tri thức ẩn sâu trong dữ liệu.
C. Tối ưu hóa hiệu suất truy vấn cơ sở dữ liệu.
D. Trực quan hóa dữ liệu để dễ dàng trình bày.

7. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Dữ liệu lớn?

A. Phân tích cảm xúc khách hàng trên mạng xã hội.
B. Dự báo thời tiết dựa trên dữ liệu radar và vệ tinh.
C. Quản lý danh sách khách hàng trong một cửa hàng nhỏ.
D. Đề xuất sản phẩm cho người dùng trên trang web thương mại điện tử.

8. Công nghệ nào sau đây KHÔNG phải là một thành phần cốt lõi trong hệ sinh thái Hadoop?

A. HDFS (Hadoop Distributed File System)
B. MapReduce
C. Spark SQL
D. YARN (Yet Another Resource Negotiator)

9. Đặc điểm nào sau đây KHÔNG phải là một trong '5Vs′ thường được dùng để mô tả Dữ liệu lớn?

A. Volume (Khối lượng)
B. Velocity (Tốc độ)
C. Veracity (Độ xác thực)
D. Variety (Sự đa dạng)

10. Rủi ro về quyền riêng tư (privacy) trong Dữ liệu lớn phát sinh từ đâu?

A. Kích thước quá lớn của dữ liệu khiến việc kiểm soát trở nên khó khăn.
B. Khả năng suy luận thông tin cá nhân nhạy cảm từ dữ liệu tổng hợp và ẩn danh.
C. Việc sử dụng công nghệ đám mây để lưu trữ dữ liệu.
D. Sự thiếu hụt các quy định pháp lý về bảo vệ dữ liệu cá nhân.

11. Phân biệt 'Data Warehouse′ (Kho dữ liệu) và 'Data Lake′ (Hồ dữ liệu) dựa trên mục tiêu chính của chúng?

A. Data Warehouse lưu trữ dữ liệu thô, Data Lake lưu trữ dữ liệu đã xử lý.
B. Data Warehouse tập trung vào báo cáo và BI, Data Lake hỗ trợ khám phá và phân tích dữ liệu linh hoạt.
C. Data Warehouse chỉ lưu trữ dữ liệu cấu trúc, Data Lake chỉ lưu trữ dữ liệu phi cấu trúc.
D. Data Warehouse sử dụng công nghệ NoSQL, Data Lake sử dụng cơ sở dữ liệu quan hệ.

12. Thách thức lớn nhất về bảo mật dữ liệu trong môi trường Dữ liệu lớn thường liên quan đến điều gì?

A. Sự phức tạp và phân tán của dữ liệu trên nhiều hệ thống.
B. Sự thiếu hụt các công cụ bảo mật mạnh mẽ cho Dữ liệu lớn.
C. Chi phí cao để triển khai các biện pháp bảo mật cho Dữ liệu lớn.
D. Sự ưu tiên phát triển tính năng hơn là bảo mật trong các dự án Dữ liệu lớn.

13. Trong kiến trúc Lambda của Dữ liệu lớn, lớp 'Batch layer′ (Lớp xử lý lô) có vai trò gì?

A. Xử lý dữ liệu thời gian thực với độ trễ thấp.
B. Lưu trữ dữ liệu thô ở định dạng gốc.
C. Tính toán lại toàn bộ tập dữ liệu định kỳ để đảm bảo độ chính xác.
D. Phục vụ các truy vấn tương tác tốc độ cao.

14. Nguyên tắc 'CAP theorem′ (Consistency, Availability, Partition tolerance) có ý nghĩa gì trong thiết kế hệ thống Dữ liệu lớn phân tán?

A. Hệ thống phân tán có thể đảm bảo cả 3 thuộc tính cùng một lúc.
B. Hệ thống phân tán chỉ có thể đảm bảo tối đa 2 trong 3 thuộc tính tại một thời điểm.
C. CAP theorem chỉ áp dụng cho cơ sở dữ liệu quan hệ, không liên quan đến Dữ liệu lớn.
D. CAP theorem chỉ liên quan đến bảo mật dữ liệu trong môi trường phân tán.

15. Công nghệ nào sau đây thường được sử dụng để xử lý dòng dữ liệu liên tục (data streams) trong thời gian thực?

A. Hadoop MapReduce
B. Apache Spark Streaming
C. Cơ sở dữ liệu quan hệ truyền thống
D. Data Warehouse

16. Khái niệm 'Schema-on-read′ (Lược đồ khi đọc) thường được liên kết với loại kho dữ liệu nào trong Dữ liệu lớn?

A. Data Warehouse
B. Data Lake
C. Cơ sở dữ liệu quan hệ
D. Hệ thống OLTP

17. Công cụ trực quan hóa dữ liệu nào sau đây thường được sử dụng để tạo dashboard và báo cáo tương tác từ Dữ liệu lớn?

A. Microsoft Word
B. Tableau
C. Microsoft PowerPoint
D. Adobe Photoshop

18. Lợi ích chính của việc sử dụng 'Cloud computing′ (Điện toán đám mây) cho Dữ liệu lớn là gì?

A. Tăng cường bảo mật dữ liệu hơn so với trung tâm dữ liệu truyền thống.
B. Giảm chi phí đầu tư ban đầu và tăng tính linh hoạt, khả năng mở rộng.
C. Tăng tốc độ xử lý dữ liệu đáng kể so với on-premise.
D. Đơn giản hóa quy trình quản lý dữ liệu phức tạp.

19. Ưu điểm chính của việc sử dụng cơ sở dữ liệu NoSQL so với cơ sở dữ liệu quan hệ truyền thống trong xử lý Dữ liệu lớn là gì?

A. Khả năng đảm bảo tính toàn vẹn ACID mạnh mẽ hơn.
B. Khả năng mở rộng linh hoạt và xử lý dữ liệu phi cấu trúc tốt hơn.
C. Ngôn ngữ truy vấn SQL mạnh mẽ và tiêu chuẩn hơn.
D. Chi phí triển khai và vận hành thấp hơn đáng kể.

20. Yếu tố 'Value′ (Giá trị) trong '5Vs′ của Dữ liệu lớn đề cập đến điều gì?

A. Kích thước khổng lồ của dữ liệu cần xử lý.
B. Tốc độ dữ liệu được tạo ra và cần được xử lý.
C. Sự đa dạng của các loại dữ liệu khác nhau.
D. Khả năng tạo ra thông tin hữu ích và giá trị kinh doanh từ dữ liệu.

21. Trong machine learning với Dữ liệu lớn, kỹ thuật 'Feature engineering′ (Thiết kế đặc trưng) đóng vai trò gì?

A. Tối ưu hóa thuật toán machine learning.
B. Lựa chọn và biến đổi các thuộc tính dữ liệu đầu vào để cải thiện hiệu suất mô hình.
C. Đánh giá và lựa chọn mô hình machine learning tốt nhất.
D. Triển khai mô hình machine learning vào môi trường sản xuất.

22. Thuật ngữ 'Data wrangling′ (Chuẩn bị dữ liệu) trong Dữ liệu lớn bao gồm các công việc nào?

A. Thiết kế kiến trúc hệ thống Dữ liệu lớn.
B. Trích xuất, làm sạch, biến đổi và định dạng dữ liệu để phân tích.
C. Xây dựng mô hình machine learning từ dữ liệu lớn.
D. Trực quan hóa dữ liệu và tạo báo cáo.

23. Thuật ngữ 'ETL′ trong Dữ liệu lớn thường đề cập đến quy trình nào?

A. Extract, Transform, Load (Trích xuất, Biến đổi, Tải)
B. Encrypt, Transfer, Log (Mã hóa, Truyền tải, Ghi nhật ký)
C. Evaluate, Test, Launch (Đánh giá, Kiểm thử, Khởi chạy)
D. Error, Track, Locate (Lỗi, Theo dõi, Định vị)

24. Thách thức 'Data silos′ (Cô lập dữ liệu) trong tổ chức ảnh hưởng đến Dữ liệu lớn như thế nào?

A. Tăng cường bảo mật dữ liệu bằng cách phân tán dữ liệu.
B. Hạn chế khả năng phân tích toàn diện và khai thác giá trị tối đa từ dữ liệu.
C. Giảm chi phí lưu trữ dữ liệu do dữ liệu được phân chia nhỏ.
D. Đơn giản hóa việc quản lý dữ liệu bằng cách chia thành các phần nhỏ.

25. Trong ngữ cảnh Dữ liệu lớn, 'Data Governance′ (Quản trị dữ liệu) đóng vai trò gì?

A. Tăng tốc độ xử lý dữ liệu.
B. Đảm bảo chất lượng, bảo mật và tuân thủ quy định của dữ liệu.
C. Giảm chi phí lưu trữ dữ liệu.
D. Đơn giản hóa quy trình phân tích dữ liệu.

26. Trong Dữ liệu lớn, thuật ngữ 'Data virtualization′ (Ảo hóa dữ liệu) mang lại lợi ích gì?

A. Tăng tốc độ truyền tải dữ liệu qua mạng.
B. Cung cấp cái nhìn thống nhất về dữ liệu từ nhiều nguồn khác nhau mà không cần di chuyển dữ liệu.
C. Giảm dung lượng lưu trữ dữ liệu lớn.
D. Cải thiện khả năng bảo mật dữ liệu trong môi trường phân tán.

27. So sánh 'Scale-up′ (Mở rộng chiều dọc) và 'Scale-out′ (Mở rộng chiều ngang) trong bối cảnh Dữ liệu lớn?

A. Scale-up tăng số lượng máy chủ, Scale-out tăng sức mạnh của mỗi máy chủ.
B. Scale-up phù hợp với cơ sở dữ liệu NoSQL, Scale-out phù hợp với cơ sở dữ liệu quan hệ.
C. Scale-up tăng sức mạnh của một máy chủ, Scale-out thêm nhiều máy chủ.
D. Scale-up dễ dàng hơn Scale-out trong môi trường Dữ liệu lớn phân tán.

28. Loại dữ liệu nào sau đây thường được coi là 'dữ liệu phi cấu trúc′ trong ngữ cảnh Dữ liệu lớn?

A. Cơ sở dữ liệu quan hệ (Relational databases)
B. Bảng tính (Spreadsheets)
C. Tệp nhật ký máy chủ web (Web server log files)
D. Dữ liệu giao dịch (Transactional data)

29. Thách thức về 'Data quality′ (Chất lượng dữ liệu) trong Dữ liệu lớn thường xuất phát từ đâu?

A. Sự đồng nhất về định dạng dữ liệu từ các nguồn khác nhau.
B. Tốc độ xử lý dữ liệu quá nhanh khiến việc kiểm soát chất lượng khó khăn.
C. Sự đa dạng của nguồn dữ liệu và khả năng xuất hiện dữ liệu lỗi, không đầy đủ hoặc không nhất quán.
D. Việc lưu trữ dữ liệu trên hệ thống phân tán làm giảm chất lượng dữ liệu.

30. Đâu là một ví dụ về ứng dụng của Dữ liệu lớn trong lĩnh vực y tế?

A. Soạn thảo văn bản hành chính.
B. Quản lý kho hàng.
C. Phân tích dữ liệu bệnh án điện tử để cải thiện chất lượng điều trị và dự đoán dịch bệnh.
D. Thiết kế logo và bộ nhận diện thương hiệu.

1 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

1. Trong lĩnh vực quảng cáo trực tuyến, Dữ liệu lớn được sử dụng chủ yếu để làm gì?

2 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

2. Công nghệ nào sau đây được thiết kế đặc biệt để xử lý và phân tích Dữ liệu lớn phân tán trên một cụm máy tính?

3 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

3. Mục đích chính của `Data Lake′ (Hồ dữ liệu) trong kiến trúc Dữ liệu lớn là gì?

4 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

4. Công cụ nào sau đây thường được sử dụng để truy vấn và phân tích dữ liệu trong Hadoop?

5 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

5. Công nghệ `In-memory computing′ đóng vai trò quan trọng như thế nào trong xử lý Dữ liệu lớn thời gian thực?

6 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

6. Phương pháp `Data Mining′ (Khai thác dữ liệu) trong Dữ liệu lớn chủ yếu tập trung vào điều gì?

7 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

7. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Dữ liệu lớn?

8 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

8. Công nghệ nào sau đây KHÔNG phải là một thành phần cốt lõi trong hệ sinh thái Hadoop?

9 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

9. Đặc điểm nào sau đây KHÔNG phải là một trong `5Vs′ thường được dùng để mô tả Dữ liệu lớn?

10 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

10. Rủi ro về quyền riêng tư (privacy) trong Dữ liệu lớn phát sinh từ đâu?

11 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

11. Phân biệt `Data Warehouse′ (Kho dữ liệu) và `Data Lake′ (Hồ dữ liệu) dựa trên mục tiêu chính của chúng?

12 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

12. Thách thức lớn nhất về bảo mật dữ liệu trong môi trường Dữ liệu lớn thường liên quan đến điều gì?

13 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

13. Trong kiến trúc Lambda của Dữ liệu lớn, lớp `Batch layer′ (Lớp xử lý lô) có vai trò gì?

14 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

14. Nguyên tắc `CAP theorem′ (Consistency, Availability, Partition tolerance) có ý nghĩa gì trong thiết kế hệ thống Dữ liệu lớn phân tán?

15 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

15. Công nghệ nào sau đây thường được sử dụng để xử lý dòng dữ liệu liên tục (data streams) trong thời gian thực?

16 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

16. Khái niệm `Schema-on-read′ (Lược đồ khi đọc) thường được liên kết với loại kho dữ liệu nào trong Dữ liệu lớn?

17 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

17. Công cụ trực quan hóa dữ liệu nào sau đây thường được sử dụng để tạo dashboard và báo cáo tương tác từ Dữ liệu lớn?

18 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

18. Lợi ích chính của việc sử dụng `Cloud computing′ (Điện toán đám mây) cho Dữ liệu lớn là gì?

19 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

19. Ưu điểm chính của việc sử dụng cơ sở dữ liệu NoSQL so với cơ sở dữ liệu quan hệ truyền thống trong xử lý Dữ liệu lớn là gì?

20 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

20. Yếu tố `Value′ (Giá trị) trong `5Vs′ của Dữ liệu lớn đề cập đến điều gì?

21 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

21. Trong machine learning với Dữ liệu lớn, kỹ thuật `Feature engineering′ (Thiết kế đặc trưng) đóng vai trò gì?

22 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

22. Thuật ngữ `Data wrangling′ (Chuẩn bị dữ liệu) trong Dữ liệu lớn bao gồm các công việc nào?

23 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

23. Thuật ngữ `ETL′ trong Dữ liệu lớn thường đề cập đến quy trình nào?

24 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

24. Thách thức `Data silos′ (Cô lập dữ liệu) trong tổ chức ảnh hưởng đến Dữ liệu lớn như thế nào?

25 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

25. Trong ngữ cảnh Dữ liệu lớn, `Data Governance′ (Quản trị dữ liệu) đóng vai trò gì?

26 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

26. Trong Dữ liệu lớn, thuật ngữ `Data virtualization′ (Ảo hóa dữ liệu) mang lại lợi ích gì?

27 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

27. So sánh `Scale-up′ (Mở rộng chiều dọc) và `Scale-out′ (Mở rộng chiều ngang) trong bối cảnh Dữ liệu lớn?

28 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

28. Loại dữ liệu nào sau đây thường được coi là `dữ liệu phi cấu trúc′ trong ngữ cảnh Dữ liệu lớn?

29 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

29. Thách thức về `Data quality′ (Chất lượng dữ liệu) trong Dữ liệu lớn thường xuất phát từ đâu?

30 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 10

30. Đâu là một ví dụ về ứng dụng của Dữ liệu lớn trong lĩnh vực y tế?