Đề 1 – Bài tập, đề thi trắc nghiệm online Dữ liệu lớn (BigData)

0

Bạn đã sẵn sàng chưa? 45 phút làm bài bắt đầu!!!

Bạn đã hết giờ làm bài! Xem kết quả các câu hỏi đã làm nhé!!!


Dữ liệu lớn (BigData)

Đề 1 - Bài tập, đề thi trắc nghiệm online Dữ liệu lớn (BigData)

1. Trong Big Data, 'Data Silos′ (Các silo dữ liệu) gây ra vấn đề gì?

A. Tăng tốc độ truy cập dữ liệu.
B. Cải thiện chất lượng dữ liệu.
C. Gây khó khăn cho việc tích hợp và phân tích dữ liệu toàn diện.
D. Đơn giản hóa quy trình quản lý dữ liệu.

2. Thuật ngữ 'Hadoop′ trong bối cảnh Dữ liệu lớn liên quan đến điều gì?

A. Một loại cơ sở dữ liệu quan hệ
B. Một framework mã nguồn mở để xử lý dữ liệu phân tán
C. Một ngôn ngữ lập trình cho phân tích dữ liệu
D. Một công cụ trực quan hóa dữ liệu

3. Trong Big Data, 'sampling′ (lấy mẫu) dữ liệu được sử dụng khi nào?

A. Khi cần xử lý toàn bộ tập dữ liệu một cách chính xác tuyệt đối.
B. Khi tập dữ liệu quá lớn, việc xử lý toàn bộ là không khả thi hoặc tốn kém.
C. Khi dữ liệu đã được làm sạch và chuẩn hóa hoàn toàn.
D. Khi muốn tăng độ phức tạp của mô hình phân tích.

4. Vai trò chính của một 'Data Scientist′ (Nhà khoa học dữ liệu) trong dự án Big Data là gì?

A. Quản lý hạ tầng phần cứng và phần mềm Big Data.
B. Xây dựng và duy trì hệ thống cơ sở dữ liệu.
C. Phân tích dữ liệu, xây dựng mô hình dự đoán và đưa ra khuyến nghị.
D. Thu thập và làm sạch dữ liệu.

5. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Dữ liệu lớn?

A. Dự đoán xu hướng thị trường chứng khoán.
B. Cá nhân hóa trải nghiệm người dùng trên mạng xã hội.
C. Quản lý dữ liệu giao dịch của một cửa hàng tạp hóa nhỏ.
D. Phát hiện gian lận trong lĩnh vực ngân hàng.

6. Trong kiến trúc Dữ liệu lớn, Data Lake (Hồ dữ liệu) khác biệt chính so với Data Warehouse (Kho dữ liệu) ở điểm nào?

A. Data Lake chỉ lưu trữ dữ liệu có cấu trúc, còn Data Warehouse lưu trữ mọi loại dữ liệu.
B. Data Lake lưu trữ dữ liệu thô, còn Data Warehouse lưu trữ dữ liệu đã qua xử lý và có cấu trúc.
C. Data Lake được dùng cho báo cáo định kỳ, Data Warehouse cho phân tích khám phá.
D. Data Lake có chi phí lưu trữ cao hơn Data Warehouse.

7. Loại cơ sở dữ liệu NoSQL nào phù hợp nhất cho việc lưu trữ dữ liệu dạng đồ thị (graph data)?

A. Document database (Cơ sở dữ liệu dạng tài liệu)
B. Key-value store (Kho khóa-giá trị)
C. Graph database (Cơ sở dữ liệu đồ thị)
D. Column-family database (Cơ sở dữ liệu dạng cột)

8. Trong lĩnh vực Big Data, ETL là viết tắt của quy trình nào?

A. Extract, Transform, and Load
B. Encrypt, Transfer, and Log
C. Evaluate, Test, and Launch
D. Error, Track, and Fix

9. Kiến trúc Lambda (Lambda Architecture) trong Big Data được thiết kế để giải quyết vấn đề chính nào?

A. Bảo mật dữ liệu nhạy cảm.
B. Xử lý đồng thời dữ liệu batch (lô) và stream (luồng).
C. Giảm chi phí lưu trữ dữ liệu.
D. Tối ưu hóa hiệu suất truy vấn dữ liệu.

10. Thuật ngữ 'Data Wrangling′ (Chuẩn bị dữ liệu) trong Big Data bao gồm các hoạt động nào?

A. Chỉ bao gồm việc thu thập dữ liệu từ nhiều nguồn.
B. Chỉ bao gồm việc trực quan hóa dữ liệu.
C. Bao gồm làm sạch, chuyển đổi, và định dạng lại dữ liệu để sẵn sàng cho phân tích.
D. Chỉ bao gồm việc lưu trữ dữ liệu vào Data Lake.

11. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu (dimensionality reduction) trong Big Data?

A. Clustering (Phân cụm)
B. Principal Component Analysis (PCA)
C. Regression (Hồi quy)
D. Classification (Phân loại)

12. Trong các hệ thống Big Data, 'CAP theorem′ (Định lý CAP) chỉ ra rằng một hệ thống phân tán khó có thể đồng thời đảm bảo cả ba thuộc tính nào?

A. Consistency, Availability, Performance
B. Consistency, Availability, Partition Tolerance
C. Capacity, Accuracy, Privacy
D. Capacity, Availability, Performance

13. Trong ngữ cảnh Big Data, 'Data Governance′ (Quản trị dữ liệu) đề cập đến điều gì?

A. Việc lựa chọn công nghệ lưu trữ dữ liệu phù hợp.
B. Việc đảm bảo chất lượng, bảo mật, tuân thủ quy định và quản lý vòng đời dữ liệu.
C. Việc xây dựng mô hình phân tích dữ liệu hiệu quả.
D. Việc trực quan hóa dữ liệu để dễ dàng hiểu.

14. Đặc điểm nào sau đây KHÔNG phải là đặc trưng cơ bản của Dữ liệu lớn (Big Data)?

A. Dung lượng lớn (Volume)
B. Tốc độ cao (Velocity)
C. Tính đa dạng (Variety)
D. Tính bảo mật (Security)

15. Trong phân tích dữ liệu lớn, 'Feature Engineering′ (Kỹ thuật đặc trưng) là quá trình:

A. Chọn thuật toán Machine Learning tốt nhất.
B. Trích xuất, biến đổi và chọn lọc các đặc trưng (features) phù hợp từ dữ liệu thô.
C. Đánh giá hiệu suất của mô hình dự đoán.
D. Trực quan hóa kết quả phân tích.

16. Đâu là thách thức lớn nhất về mặt đạo đức khi sử dụng Big Data?

A. Chi phí đầu tư vào hạ tầng Big Data quá cao.
B. Nguy cơ xâm phạm quyền riêng tư và sử dụng dữ liệu cá nhân sai mục đích.
C. Sự thiếu hụt nhân lực có kỹ năng Big Data.
D. Khả năng dữ liệu bị lỗi thời nhanh chóng.

17. Ưu điểm chính của việc sử dụng công nghệ In-Memory Computing trong Big Data Analytics là gì?

A. Giảm chi phí lưu trữ dữ liệu.
B. Tăng tốc độ truy cập và xử lý dữ liệu.
C. Đơn giản hóa quy trình ETL (Extract, Transform, Load).
D. Cải thiện khả năng bảo mật dữ liệu.

18. Loại hình phân tích dữ liệu nào tập trung vào việc tìm hiểu 'điều gì đã xảy ra′ trong quá khứ?

A. Phân tích dự đoán (Predictive Analytics)
B. Phân tích mô tả (Descriptive Analytics)
C. Phân tích chẩn đoán (Diagnostic Analytics)
D. Phân tích đề xuất (Prescriptive Analytics)

19. Thách thức 'Veracity′ (Tính xác thực) trong Big Data đề cập đến vấn đề gì?

A. Tốc độ dữ liệu được tạo ra quá nhanh.
B. Sự đa dạng của các loại dữ liệu khác nhau.
C. Độ tin cậy và chất lượng của dữ liệu.
D. Dung lượng dữ liệu quá lớn để lưu trữ.

20. Công cụ nào sau đây thường được sử dụng để xử lý dữ liệu theo thời gian thực (real-time data streaming) trong Big Data?

A. Hadoop MapReduce
B. Apache Spark Streaming
C. HIVE
D. SQL Server

21. Trong mô hình xử lý song song của MapReduce, giai đoạn 'Map′ có vai trò chính là gì?

A. Tổng hợp và kết hợp kết quả từ các mapper.
B. Chia nhỏ dữ liệu đầu vào thành các phần nhỏ hơn và xử lý độc lập.
C. Lưu trữ dữ liệu trung gian vào hệ thống tệp phân tán.
D. Truy vấn và truy xuất dữ liệu từ cơ sở dữ liệu NoSQL.

22. Khái niệm 'Data Mining′ (Khai phá dữ liệu) trong Big Data thường được sử dụng để làm gì?

A. Kiểm soát chất lượng dữ liệu đầu vào.
B. Tìm kiếm các mẫu và tri thức ẩn trong dữ liệu lớn.
C. Trực quan hóa dữ liệu để dễ dàng trình bày.
D. Sao lưu và phục hồi dữ liệu khi có sự cố.

23. Công nghệ nào sau đây thường được sử dụng để xây dựng Data Warehouse trong kiến trúc Big Data?

A. Hadoop HDFS
B. Apache Cassandra
C. Amazon Redshift
D. MongoDB

24. Công nghệ nào sau đây KHÔNG thuộc hệ sinh thái Hadoop?

A. Spark
B. HIVE
C. Pig
D. Kafka

25. Công nghệ NoSQL thường được sử dụng trong Dữ liệu lớn vì lý do chính nào?

A. Khả năng xử lý giao dịch phức tạp (ACID transactions).
B. Khả năng mở rộng linh hoạt và xử lý dữ liệu phi cấu trúc.
C. Khả năng đảm bảo tính toàn vẹn dữ liệu tuyệt đối.
D. Khả năng truy vấn dữ liệu theo chuẩn SQL.

26. Trong quy trình phân tích Dữ liệu lớn, bước nào sau đây thường diễn ra ĐẦU TIÊN?

A. Trực quan hóa dữ liệu
B. Thu thập và tích hợp dữ liệu
C. Xây dựng mô hình Machine Learning
D. Đánh giá và triển khai mô hình

27. Ứng dụng nào sau đây thể hiện việc sử dụng Big Data để cải thiện trải nghiệm khách hàng trong lĩnh vực bán lẻ?

A. Tự động hóa quy trình kiểm kê hàng hóa.
B. Phân tích hành vi mua sắm để đưa ra các khuyến nghị sản phẩm cá nhân hóa.
C. Giảm chi phí vận chuyển hàng hóa.
D. Tối ưu hóa quy trình thanh toán tại quầy.

28. Trong bối cảnh Big Data, thuật ngữ 'Schema-on-Read′ thường liên quan đến loại hệ thống lưu trữ dữ liệu nào?

A. Data Warehouse
B. Data Lake
C. Cơ sở dữ liệu quan hệ (RDBMS)
D. Hệ thống quản lý hàng đợi tin nhắn (Message Queue)

29. Ứng dụng của Big Data trong lĩnh vực Y tế KHÔNG bao gồm:

A. Cá nhân hóa phác đồ điều trị cho bệnh nhân.
B. Dự đoán và ngăn chặn dịch bệnh.
C. Tối ưu hóa lịch trình làm việc của nhân viên y tế.
D. Phát triển thuốc và phương pháp điều trị mới.

30. Yếu tố nào sau đây KHÔNG phải là một động lực chính thúc đẩy sự phát triển của Big Data?

A. Sự gia tăng của dữ liệu được tạo ra từ các thiết bị di động và IoT.
B. Chi phí lưu trữ dữ liệu ngày càng giảm.
C. Sự phát triển của công nghệ phần cứng và phần mềm xử lý dữ liệu.
D. Sự suy giảm của các công cụ phân tích dữ liệu truyền thống.

1 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

1. Trong Big Data, `Data Silos′ (Các silo dữ liệu) gây ra vấn đề gì?

2 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

2. Thuật ngữ `Hadoop′ trong bối cảnh Dữ liệu lớn liên quan đến điều gì?

3 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

3. Trong Big Data, `sampling′ (lấy mẫu) dữ liệu được sử dụng khi nào?

4 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

4. Vai trò chính của một `Data Scientist′ (Nhà khoa học dữ liệu) trong dự án Big Data là gì?

5 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

5. Ứng dụng nào sau đây KHÔNG phải là một ví dụ điển hình của việc sử dụng Dữ liệu lớn?

6 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

6. Trong kiến trúc Dữ liệu lớn, Data Lake (Hồ dữ liệu) khác biệt chính so với Data Warehouse (Kho dữ liệu) ở điểm nào?

7 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

7. Loại cơ sở dữ liệu NoSQL nào phù hợp nhất cho việc lưu trữ dữ liệu dạng đồ thị (graph data)?

8 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

8. Trong lĩnh vực Big Data, ETL là viết tắt của quy trình nào?

9 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

9. Kiến trúc Lambda (Lambda Architecture) trong Big Data được thiết kế để giải quyết vấn đề chính nào?

10 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

10. Thuật ngữ `Data Wrangling′ (Chuẩn bị dữ liệu) trong Big Data bao gồm các hoạt động nào?

11 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

11. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu (dimensionality reduction) trong Big Data?

12 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

12. Trong các hệ thống Big Data, `CAP theorem′ (Định lý CAP) chỉ ra rằng một hệ thống phân tán khó có thể đồng thời đảm bảo cả ba thuộc tính nào?

13 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

13. Trong ngữ cảnh Big Data, `Data Governance′ (Quản trị dữ liệu) đề cập đến điều gì?

14 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

14. Đặc điểm nào sau đây KHÔNG phải là đặc trưng cơ bản của Dữ liệu lớn (Big Data)?

15 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

15. Trong phân tích dữ liệu lớn, `Feature Engineering′ (Kỹ thuật đặc trưng) là quá trình:

16 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

16. Đâu là thách thức lớn nhất về mặt đạo đức khi sử dụng Big Data?

17 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

17. Ưu điểm chính của việc sử dụng công nghệ In-Memory Computing trong Big Data Analytics là gì?

18 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

18. Loại hình phân tích dữ liệu nào tập trung vào việc tìm hiểu `điều gì đã xảy ra′ trong quá khứ?

19 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

19. Thách thức `Veracity′ (Tính xác thực) trong Big Data đề cập đến vấn đề gì?

20 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

20. Công cụ nào sau đây thường được sử dụng để xử lý dữ liệu theo thời gian thực (real-time data streaming) trong Big Data?

21 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

21. Trong mô hình xử lý song song của MapReduce, giai đoạn `Map′ có vai trò chính là gì?

22 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

22. Khái niệm `Data Mining′ (Khai phá dữ liệu) trong Big Data thường được sử dụng để làm gì?

23 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

23. Công nghệ nào sau đây thường được sử dụng để xây dựng Data Warehouse trong kiến trúc Big Data?

24 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

24. Công nghệ nào sau đây KHÔNG thuộc hệ sinh thái Hadoop?

25 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

25. Công nghệ NoSQL thường được sử dụng trong Dữ liệu lớn vì lý do chính nào?

26 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

26. Trong quy trình phân tích Dữ liệu lớn, bước nào sau đây thường diễn ra ĐẦU TIÊN?

27 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

27. Ứng dụng nào sau đây thể hiện việc sử dụng Big Data để cải thiện trải nghiệm khách hàng trong lĩnh vực bán lẻ?

28 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

28. Trong bối cảnh Big Data, thuật ngữ `Schema-on-Read′ thường liên quan đến loại hệ thống lưu trữ dữ liệu nào?

29 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

29. Ứng dụng của Big Data trong lĩnh vực Y tế KHÔNG bao gồm:

30 / 30

Category: Dữ liệu lớn (BigData)

Tags: Bộ đề 1

30. Yếu tố nào sau đây KHÔNG phải là một động lực chính thúc đẩy sự phát triển của Big Data?