Đề 15 - Bài tập, đề thi trắc nghiệm online Khoa học dữ liệu trong kinh tế và kinh doanh
1. Kỹ thuật nào của khoa học dữ liệu thường được sử dụng để phân khúc khách hàng trong marketing?
A. Phân tích hồi quy.
B. Phân tích cụm (Clustering).
C. Phân tích chuỗi thời gian.
D. Kiểm định giả thuyết.
2. Đâu là thách thức lớn nhất khi triển khai khoa học dữ liệu trong các doanh nghiệp nhỏ và vừa (SMEs)?
A. Sự phức tạp của các thuật toán học máy.
B. Chi phí đầu tư ban đầu cho hạ tầng và nhân lực.
C. Khả năng tiếp cận nguồn dữ liệu lớn.
D. Thiếu sự hỗ trợ từ các cơ quan chính phủ.
3. Mục tiêu chính của 'trực quan hóa dữ liệu′ (Data visualization) trong kinh doanh là:
A. Tăng cường bảo mật dữ liệu.
B. Biến dữ liệu phức tạp thành thông tin dễ hiểu và hành động được.
C. Giảm dung lượng lưu trữ dữ liệu.
D. Tự động hóa quá trình thu thập dữ liệu.
4. Trong kinh doanh trực tuyến (e-commerce), hệ thống gợi ý sản phẩm (Recommendation system) sử dụng khoa học dữ liệu để:
A. Tự động hóa quy trình thanh toán.
B. Cá nhân hóa trải nghiệm mua sắm và tăng doanh số bán hàng.
C. Quản lý kho hàng và vận chuyển.
D. Phân tích đối thủ cạnh tranh.
5. Trong kinh tế và kinh doanh, khoa học dữ liệu chủ yếu tập trung vào việc:
A. Thu thập dữ liệu từ các nguồn công cộng.
B. Áp dụng các phương pháp thống kê và máy học để phân tích dữ liệu và đưa ra quyết định.
C. Xây dựng cơ sở hạ tầng công nghệ thông tin cho doanh nghiệp.
D. Quản lý rủi ro tài chính bằng các mô hình toán học phức tạp.
6. Kỹ thuật 'web scraping′ (cào dữ liệu web) được sử dụng để:
A. Bảo vệ trang web khỏi tấn công mạng.
B. Tự động thu thập dữ liệu từ các trang web.
C. Tối ưu hóa tốc độ tải trang web.
D. Thiết kế giao diện người dùng cho trang web.
7. Trong khoa học dữ liệu, 'feature engineering′ (kỹ thuật tạo đặc trưng) là quá trình:
A. Lựa chọn thuật toán học máy phù hợp nhất.
B. Chuẩn bị và biến đổi dữ liệu đầu vào để cải thiện hiệu suất mô hình.
C. Đánh giá và tinh chỉnh mô hình sau khi huấn luyện.
D. Trực quan hóa kết quả dự đoán của mô hình.
8. Trong phân tích dữ liệu lớn (Big Data), 'Volume′ (khối lượng) đề cập đến:
A. Tốc độ tạo ra và xử lý dữ liệu.
B. Sự đa dạng của các loại dữ liệu.
C. Kích thước dữ liệu khổng lồ.
D. Tính xác thực và đáng tin cậy của dữ liệu.
9. Trong quá trình đánh giá mô hình hồi quy, 'RMSE′ (Root Mean Squared Error) đo lường:
A. Phương sai của các hệ số hồi quy.
B. Độ lệch chuẩn của phần dư (residuals).
C. Giá trị trung bình của các sai số tuyệt đối.
D. Mức độ phù hợp của mô hình với dữ liệu huấn luyện.
10. Đâu là lợi ích chính của việc ứng dụng khoa học dữ liệu trong quản lý chuỗi cung ứng?
A. Giảm chi phí quảng cáo và marketing.
B. Tối ưu hóa tồn kho và dự báo nhu cầu chính xác hơn.
C. Tăng cường bảo mật thông tin khách hàng.
D. Cải thiện quan hệ công chúng và truyền thông.
11. Trong lĩnh vực tài chính, khoa học dữ liệu được ứng dụng để phát hiện gian lận giao dịch thông qua:
A. Phân tích báo cáo tài chính truyền thống.
B. Xây dựng mô hình phát hiện bất thường (Anomaly detection).
C. Thực hiện kiểm toán nội bộ định kỳ.
D. Theo dõi biến động giá cổ phiếu trên thị trường.
12. Thuật ngữ 'data lake′ (hồ dữ liệu) trong khoa học dữ liệu đề cập đến:
A. Một loại cơ sở dữ liệu quan hệ đặc biệt.
B. Kho lưu trữ tập trung cho dữ liệu thô ở nhiều định dạng khác nhau.
C. Một kỹ thuật trực quan hóa dữ liệu trên bản đồ địa lý.
D. Một phương pháp mã hóa dữ liệu để bảo mật thông tin.
13. Đâu là một ví dụ về dữ liệu 'phi cấu trúc′ (Unstructured data) thường được sử dụng trong kinh doanh?
A. Dữ liệu giao dịch bán hàng trong cơ sở dữ liệu.
B. Bảng lương nhân viên.
C. Bài đăng và bình luận trên mạng xã hội.
D. Thông tin sản phẩm trong catalog điện tử.
14. Chỉ số 'accuracy′ (độ chính xác) trong đánh giá mô hình phân loại đo lường:
A. Tỷ lệ dự đoán đúng trên tổng số dự đoán.
B. Tỷ lệ dự đoán đúng trên tổng số thực tế là đúng.
C. Tỷ lệ dự đoán sai trên tổng số thực tế là sai.
D. Trung bình cộng của precision và recall.
15. Đạo đức trong khoa học dữ liệu kinh doanh nhấn mạnh tầm quan trọng của việc:
A. Sử dụng dữ liệu để tối đa hóa lợi nhuận cho doanh nghiệp.
B. Bảo vệ quyền riêng tư và bảo mật dữ liệu cá nhân của khách hàng.
C. Tự động hóa hoàn toàn quy trình ra quyết định bằng AI.
D. Thu thập càng nhiều dữ liệu càng tốt từ mọi nguồn có thể.
16. Phương pháp 'ensemble learning′ (học tập hợp) như Random Forest hoạt động bằng cách:
A. Chia nhỏ dữ liệu huấn luyện thành các phần nhỏ hơn.
B. Huấn luyện nhiều mô hình yếu và kết hợp dự đoán của chúng.
C. Tối ưu hóa các tham số của một mô hình duy nhất.
D. Giảm chiều dữ liệu trước khi huấn luyện mô hình.
17. Trong lĩnh vực nhân sự (HR), khoa học dữ liệu có thể được dùng để dự đoán:
A. Tỷ lệ lạm phát trong nền kinh tế.
B. Khả năng nhân viên nghỉ việc (employee attrition).
C. Xu hướng biến động tỷ giá hối đoái.
D. Năng suất nông nghiệp theo mùa vụ.
18. Phương pháp học máy nào sau đây thuộc loại 'học có giám sát′ (Supervised learning)?
A. K-Means Clustering.
B. Principal Component Analysis (PCA).
C. Support Vector Machine (SVM).
D. Association Rule Mining.
19. Kỹ thuật giảm chiều dữ liệu (Dimensionality reduction) như PCA được sử dụng để:
A. Tăng số lượng biến đầu vào của mô hình.
B. Giảm số lượng biến đầu vào, đơn giản hóa mô hình và giảm nhiễu.
C. Tăng độ chính xác của mô hình dự đoán.
D. Cải thiện khả năng diễn giải của mô hình hồi quy.
20. Công cụ lập trình nào phổ biến nhất trong khoa học dữ liệu, đặc biệt cho phân tích thống kê và học máy?
A. Java.
B. C++.
C. Python.
D. JavaScript.
21. Trong phân tích chuỗi thời gian (Time series analysis), mục tiêu chính là:
A. Phân loại dữ liệu vào các nhóm khác nhau.
B. Dự đoán các giá trị tương lai dựa trên dữ liệu quá khứ theo thời gian.
C. Tìm mối quan hệ giữa các biến số khác nhau.
D. Giảm chiều dữ liệu và đơn giản hóa mô hình.
22. Trong quá trình tiền xử lý dữ liệu, 'xử lý dữ liệu khuyết thiếu′ (Missing data imputation) nhằm mục đích:
A. Loại bỏ hoàn toàn các dòng hoặc cột chứa dữ liệu khuyết thiếu.
B. Thay thế các giá trị khuyết thiếu bằng các giá trị ước tính.
C. Chuẩn hóa dữ liệu về cùng một thang đo.
D. Chuyển đổi dữ liệu văn bản thành dạng số.
23. Ứng dụng nào sau đây của khoa học dữ liệu giúp doanh nghiệp hiểu rõ hơn về hành vi khách hàng trên mạng xã hội?
A. Phân tích độ nhạy cảm (Sentiment analysis).
B. Phân tích rủi ro tín dụng.
C. Dự báo chuỗi cung ứng.
D. Tối ưu hóa giá sản phẩm.
24. Trong lĩnh vực bán lẻ, khoa học dữ liệu có thể giúp tối ưu hóa bố trí cửa hàng (store layout) bằng cách:
A. Dự đoán thời tiết để điều chỉnh nhiệt độ trong cửa hàng.
B. Phân tích hành vi di chuyển của khách hàng để sắp xếp sản phẩm hiệu quả hơn.
C. Tự động hóa quá trình kiểm kê hàng hóa.
D. Cá nhân hóa quảng cáo trên màn hình LED trong cửa hàng.
25. Mục đích của việc chia dữ liệu thành tập huấn luyện, tập kiểm định và tập kiểm tra là:
A. Tăng dung lượng dữ liệu.
B. Đảm bảo mô hình tổng quát hóa tốt trên dữ liệu mới và đánh giá khách quan hiệu suất mô hình.
C. Giảm thời gian huấn luyện mô hình.
D. Đơn giản hóa quá trình tiền xử lý dữ liệu.
26. Trong khoa học dữ liệu, 'bias′ (thiên vị) trong dữ liệu huấn luyện có thể dẫn đến:
A. Mô hình dự đoán chính xác hơn trên dữ liệu mới.
B. Mô hình hoạt động kém trên một số nhóm đối tượng nhất định.
C. Tăng tốc độ huấn luyện mô hình.
D. Giảm nguy cơ overfitting.
27. Trong mô hình hóa dữ liệu, 'overfitting′ (quá khớp) xảy ra khi:
A. Mô hình quá đơn giản và không nắm bắt được các mẫu trong dữ liệu.
B. Mô hình học quá kỹ dữ liệu huấn luyện và kém hiệu quả trên dữ liệu mới.
C. Dữ liệu huấn luyện chứa quá nhiều giá trị ngoại lệ.
D. Quá trình huấn luyện mô hình diễn ra quá nhanh.
28. Trong mô hình hóa rủi ro tín dụng, khoa học dữ liệu được sử dụng để:
A. Tăng lãi suất cho vay để bù đắp rủi ro.
B. Dự đoán khả năng khách hàng vỡ nợ và đánh giá mức độ rủi ro.
C. Thu thập thông tin tín dụng của khách hàng từ nhiều nguồn khác nhau.
D. Tự động hóa quy trình phê duyệt khoản vay.
29. Công nghệ 'blockchain′ có thể hỗ trợ khoa học dữ liệu trong kinh doanh bằng cách:
A. Cung cấp nền tảng để lưu trữ và chia sẻ dữ liệu một cách an toàn và minh bạch.
B. Tăng tốc độ xử lý dữ liệu lớn.
C. Cải thiện khả năng trực quan hóa dữ liệu.
D. Tự động hóa quá trình tạo đặc trưng (feature engineering).
30. Mô hình 'cây quyết định′ (Decision tree) trong học máy hoạt động dựa trên nguyên tắc:
A. Tìm đường biên phân chia tối ưu bằng cách tối đa hóa khoảng cách.
B. Xây dựng một tập hợp các cây con và kết hợp dự đoán.
C. Chia dữ liệu thành các nhánh dựa trên các thuộc tính để đưa ra quyết định.
D. Tìm các cụm dữ liệu tự nhiên dựa trên khoảng cách.