1. Khi xây dựng biểu đồ đường (line chart) để thể hiện sự thay đổi theo thời gian, trục nào thường được sử dụng để biểu diễn biến thời gian?
A. Trục Y.
B. Trục X.
C. Cả trục X và trục Y.
D. Không có trục cố định, tùy thuộc vào người vẽ.
2. Mục tiêu của việc kiểm tra tính nhất quán (consistency) của dữ liệu là gì?
A. Đảm bảo tất cả các giá trị trong một cột đều giống nhau.
B. Kiểm tra xem dữ liệu có tuân thủ các quy tắc, định dạng hoặc ràng buộc đã định trước hay không.
C. Tăng số lượng mẫu dữ liệu.
D. Tạo ra các báo cáo tự động.
3. Bước Diễn giải kết quả trong phân tích dữ liệu đòi hỏi người phân tích phải:
A. Chỉ tập trung vào các con số thống kê.
B. Liên hệ kết quả với bối cảnh thực tế của vấn đề và đưa ra các insight có ý nghĩa.
C. Chỉ trình bày lại các biểu đồ đã tạo ra.
D. Tìm kiếm bằng chứng để xác nhận giả thuyết ban đầu mà không xem xét các khả năng khác.
4. Trong các loại biểu đồ phổ biến, biểu đồ nào thường được sử dụng để hiển thị sự phân bố của một biến số định lượng?
A. Biểu đồ cột (Bar chart).
B. Biểu đồ tròn (Pie chart).
C. Biểu đồ đường (Line chart).
D. Biểu đồ tần suất (Histogram).
5. Kỹ thuật nào giúp phát hiện các giá trị ngoại lệ (outliers) trong tập dữ liệu số?
A. Phân tích tương quan.
B. Hồi quy tuyến tính.
C. Biểu đồ hộp (Box plot).
D. Phân tích cụm.
6. Trong phân tích dữ liệu, thuật ngữ data wrangling tương đương với hành động nào?
A. Chỉ việc tạo báo cáo cuối cùng.
B. Là quá trình chuẩn bị, làm sạch và biến đổi dữ liệu thô để sẵn sàng cho phân tích.
C. Là việc lựa chọn thuật toán phù hợp nhất.
D. Là việc diễn giải các kết quả thống kê.
7. Kỹ thuật one-hot encoding thường được áp dụng cho loại biến nào trong phân tích dữ liệu?
A. Biến định lượng liên tục.
B. Biến định tính có thứ tự.
C. Biến định tính không có thứ tự (categorical nominal).
D. Biến thời gian.
8. Phân tích hồi quy tuyến tính (linear regression) được sử dụng để:
A. Phân loại các điểm dữ liệu vào các nhóm khác nhau.
B. Dự đoán giá trị của một biến phụ thuộc dựa trên một hoặc nhiều biến độc lập.
C. Tìm kiếm các mẫu hình tiềm ẩn trong dữ liệu không có cấu trúc.
D. Giảm số chiều của tập dữ liệu.
9. Trong phân tích dữ liệu, khái niệm bias (thiên vị) có thể xuất hiện ở giai đoạn nào?
A. Chỉ trong quá trình thu thập dữ liệu.
B. Chỉ trong quá trình diễn giải kết quả.
C. Trong quá trình thu thập, làm sạch, lựa chọn đặc trưng, hoặc xây dựng mô hình.
D. Không bao giờ xuất hiện nếu sử dụng thuật toán tiên tiến.
10. Phân tích tương quan (correlation analysis) giúp đo lường điều gì giữa hai biến số?
A. Mối quan hệ nhân quả trực tiếp.
B. Mức độ khác biệt giữa hai nhóm.
C. Mức độ liên hệ tuyến tính và chiều hướng của mối quan hệ.
D. Sự phân bố của dữ liệu trong một biến số.
11. Khi sử dụng biểu đồ tròn (pie chart), điều gì cần lưu ý để biểu đồ thể hiện rõ ràng và hiệu quả?
A. Sử dụng nhiều màu sắc sặc sỡ để thu hút người xem.
B. Chỉ sử dụng khi có quá nhiều danh mục (trên 10).
C. Hạn chế số lượng lát cắt (thường không quá 5-7) và đảm bảo tổng các phần chiếm 100%.
D. Luôn bắt đầu lát cắt lớn nhất từ vị trí 3 giờ.
12. Khi phân tích một tập dữ liệu lớn, việc sử dụng các kỹ thuật lấy mẫu (sampling) có mục đích gì?
A. Để làm cho tập dữ liệu nhỏ hơn và dễ quản lý hơn, trong khi vẫn giữ được tính đại diện.
B. Để tăng tốc độ xử lý bằng cách bỏ qua một phần dữ liệu.
C. Để đảm bảo mọi điểm dữ liệu đều có cơ hội được chọn như nhau.
D. Để loại bỏ tất cả các giá trị ngoại lệ.
13. Một tập dữ liệu có chứa cả biến định lượng (quantitative) và biến định tính (qualitative). Phương pháp phân tích nào phù hợp để khám phá mối quan hệ giữa hai loại biến này?
A. Biểu đồ tần suất (Histogram).
B. Phân tích hồi quy logistic.
C. Biểu đồ hộp (Box plot) theo nhóm.
D. Phân tích tương quan Pearson.
14. Thuật ngữ feature engineering trong phân tích dữ liệu đề cập đến quá trình nào?
A. Tạo ra các đặc trưng mới (features) từ dữ liệu thô để cải thiện hiệu suất mô hình.
B. Chỉ đơn thuần là đặt tên cho các cột dữ liệu.
C. Lựa chọn ngẫu nhiên các cột để đưa vào mô hình.
D. Đánh giá hiệu quả của các thuật toán học máy.
15. Phân tích cụm (Clustering) là một kỹ thuật học máy không giám sát, mục đích chính là gì?
A. Dự đoán giá trị của một biến liên tục.
B. Phân loại dữ liệu vào các nhóm đã biết trước.
C. Tìm kiếm các nhóm (cụm) các điểm dữ liệu tương tự nhau trong tập dữ liệu mà không cần nhãn.
D. Giảm số lượng đặc trưng của dữ liệu.
16. Độ đo precision (độ chính xác) trong phân loại thường được tính như thế nào?
A. Số lượng các trường hợp được phân loại đúng trên tổng số các trường hợp được phân loại là dương tính.
B. Số lượng các trường hợp được phân loại đúng trên tổng số các trường hợp thực tế là dương tính.
C. Tỷ lệ giữa các trường hợp dương tính thực tế và tổng số trường hợp.
D. Tổng số trường hợp được phân loại đúng trên tổng số trường hợp.
17. Trong một tập dữ liệu bán hàng, trường Giá có kiểu dữ liệu là chuỗi văn bản (string) thay vì số thực (float). Đây là lỗi thuộc loại nào?
A. Dữ liệu bị thiếu.
B. Dữ liệu trùng lặp.
C. Lỗi định dạng dữ liệu.
D. Giá trị ngoại lệ.
18. Công cụ nào sau đây thường được sử dụng để lập trình và thực hiện phân tích dữ liệu với ngôn ngữ Python?
A. Microsoft Word.
B. Visual Studio Code với các thư viện như Pandas, NumPy, Matplotlib.
C. Adobe Photoshop.
D. Google Chrome.
19. Trong phân tích dữ liệu, bước nào thường được thực hiện đầu tiên để hiểu rõ bản chất của tập dữ liệu?
A. Trực quan hóa dữ liệu.
B. Thu thập và làm sạch dữ liệu.
C. Xây dựng mô hình dự đoán.
D. Đánh giá hiệu suất mô hình.
20. Khi gặp dữ liệu bị thiếu (missing data), phương pháp nào sau đây KHÔNG phải là cách xử lý phổ biến?
A. Xóa bỏ các hàng chứa dữ liệu thiếu.
B. Điền giá trị trung bình hoặc trung vị vào các ô thiếu.
C. Sử dụng các thuật toán nội suy để ước tính giá trị thiếu.
D. Tăng gấp đôi số lượng cột dữ liệu.
21. Mục đích chính của việc trực quan hóa dữ liệu trong phân tích là gì?
A. Giảm kích thước tập dữ liệu.
B. Tăng tốc độ xử lý thuật toán.
C. Giúp con người dễ dàng nhận biết xu hướng, mẫu hình và các điểm bất thường.
D. Thay thế hoàn toàn quá trình làm sạch dữ liệu.
22. Khi so sánh hai nhóm dữ liệu, phương pháp thống kê nào thường được sử dụng để xác định xem sự khác biệt giữa hai nhóm có ý nghĩa thống kê hay không?
A. Phân tích hồi quy.
B. Kiểm định t (t-test).
C. Phân tích thành phần chính (PCA).
D. Biểu đồ phân tán (Scatter plot).
23. Trong ngữ cảnh phân tích dữ liệu, làm sạch dữ liệu (data cleaning) bao gồm các hoạt động nào sau đây?
A. Chỉ tìm kiếm các sai sót chính tả trong các trường văn bản.
B. Xử lý dữ liệu thiếu, loại bỏ trùng lặp, sửa lỗi định dạng và chuẩn hóa dữ liệu.
C. Chỉ tập trung vào việc tạo ra các biểu đồ đẹp mắt.
D. Chỉ thực hiện khi có yêu cầu rõ ràng từ người quản lý.
24. Khi phân tích dữ liệu, việc hiểu rõ domain knowledge (kiến thức chuyên ngành) là quan trọng vì nó giúp:
A. Tự động hóa hoàn toàn quá trình phân tích.
B. Xác định các câu hỏi phân tích phù hợp, diễn giải kết quả một cách chính xác và đưa ra các insight có giá trị.
C. Chỉ tập trung vào việc làm sạch dữ liệu.
D. Tăng tốc độ tính toán của thuật toán.
25. Câu hỏi Tại sao doanh số bán hàng giảm ở khu vực X trong quý vừa qua? thuộc loại câu hỏi phân tích nào?
A. Mô tả (Descriptive Analytics).
B. Chẩn đoán (Diagnostic Analytics).
C. Dự đoán (Predictive Analytics).
D. Đề xuất (Prescriptive Analytics).