1. Trong phân tích chuỗi thời gian, thành phần 'xu hướng′ (trend) đề cập đến:
A. Biến động ngắn hạn và ngẫu nhiên
B. Mô hình biến động lặp lại theo chu kỳ cố định
C. Sự thay đổi dài hạn và có hệ thống trong dữ liệu
D. Ảnh hưởng của các sự kiện bất thường
2. Khoảng tin cậy (confidence interval) cho trung bình tổng thể cung cấp thông tin gì?
A. Giá trị trung bình mẫu
B. Ước tính khoảng giá trị mà trung bình tổng thể có khả năng nằm trong đó với một độ tin cậy nhất định
C. Độ lệch chuẩn của mẫu
D. Kích thước mẫu cần thiết
3. Khi một nhà khoa học dữ liệu sử dụng hồi quy tuyến tính để dự đoán doanh số bán hàng dựa trên chi phí quảng cáo, họ đang áp dụng thống kê vào lĩnh vực nào?
A. Mô hình hóa dự đoán
B. Phân tích phương sai
C. Kiểm định giả thuyết
D. Thống kê mô tả
4. Phân tích phương sai lặp lại (Repeated measures ANOVA) được sử dụng khi nào?
A. So sánh trung bình của các nhóm độc lập
B. Phân tích mối quan hệ giữa hai biến liên tục
C. So sánh trung bình của cùng một nhóm đối tượng ở nhiều thời điểm khác nhau hoặc dưới các điều kiện khác nhau
D. Kiểm tra sự độc lập giữa các biến phân loại
5. Khái niệm 'p-value′ trong kiểm định giả thuyết biểu thị điều gì?
A. Xác suất giả thuyết null là đúng
B. Xác suất quan sát được kết quả cực đoan như kết quả đã thu được (hoặc hơn) nếu giả thuyết null là đúng
C. Ngưỡng ý nghĩa thống kê
D. Sai số loại I
6. Trong thống kê Bayes, 'prior probability′ (xác suất tiên nghiệm) đại diện cho điều gì?
A. Xác suất của dữ liệu quan sát được
B. Xác suất của giả thuyết sau khi xem xét dữ liệu
C. Xác suất ban đầu của giả thuyết trước khi có dữ liệu
D. Xác suất của sai số loại I
7. ROC curve (Receiver Operating Characteristic curve) và AUC (Area Under the Curve) được sử dụng để đánh giá hiệu suất của mô hình nào?
A. Mô hình hồi quy tuyến tính
B. Mô hình phân loại (classification)
C. Mô hình phân cụm
D. Mô hình chuỗi thời gian
8. Phương pháp 'cross-validation′ (kiểm định chéo) thường được sử dụng để làm gì trong mô hình hóa dự đoán?
A. Tăng kích thước tập dữ liệu huấn luyện
B. Đánh giá khả năng khái quát hóa của mô hình trên dữ liệu mới
C. Chọn biến quan trọng nhất cho mô hình
D. Giảm độ phức tạp của mô hình
9. Nguyên tắc 'Occam′s Razor′ trong mô hình hóa thống kê thường được hiểu là:
A. Mô hình phức tạp hơn luôn tốt hơn
B. Chọn mô hình đơn giản nhất giải thích dữ liệu tốt
C. Sử dụng nhiều biến nhất có thể trong mô hình
D. Luôn ưu tiên mô hình có độ chính xác cao nhất trên dữ liệu huấn luyện
10. Một nhà nghiên cứu muốn so sánh hiệu quả của ba phương pháp giảng dạy khác nhau đối với kết quả học tập của sinh viên. Phương pháp thống kê phù hợp nhất để phân tích dữ liệu này là:
A. Phân tích tương quan
B. Phân tích hồi quy tuyến tính
C. Phân tích phương sai (ANOVA)
D. Kiểm định t độc lập
11. Trong phân tích dữ liệu khảo sát, trọng số (weighting) được sử dụng để:
A. Giảm kích thước mẫu
B. Điều chỉnh sự khác biệt giữa mẫu và tổng thể
C. Tăng độ chính xác của phép đo
D. Đơn giản hóa quá trình phân tích
12. Trong phân tích dữ liệu lớn (big data), kỹ thuật 'dimensionality reduction′ (giảm chiều dữ liệu) được sử dụng để:
A. Tăng kích thước dữ liệu
B. Giảm số lượng biến (features) trong dữ liệu
C. Cải thiện chất lượng dữ liệu
D. Tăng tốc độ thu thập dữ liệu
13. Độ lệch chuẩn (standard deviation) đo lường điều gì?
A. Giá trị trung bình của tập dữ liệu
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình
C. Vị trí trung tâm của dữ liệu
D. Hình dạng phân phối của dữ liệu
14. Trong kiểm soát chất lượng sản xuất, việc sử dụng biểu đồ kiểm soát (control chart) để theo dõi sự biến động của một quy trình sản xuất theo thời gian là một ví dụ của:
A. Thống kê mô tả
B. Thống kê suy luận
C. Quản lý chất lượng thống kê
D. Phân tích hồi quy
15. Phương pháp 'gradient boosting′ là một ví dụ của thuật toán học máy nào?
A. Cây quyết định (decision tree)
B. Hồi quy tuyến tính
C. Ensemble learning (học tập hợp)
D. Phân tích thành phần chính (PCA)
16. Trong thống kê ứng dụng, 'feature engineering′ (kỹ thuật đặc trưng) đề cập đến quá trình:
A. Thu thập dữ liệu từ nhiều nguồn khác nhau
B. Chọn thuật toán học máy phù hợp nhất
C. Biến đổi và tạo ra các biến mới từ dữ liệu hiện có để cải thiện hiệu suất mô hình
D. Đánh giá và so sánh các mô hình khác nhau
17. Khái niệm 'đa cộng tuyến′ (multicollinearity) trong hồi quy đa biến đề cập đến vấn đề gì?
A. Mối quan hệ phi tuyến tính giữa các biến
B. Tương quan cao giữa các biến độc lập
C. Sự thiếu biến quan trọng trong mô hình
D. Sai số trong đo lường biến phụ thuộc
18. Trong nghiên cứu thị trường, một công ty muốn ước tính tỷ lệ khách hàng tiềm năng quan tâm đến sản phẩm mới. Họ nên sử dụng loại thống kê nào để đưa ra kết luận về toàn bộ thị trường dựa trên một mẫu khảo sát?
A. Thống kê mô tả
B. Thống kê suy luận
C. Thống kê xác suất
D. Thống kê Bayes
19. Khi nào thì việc sử dụng thống kê phi tham số (non-parametric statistics) được ưu tiên hơn thống kê tham số (parametric statistics)?
A. Khi dữ liệu tuân theo phân phối chuẩn
B. Khi kích thước mẫu lớn
C. Khi các giả định về phân phối của dữ liệu không được đáp ứng
D. Khi cần tính toán nhanh chóng
20. Trong phân tích phương sai (ANOVA), 'F-statistic′ được sử dụng để kiểm định giả thuyết nào?
A. Giả thuyết rằng tất cả các trung bình nhóm đều bằng nhau
B. Giả thuyết rằng phương sai của các nhóm bằng nhau
C. Giả thuyết rằng các biến độc lập không có ảnh hưởng đến biến phụ thuộc
D. Giả thuyết rằng dữ liệu tuân theo phân phối chuẩn
21. Hệ số tương quan Pearson (Pearson correlation coefficient) đo lường điều gì?
A. Sức mạnh của mối quan hệ phi tuyến tính giữa hai biến
B. Sức mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định lượng
C. Sự khác biệt trung bình giữa hai nhóm
D. Mức độ phù hợp của mô hình hồi quy
22. Phân tích cụm (cluster analysis) là một kỹ thuật thống kê được sử dụng để:
A. Dự đoán giá trị của một biến dựa trên các biến khác
B. Phân nhóm các đối tượng tương tự vào các cụm dựa trên đặc điểm của chúng
C. Kiểm định giả thuyết về sự khác biệt giữa các nhóm
D. Mô tả đặc điểm của một tập dữ liệu
23. Phân tích hồi quy đa biến (Multiple regression) được sử dụng để:
A. So sánh trung bình của hai nhóm
B. Dự đoán một biến phụ thuộc dựa trên nhiều biến độc lập
C. Xác định mối quan hệ giữa hai biến định tính
D. Mô tả đặc điểm của một tập dữ liệu
24. Sai số loại II (Type II error) trong kiểm định giả thuyết xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó thực sự đúng
B. Không bác bỏ giả thuyết null khi nó thực sự sai
C. Chọn mẫu không đại diện
D. Tính toán sai giá trị thống kê
25. Phương pháp 'bootstrap′ trong thống kê ứng dụng thường được sử dụng để làm gì?
A. Ước tính trung bình tổng thể
B. Kiểm định giả thuyết về phương sai
C. Ước tính độ tin cậy của các ước lượng thống kê
D. Phân tích dữ liệu chuỗi thời gian
26. Khi một nhà phân tích dữ liệu gặp phải dữ liệu bị thiếu (missing data), phương pháp nào sau đây thường được sử dụng để xử lý?
A. Loại bỏ toàn bộ các quan sát có dữ liệu bị thiếu (listwise deletion)
B. Thay thế giá trị thiếu bằng giá trị trung bình (mean imputation)
C. Sử dụng các phương pháp suy đoán giá trị thiếu (multiple imputation)
D. Tất cả các phương pháp trên đều có thể sử dụng
27. Trong lĩnh vực y tế, thống kê ứng dụng được sử dụng rộng rãi để làm gì?
A. Tính toán chi phí bệnh viện
B. Dự đoán số lượng bệnh nhân nhập viện
C. Đánh giá hiệu quả của các phương pháp điều trị mới
D. Quản lý hồ sơ bệnh án điện tử
28. Trong phân tích dữ liệu phân loại (categorical data), kiểm định Chi-bình phương (Chi-squared test) thường được sử dụng để:
A. So sánh trung bình của hai nhóm
B. Kiểm tra sự độc lập giữa hai biến phân loại
C. Đo lường mức độ tương quan tuyến tính
D. Dự đoán giá trị của một biến liên tục
29. Trong phân tích sống sót (survival analysis), hàm Kaplan-Meier được sử dụng để làm gì?
A. Ước tính tỷ lệ rủi ro (hazard ratio)
B. Mô hình hóa thời gian sống sót dựa trên các yếu tố tiên lượng
C. Ước tính hàm sống sót theo thời gian
D. So sánh thời gian sống sót trung bình giữa các nhóm
30. Phương pháp lấy mẫu phân tầng (stratified sampling) nhằm mục đích gì?
A. Đảm bảo mọi cá thể trong tổng thể đều có cơ hội được chọn vào mẫu
B. Giảm chi phí và thời gian thu thập dữ liệu
C. Tăng tính đại diện của mẫu bằng cách chia tổng thể thành các nhóm đồng nhất
D. Loại bỏ sai số chọn mẫu