1. Mục đích chính của việc lấy mẫu ngẫu nhiên là gì?
A. Giảm chi phí thu thập dữ liệu
B. Đảm bảo mẫu đại diện cho quần thể và giảm thiểu thiên vị
C. Tăng kích thước mẫu
D. Làm cho dữ liệu dễ phân tích hơn
2. Phân tích hồi quy tuyến tính đơn giản được sử dụng chủ yếu để làm gì?
A. Đo lường sự khác biệt giữa các nhóm
B. Mô tả hình dạng phân phối dữ liệu
C. Ước lượng và kiểm định mối quan hệ tuyến tính giữa hai biến
D. Phân loại dữ liệu vào các nhóm khác nhau
3. Khi nào thì kiểm định Chi-bình phương (Chi-squared test) thường được sử dụng?
A. So sánh trung bình của hai quần thể
B. Kiểm tra sự độc lập giữa hai biến định tính
C. Ước lượng hệ số hồi quy
D. Phân tích phương sai
4. Khi phân tích dữ liệu thời gian, thành phần 'xu hướng′ (trend) mô tả điều gì?
A. Biến động ngắn hạn và ngẫu nhiên
B. Mô hình biến động theo mùa
C. Sự biến đổi dài hạn và có hệ thống của chuỗi thời gian
D. Chu kỳ kinh tế
5. Khi so sánh hai phương pháp thống kê, tiêu chí AIC (Akaike Information Criterion) thường được sử dụng để làm gì?
A. Đánh giá độ chính xác của dự báo
B. Lựa chọn mô hình tốt nhất bằng cách cân bằng giữa độ phù hợp và độ phức tạp của mô hình
C. Kiểm tra tính dừng của chuỗi thời gian
D. Đo lường mức độ đa cộng tuyến
6. Kỹ thuật 'bootstrap′ trong thống kê ứng dụng được sử dụng để làm gì?
A. Giảm chiều dữ liệu
B. Ước lượng sai số chuẩn và khoảng tin cậy bằng cách lấy mẫu lại từ dữ liệu gốc
C. Phân cụm dữ liệu
D. Kiểm định sự độc lập
7. Sai số chuẩn (standard error) đo lường điều gì?
A. Độ lệch chuẩn của mẫu
B. Độ biến thiên của một thống kê mẫu (ví dụ: trung bình mẫu) từ mẫu này sang mẫu khác
C. Phương sai của quần thể
D. Sai số ngẫu nhiên trong đo lường
8. Trong mô hình hóa thống kê, 'overfitting′ (quá khớp) là hiện tượng gì?
A. Mô hình quá đơn giản và không nắm bắt được mối quan hệ trong dữ liệu
B. Mô hình quá phức tạp và khớp quá sát với dữ liệu huấn luyện, nhưng kém hiệu quả trên dữ liệu mới
C. Mô hình phù hợp tốt với cả dữ liệu huấn luyện và dữ liệu kiểm tra
D. Mô hình không hội tụ
9. Khi dữ liệu không tuân theo phân phối chuẩn, phương pháp thống kê nào sau đây thường được ưu tiên sử dụng?
A. Kiểm định tham số
B. Kiểm định phi tham số
C. Hồi quy tuyến tính
D. Phân tích phương sai
10. Trong phân tích phương sai (ANOVA), giá trị p (p-value) được sử dụng để làm gì?
A. Đo lường kích thước tác động
B. Ước lượng trung bình quần thể
C. Quyết định có bác bỏ giả thuyết null về sự bằng nhau của các trung bình nhóm hay không
D. Xác định phương sai của quần thể
11. Phương pháp nào sau đây thường được sử dụng để xử lý dữ liệu bị thiếu (missing data)?
A. Phân tích hồi quy
B. Phân tích phương sai
C. Điền giá trị trung bình (mean imputation) hoặc đa điền (multiple imputation)
D. Kiểm định Chi-bình phương
12. Ứng dụng của thống kê trong lĩnh vực tài chính là gì?
A. Dự đoán kết quả bầu cử
B. Phân tích rủi ro và định giá tài sản
C. Nghiên cứu tác động của biến đổi khí hậu
D. Thiết kế cầu đường
13. Hệ số tương quan Pearson đo lường điều gì?
A. Sức mạnh của mối quan hệ phi tuyến tính
B. Sức mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định lượng
C. Sự khác biệt trung bình giữa hai nhóm
D. Mức độ phân tán của dữ liệu
14. Trong thống kê ứng dụng, loại biến nào thường được sử dụng để biểu diễn các đặc điểm định tính, không có thứ tự tự nhiên?
A. Biến định lượng
B. Biến định tính thứ bậc
C. Biến định tính danh nghĩa
D. Biến tỷ lệ
15. Trong phân tích hồi quy đa biến, hệ số VIF (Variance Inflation Factor) được sử dụng để đánh giá vấn đề gì?
A. Phương sai của sai số
B. Đa cộng tuyến (multicollinearity) giữa các biến độc lập
C. Tính tuyến tính của mối quan hệ
D. Giá trị ngoại lệ
16. Khi nào thì phép kiểm định một đuôi (one-tailed test) phù hợp hơn so với kiểm định hai đuôi (two-tailed test)?
A. Khi không có giả thuyết cụ thể về hướng của hiệu ứng
B. Khi chỉ quan tâm đến hiệu ứng theo một hướng cụ thể (lớn hơn hoặc nhỏ hơn)
C. Khi kích thước mẫu lớn
D. Khi muốn tăng khả năng bác bỏ giả thuyết null
17. Khoảng tin cậy (confidence interval) cung cấp thông tin gì?
A. Giá trị chính xác của tham số quần thể
B. Một khoảng giá trị mà tham số quần thể có khả năng nằm trong đó với một độ tin cậy nhất định
C. Xác suất giả thuyết null là đúng
D. Độ lệch chuẩn của quần thể
18. Trong phân tích cụm (cluster analysis), mục tiêu chính là gì?
A. Dự đoán giá trị của một biến mục tiêu
B. Phân nhóm các đối tượng tương tự nhau vào cùng một cụm
C. Tìm mối quan hệ tuyến tính giữa các biến
D. Kiểm định giả thuyết về trung bình quần thể
19. Trong phân tích dữ liệu lớn (Big Data), kỹ thuật thống kê nào thường được sử dụng để giảm chiều dữ liệu và trích xuất đặc trưng quan trọng?
A. Phân tích hồi quy tuyến tính
B. Phân tích thành phần chính (PCA)
C. Kiểm định t
D. Phân tích phương sai
20. Trong phân tích độ tin cậy (reliability analysis), hệ số Cronbach′s alpha được sử dụng để đo lường điều gì?
A. Độ giá trị (validity) của thang đo
B. Độ tin cậy nội tại (internal consistency) của thang đo
C. Độ ổn định theo thời gian (test-retest reliability)
D. Độ tin cậy giữa các người đánh giá (inter-rater reliability)
21. Ứng dụng nào sau đây thể hiện rõ nhất vai trò của thống kê trong lĩnh vực y tế?
A. Dự báo thời tiết hàng ngày
B. Phân tích hiệu quả của thuốc mới thông qua thử nghiệm lâm sàng
C. Quản lý chuỗi cung ứng sản xuất
D. Nghiên cứu thị trường chứng khoán
22. Ứng dụng của thống kê trong lĩnh vực marketing là gì?
A. Dự báo động đất
B. Phân tích hành vi khách hàng và hiệu quả chiến dịch quảng cáo
C. Nghiên cứu về vật liệu mới
D. Kiểm soát chất lượng sản phẩm công nghiệp
23. Trong thống kê ứng dụng, thuật ngữ 'dữ liệu bảng′ (panel data) đề cập đến loại dữ liệu nào?
A. Dữ liệu được thu thập từ nhiều nguồn khác nhau
B. Dữ liệu được sắp xếp theo bảng
C. Dữ liệu quan sát nhiều đối tượng theo thời gian
D. Dữ liệu chỉ chứa biến định tính
24. Trong phân tích sống còn (survival analysis), hàm sống còn (survival function) S(t) biểu thị điều gì?
A. Thời gian sống trung bình
B. Xác suất một cá thể sống sót ít nhất đến thời điểm t
C. Tỷ lệ tử vong tại thời điểm t
D. Thời gian sống dài nhất quan sát được
25. Trong kiểm định giả thuyết, mức ý nghĩa (alpha, α) thường được chọn là 0.05. Điều này có nghĩa là gì?
A. Xác suất mắc lỗi loại II là 5%
B. Xác suất bác bỏ giả thuyết null khi nó đúng (lỗi loại I) là 5%
C. Độ tin cậy của kiểm định là 95%
D. Xác suất chấp nhận giả thuyết null khi nó đúng là 95%
26. Phương pháp thống kê nào thường được sử dụng để so sánh trung bình của ba nhóm độc lập trở lên?
A. Kiểm định t độc lập
B. Phân tích phương sai (ANOVA)
C. Hồi quy đa biến
D. Kiểm định Chi-bình phương
27. Phương pháp nào sau đây được sử dụng để trực quan hóa phân phối tần số của một biến định lượng?
A. Biểu đồ tròn
B. Biểu đồ cột
C. Biểu đồ hộp
D. Biểu đồ tần suất (histogram)
28. Trong thống kê Bayesian, khái niệm 'prior′ (tiền nghiệm) đề cập đến điều gì?
A. Dữ liệu quan sát được từ mẫu
B. Xác suất của dữ liệu
C. Niềm tin ban đầu về tham số quần thể trước khi có dữ liệu
D. Phân phối của sai số
29. Khi nào thì việc sử dụng trung vị (median) thích hợp hơn so với trung bình (mean) để đo lường xu hướng trung tâm của dữ liệu?
A. Khi dữ liệu phân phối chuẩn
B. Khi dữ liệu có giá trị ngoại lệ (outliers)
C. Khi dữ liệu có tính đối xứng
D. Khi kích thước mẫu lớn
30. Trong kiểm định giả thuyết thống kê, lỗi loại I (Type I error) xảy ra khi nào?
A. Chấp nhận giả thuyết null khi nó sai
B. Bác bỏ giả thuyết null khi nó đúng
C. Không bác bỏ giả thuyết null khi nó sai
D. Chấp nhận giả thuyết đối khi nó sai