1. Trong thống kê Bayesian, 'prior probability' (xác suất tiên nghiệm) là gì?
A. Xác suất quan sát dữ liệu.
B. Xác suất của giả thuyết sau khi quan sát dữ liệu.
C. Xác suất ban đầu của giả thuyết trước khi quan sát dữ liệu.
D. Xác suất dữ liệu phù hợp với giả thuyết null.
2. Loại biểu đồ nào phù hợp nhất để so sánh tần suất xuất hiện của các danh mục khác nhau?
A. Biểu đồ phân tán
B. Biểu đồ đường
C. Biểu đồ cột
D. Biểu đồ hộp
3. Trong phân tích phương sai (ANOVA), giả thuyết null thường là gì?
A. Có sự khác biệt đáng kể giữa trung bình của các nhóm.
B. Không có sự khác biệt đáng kể giữa trung bình của các nhóm.
C. Phương sai giữa các nhóm bằng 0.
D. Phương sai trong các nhóm bằng nhau.
4. Hệ số tương quan Pearson đo lường điều gì?
A. Mối quan hệ nhân quả giữa hai biến.
B. Độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến định lượng.
C. Mối quan hệ phi tuyến tính giữa hai biến.
D. Sự khác biệt giữa trung bình của hai biến.
5. Đơn vị quan sát (observational unit) trong thống kê là gì?
A. Biến số được đo lường.
B. Tập hợp tất cả các đối tượng nghiên cứu.
C. Đối tượng hoặc cá nhân mà dữ liệu được thu thập.
D. Phương pháp thu thập dữ liệu.
6. Trong phân tích sống còn (survival analysis), hàm Kaplan-Meier dùng để ước tính điều gì?
A. Tỷ lệ rủi ro (hazard ratio).
B. Thời gian sống trung bình.
C. Hàm sống còn (survival function).
D. Mật độ rủi ro (hazard function).
7. Phân loại dữ liệu nào phù hợp nhất để mô tả màu sắc của ô tô?
A. Định lượng liên tục
B. Định lượng rời rạc
C. Định tính danh nghĩa
D. Định tính thứ bậc
8. Ý nghĩa của việc 'chuẩn hóa dữ liệu' trong thống kê là gì?
A. Loại bỏ giá trị ngoại lai khỏi dữ liệu.
B. Chuyển đổi dữ liệu về phân phối chuẩn với trung bình 0 và độ lệch chuẩn 1.
C. Sắp xếp dữ liệu theo thứ tự tăng dần.
D. Chia dữ liệu thành các khoảng bằng nhau.
9. Trong phân tích chuỗi thời gian, thành phần 'xu hướng' (trend) mô tả điều gì?
A. Biến động ngắn hạn và ngẫu nhiên.
B. Sự biến đổi theo mùa.
C. Sự biến đổi dài hạn và có hệ thống.
D. Sự biến đổi theo chu kỳ kinh tế.
10. Khoảng tin cậy 95% có nghĩa là gì?
A. Có 95% khả năng tham số tổng thể nằm trong khoảng tin cậy tính được.
B. Có 95% dữ liệu mẫu nằm trong khoảng tin cậy.
C. Nếu lặp lại quá trình lấy mẫu 100 lần, khoảng 95 lần khoảng tin cậy sẽ chứa tham số tổng thể.
D. Sai số ước lượng tối đa là 5%.
11. Trong kiểm định giả thuyết một đuôi (one-tailed test), vùng bác bỏ nằm ở đâu?
A. Cả hai đuôi của phân phối.
B. Một đuôi của phân phối.
C. Chính giữa phân phối.
D. Tùy thuộc vào kích thước mẫu.
12. Phương pháp thống kê nào được sử dụng để kiểm tra sự khác biệt giữa trung bình của hai nhóm độc lập?
A. Phân tích phương sai (ANOVA)
B. Kiểm định t độc lập
C. Hồi quy tuyến tính
D. Kiểm định Chi-bình phương
13. Khi nào thì trung vị thích hợp hơn trung bình cộng để đo xu hướng trung tâm?
A. Khi dữ liệu phân phối chuẩn.
B. Khi có giá trị ngoại lai trong dữ liệu.
C. Khi kích thước mẫu lớn.
D. Khi dữ liệu là định lượng liên tục.
14. Lỗi hệ thống (systematic error) khác với lỗi ngẫu nhiên (random error) như thế nào?
A. Lỗi hệ thống giảm khi kích thước mẫu tăng, lỗi ngẫu nhiên thì không.
B. Lỗi hệ thống ảnh hưởng đến độ chính xác, lỗi ngẫu nhiên ảnh hưởng đến độ tin cậy.
C. Lỗi hệ thống có hướng và nhất quán, lỗi ngẫu nhiên không có hướng và biến đổi.
D. Lỗi hệ thống chỉ xảy ra trong dữ liệu định lượng, lỗi ngẫu nhiên chỉ xảy ra trong dữ liệu định tính.
15. Khi nào thì nên sử dụng kiểm định phi tham số thay vì kiểm định tham số?
A. Khi dữ liệu có phân phối chuẩn.
B. Khi kích thước mẫu lớn.
C. Khi giả định về phân phối của dữ liệu không được đáp ứng.
D. Khi muốn tăng độ mạnh của kiểm định.
16. Nguyên tắc nào sau đây đảm bảo rằng một mẫu ngẫu nhiên đơn giản thực sự đại diện cho tổng thể mà nó được rút ra?
A. Tính ngẫu nhiên
B. Kích thước mẫu đủ lớn
C. Sự đồng nhất của tổng thể
D. Phương pháp chọn mẫu phân tầng
17. Nguyên tắc 'Occam's Razor' trong thống kê thường được áp dụng như thế nào?
A. Chọn mô hình phức tạp nhất để giải thích dữ liệu.
B. Chọn mô hình đơn giản nhất giải thích dữ liệu tốt như các mô hình phức tạp hơn.
C. Luôn ưu tiên sử dụng kiểm định tham số.
D. Bác bỏ mọi giả thuyết null phức tạp.
18. Phương pháp nào sau đây giúp giảm thiểu ảnh hưởng của nhiễu (noise) trong dữ liệu?
A. Tăng kích thước mẫu.
B. Giảm kích thước mẫu.
C. Sử dụng phương pháp lấy mẫu cụm.
D. Sử dụng phương pháp lấy mẫu thuận tiện.
19. Trong phân tích hồi quy tuyến tính, hệ số hồi quy cho biết điều gì?
A. Mức độ phù hợp của mô hình với dữ liệu.
B. Sự thay đổi trung bình của biến phụ thuộc khi biến độc lập tăng lên một đơn vị.
C. Mối quan hệ phi tuyến tính giữa các biến.
D. Giá trị dự đoán của biến phụ thuộc.
20. Định lý giới hạn trung tâm (Central Limit Theorem) phát biểu rằng phân phối của trung bình mẫu sẽ tiến gần đến phân phối nào khi kích thước mẫu tăng lên?
A. Phân phối Poisson
B. Phân phối nhị thức
C. Phân phối chuẩn
D. Phân phối đều
21. Sai số loại II trong kiểm định giả thuyết xảy ra khi nào?
A. Bác bỏ giả thuyết null khi nó đúng.
B. Không bác bỏ giả thuyết null khi nó sai.
C. Chấp nhận giả thuyết null khi nó đúng.
D. Bác bỏ giả thuyết đối thuyết khi nó đúng.
22. Phương pháp lấy mẫu nào sau đây có thể dẫn đến mẫu không đại diện cho tổng thể nếu có các nhóm nhỏ quan trọng trong tổng thể?
A. Lấy mẫu ngẫu nhiên đơn giản
B. Lấy mẫu phân tầng
C. Lấy mẫu cụm
D. Lấy mẫu thuận tiện
23. Ma trận hiệp phương sai (Covariance Matrix) mô tả điều gì?
A. Tương quan giữa các biến.
B. Phương sai của từng biến và hiệp phương sai giữa các cặp biến.
C. Độ lệch chuẩn của từng biến.
D. Trung bình của từng biến.
24. Khi nào thì độ lệch chuẩn bằng không?
A. Khi trung bình cộng bằng không.
B. Khi tất cả các giá trị dữ liệu giống nhau.
C. Khi dữ liệu có phân phối chuẩn.
D. Khi kích thước mẫu rất lớn.
25. Khi nào thì phương sai mẫu (sample variance) là một ước lượng chệch (biased estimator) của phương sai tổng thể?
A. Phương sai mẫu luôn là ước lượng chệch.
B. Phương sai mẫu luôn là ước lượng không chệch.
C. Công thức phương sai mẫu thường dùng (chia cho n-1) thực ra là ước lượng không chệch của phương sai tổng thể.
D. Công thức phương sai mẫu chia cho n (không phải n-1) là ước lượng không chệch.
26. Phương pháp nào sau đây được sử dụng để giảm chiều dữ liệu (dimensionality reduction)?
A. Hồi quy tuyến tính
B. Phân tích phương sai (ANOVA)
C. Phân tích thành phần chính (PCA)
D. Kiểm định t độc lập
27. Trong thống kê suy luận, mục tiêu chính là gì?
A. Mô tả dữ liệu mẫu một cách chi tiết.
B. Thu thập dữ liệu từ toàn bộ tổng thể.
C. Đưa ra kết luận về tổng thể dựa trên dữ liệu mẫu.
D. Tính toán các thống kê mô tả như trung bình và độ lệch chuẩn.
28. Trong thống kê mô tả, đại lượng nào đo lường mức độ phân tán của dữ liệu xung quanh giá trị trung bình?
A. Trung vị
B. Độ lệch chuẩn
C. Tần số
D. Phần tư vị
29. Giá trị p (p-value) trong kiểm định giả thuyết biểu thị điều gì?
A. Xác suất giả thuyết null là đúng.
B. Mức ý nghĩa thống kê của kiểm định.
C. Xác suất quan sát được kết quả cực đoan như đã thấy (hoặc hơn) nếu giả thuyết null là đúng.
D. Sai số loại I cho phép trong kiểm định.
30. Độ mạnh của kiểm định thống kê (statistical power) là gì?
A. Xác suất mắc sai số loại I.
B. Xác suất mắc sai số loại II.
C. Xác suất bác bỏ đúng giả thuyết null khi nó sai.
D. Xác suất không bác bỏ giả thuyết null khi nó đúng.