1. Chọn câu phát biểu đúng về mối quan hệ giữa cỡ mẫu và sai số chuẩn của trung bình mẫu.
A. Cỡ mẫu càng lớn, sai số chuẩn càng lớn.
B. Cỡ mẫu càng lớn, sai số chuẩn càng nhỏ.
C. Cỡ mẫu không ảnh hưởng đến sai số chuẩn.
D. Sai số chuẩn chỉ phụ thuộc vào độ lệch chuẩn của tổng thể.
2. Khi nào thì nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test) để so sánh trung bình mẫu với trung bình tổng thể?
A. Khi cỡ mẫu lớn (n > 30).
B. Khi biết độ lệch chuẩn của tổng thể.
C. Khi cỡ mẫu nhỏ (n < 30) và độ lệch chuẩn tổng thể chưa biết.
D. Khi dữ liệu tuân theo phân phối chuẩn.
3. Kỹ thuật 'bootstrap' trong thống kê được sử dụng để làm gì?
A. Tăng cỡ mẫu ban đầu.
B. Ước tính phân phối lấy mẫu của một thống kê bằng cách lấy mẫu lại có hoàn lại từ mẫu gốc.
C. Kiểm tra tính phân phối chuẩn của dữ liệu.
D. Loại bỏ giá trị ngoại lai khỏi dữ liệu.
4. Giá trị p (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết null là đúng.
B. Xác suất giả thuyết đối là đúng.
C. Xác suất quan sát được kết quả (hoặc kết quả cực đoan hơn) nếu giả thuyết null là đúng.
D. Xác suất bác bỏ giả thuyết null.
5. Trong phân tích hồi quy tuyến tính, R bình phương (R²) thể hiện điều gì?
A. Độ dốc của đường hồi quy.
B. Sai số chuẩn của ước lượng.
C. Tỷ lệ phương sai của biến phụ thuộc được giải thích bởi mô hình.
D. Giá trị p của các hệ số hồi quy.
6. Phương pháp nào sau đây thường được sử dụng để kiểm tra tính độc lập giữa hai biến định tính?
A. Hệ số tương quan Pearson.
B. Phân tích hồi quy tuyến tính.
C. Kiểm định Chi-bình phương.
D. Phân tích phương sai (ANOVA).
7. Phân phối chuẩn (Gaussian) có đặc điểm nào sau đây?
A. Lệch phải.
B. Lệch trái.
C. Đối xứng và có hình chuông.
D. Đa đỉnh.
8. Hạn chế chính của việc sử dụng mốt (mode) làm thước đo trung tâm là gì?
A. Mốt không thể được sử dụng cho dữ liệu định tính.
B. Mốt luôn bị ảnh hưởng bởi giá trị ngoại lai.
C. Một tập dữ liệu có thể có nhiều hơn một mốt hoặc không có mốt nào.
D. Mốt chỉ phù hợp với dữ liệu có phân phối chuẩn.
9. Phương pháp nào sau đây KHÔNG phải là một kỹ thuật lấy mẫu ngẫu nhiên?
A. Lấy mẫu ngẫu nhiên đơn giản.
B. Lấy mẫu phân tầng.
C. Lấy mẫu cụm.
D. Lấy mẫu thuận tiện.
10. Chọn phát biểu đúng về mối quan hệ giữa độ tin cậy (confidence level) và khoảng tin cậy (confidence interval).
A. Độ tin cậy càng cao, khoảng tin cậy càng hẹp.
B. Độ tin cậy càng cao, khoảng tin cậy càng rộng.
C. Độ tin cậy không ảnh hưởng đến khoảng tin cậy.
D. Khoảng tin cậy chỉ phụ thuộc vào cỡ mẫu, không phụ thuộc độ tin cậy.
11. Trong phân tích hồi quy, 'đa cộng tuyến' (multicollinearity) đề cập đến vấn đề gì?
A. Mối quan hệ phi tuyến tính giữa biến độc lập và biến phụ thuộc.
B. Mối quan hệ tuyến tính mạnh mẽ giữa các biến độc lập với nhau.
C. Sai số của mô hình hồi quy không có phân phối chuẩn.
D. Mô hình hồi quy không phù hợp với dữ liệu.
12. Sai số lấy mẫu (sampling error) phát sinh do đâu?
A. Do tính toán sai sót trong quá trình phân tích dữ liệu.
B. Do mẫu không đại diện hoàn toàn cho tổng thể.
C. Do thiết kế nghiên cứu có lỗi hệ thống.
D. Do thu thập dữ liệu không chính xác.
13. Trong kiểm định giả thuyết, mức ý nghĩa (alpha - α) thường được chọn là 0.05. Điều này có nghĩa là gì?
A. Xác suất mắc sai số loại II là 5%.
B. Xác suất chấp nhận giả thuyết null là 5%.
C. Ngưỡng để bác bỏ giả thuyết null khi giá trị p nhỏ hơn 0.05.
D. Xác suất giả thuyết đối là đúng là 5%.
14. Trong phân tích dữ liệu định tính, 'mã hóa' (coding) là quá trình gì?
A. Chuyển đổi dữ liệu định tính thành dữ liệu định lượng.
B. Sắp xếp dữ liệu theo thứ tự bảng chữ cái.
C. Gán nhãn hoặc tên cho các đoạn văn bản hoặc hình ảnh để xác định chủ đề và mẫu.
D. Tính toán tần suất xuất hiện của các từ khóa.
15. Phương pháp nào sau đây giúp giảm thiểu ảnh hưởng của giá trị ngoại lai trong phân tích thống kê?
A. Tính trung bình (mean).
B. Tính tổng (sum).
C. Sử dụng trung vị (median).
D. Sử dụng độ lệch chuẩn (standard deviation).
16. Sai số loại I trong kiểm định giả thuyết xảy ra khi nào?
A. Chấp nhận giả thuyết null khi nó thực sự đúng.
B. Bác bỏ giả thuyết null khi nó thực sự đúng.
C. Chấp nhận giả thuyết null khi nó thực sự sai.
D. Bác bỏ giả thuyết null khi nó thực sự sai.
17. Trong thống kê, 'phân phối lấy mẫu' (sampling distribution) là gì?
A. Phân phối của dữ liệu mẫu thu thập được.
B. Phân phối xác suất của một thống kê mẫu (ví dụ: trung bình mẫu) khi lấy mẫu lặp đi lặp lại từ tổng thể.
C. Phân phối của tổng thể.
D. Phân phối của sai số lấy mẫu.
18. Khái niệm 'ngoại suy' (extrapolation) trong thống kê thường liên quan đến điều gì?
A. Ước tính giá trị trong phạm vi dữ liệu đã quan sát.
B. Ước tính giá trị bên ngoài phạm vi dữ liệu đã quan sát.
C. Loại bỏ các giá trị ngoại lai khỏi dữ liệu.
D. Chuyển đổi dữ liệu về phân phối chuẩn.
19. Phương sai (variance) đo lường điều gì?
A. Giá trị trung tâm của dữ liệu.
B. Mức độ phân tán trung bình của dữ liệu xung quanh trung bình.
C. Hướng của mối quan hệ giữa hai biến.
D. Giá trị lớn nhất trong tập dữ liệu.
20. Trong thống kê Bayes, 'ước lượng Bayes' khác với 'ước lượng tần suất' (frequentist) chủ yếu ở điểm nào?
A. Ước lượng Bayes không sử dụng dữ liệu mẫu.
B. Ước lượng Bayes kết hợp thông tin tiên nghiệm (prior) cùng với dữ liệu mẫu.
C. Ước lượng Bayes chỉ sử dụng giá trị p.
D. Ước lượng Bayes luôn cho kết quả chính xác hơn ước lượng tần suất.
21. Trong thống kê, 'biến nhiễu' (confounding variable) là gì?
A. Biến không có mối quan hệ với biến phụ thuộc.
B. Biến chỉ ảnh hưởng đến biến độc lập.
C. Biến ảnh hưởng đến cả biến độc lập và biến phụ thuộc, gây nhầm lẫn về mối quan hệ giữa chúng.
D. Biến được kiểm soát trong thiết kế nghiên cứu.
22. Ưu điểm chính của việc sử dụng lấy mẫu phân tầng (stratified sampling) so với lấy mẫu ngẫu nhiên đơn giản là gì?
A. Dễ thực hiện hơn.
B. Giảm sai số lấy mẫu và tăng tính đại diện của mẫu cho tổng thể.
C. Không yêu cầu danh sách tổng thể.
D. Tiết kiệm chi phí hơn.
23. Độ lệch chuẩn đo lường điều gì?
A. Giá trị trung bình của tập dữ liệu.
B. Mức độ tập trung của dữ liệu xung quanh trung vị.
C. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình.
D. Giá trị lớn nhất trừ giá trị nhỏ nhất trong tập dữ liệu.
24. Trong các thang đo sau, thang đo nào mang đầy đủ thông tin nhất?
A. Thang đo danh nghĩa.
B. Thang đo thứ bậc.
C. Thang đo khoảng.
D. Thang đo tỷ lệ.
25. Phân tích phương sai (ANOVA) được sử dụng để làm gì?
A. Đo lường mối quan hệ tuyến tính giữa hai biến.
B. So sánh trung bình của hai nhóm.
C. So sánh trung bình của ba nhóm trở lên.
D. Dự đoán giá trị của một biến dựa trên biến khác.
26. Giá trị trung vị (median) là gì?
A. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.
B. Giá trị trung bình cộng của tập dữ liệu.
C. Giá trị ở giữa tập dữ liệu khi đã sắp xếp theo thứ tự.
D. Giá trị trung bình của hai giá trị lớn nhất và nhỏ nhất.
27. Mục tiêu chính của thống kê mô tả là gì?
A. Đưa ra dự đoán về tương lai dựa trên dữ liệu.
B. Khám phá mối quan hệ nhân quả giữa các biến.
C. Tóm tắt và trình bày dữ liệu một cách có ý nghĩa.
D. Kiểm định giả thuyết về tổng thể dựa trên mẫu.
28. Khi nào thì trung bình (mean) không phải là thước đo trung tâm phù hợp?
A. Khi dữ liệu có phân phối chuẩn.
B. Khi dữ liệu có giá trị ngoại lai.
C. Khi dữ liệu là định lượng.
D. Khi cỡ mẫu lớn.
29. Khi nào thì nên sử dụng kiểm định phi tham số thay vì kiểm định tham số?
A. Khi cỡ mẫu lớn.
B. Khi dữ liệu tuân theo phân phối chuẩn.
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc thang đo thứ bậc/danh nghĩa.
D. Khi muốn ước lượng tham số tổng thể.
30. Hệ số tương quan Pearson đo lường điều gì?
A. Mức độ biến thiên của một biến.
B. Mức độ phụ thuộc phi tuyến tính giữa hai biến.
C. Mức độ quan hệ tuyến tính giữa hai biến định lượng.
D. Sự khác biệt giữa trung bình mẫu và trung bình tổng thể.