1. Trong phân tích hồi quy (regression analysis), giá trị R-squared thể hiện điều gì?
A. Hệ số tương quan giữa các biến độc lập.
B. Mức độ phù hợp của mô hình hồi quy với dữ liệu.
C. Độ dốc của đường hồi quy.
D. Sai số chuẩn của ước lượng hệ số hồi quy.
2. Sự khác biệt chính giữa thống kê mô tả và thống kê suy luận là gì?
A. Thống kê mô tả sử dụng dữ liệu mẫu, thống kê suy luận sử dụng dữ liệu quần thể.
B. Thống kê mô tả tóm tắt dữ liệu, thống kê suy luận đưa ra kết luận về quần thể dựa trên mẫu.
C. Thống kê mô tả sử dụng đồ thị, thống kê suy luận sử dụng công thức toán học.
D. Thống kê mô tả chỉ dành cho dữ liệu định tính, thống kê suy luận cho dữ liệu định lượng.
3. Một nghiên cứu tuyên bố rằng một loại thuốc mới có hiệu quả vì p < 0.05. Điều này thực sự có nghĩa là gì?
A. Thuốc chắc chắn có hiệu quả 95% trong quần thể.
B. Có 5% khả năng kết quả quan sát được là do ngẫu nhiên nếu thuốc không có hiệu quả.
C. Thuốc có hiệu quả với 95% số người tham gia nghiên cứu.
D. Có 95% khả năng thuốc không có hiệu quả.
4. Khoảng tin cậy (confidence interval) cung cấp thông tin gì?
A. Giá trị chính xác của tham số quần thể.
B. Ước tính khoảng giá trị mà tham số quần thể có khả năng nằm trong.
C. Độ lệch chuẩn của mẫu.
D. Kích thước mẫu cần thiết cho nghiên cứu.
5. Khi phân tích dữ liệu lệch (skewed data), thước đo nào là phù hợp nhất để mô tả độ tập trung?
A. Trung bình (Mean) và độ lệch chuẩn (standard deviation).
B. Trung vị (Median) và khoảng tứ phân vị (interquartile range).
C. Mốt (Mode) và phạm vi (range).
D. Trung bình nhân (geometric mean) và hệ số biến thiên (coefficient of variation).
6. Mối tương quan (correlation) có thể bị hiểu sai thành quan hệ nhân quả (causation) như thế nào?
A. Mối tương quan chỉ ra sự vắng mặt của quan hệ nhân quả.
B. Mối tương quan mạnh mẽ luôn ngụ ý quan hệ nhân quả.
C. Mối tương quan cho thấy mối liên hệ giữa các biến, nhưng không chứng minh biến này gây ra biến kia.
D. Quan hệ nhân quả chỉ có thể được xác định thông qua phân tích hồi quy.
7. Trong tình huống nào thì nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test)?
A. Khi kích thước mẫu lớn (n > 30).
B. Khi biết độ lệch chuẩn của quần thể.
C. Khi kích thước mẫu nhỏ (n < 30) và độ lệch chuẩn quần thể chưa biết.
D. Khi muốn so sánh phương sai của hai quần thể.
8. Độ lệch chuẩn đo lường điều gì?
A. Giá trị trung bình của một tập dữ liệu.
B. Mức độ tập trung của dữ liệu xung quanh trung vị.
C. Mức độ phân tán hoặc biến động của dữ liệu xung quanh trung bình.
D. Vị trí trung tâm của một phân phối dữ liệu.
9. Hạn chế của việc chỉ sử dụng giá trị p (p-value) trong nghiên cứu khoa học là gì?
A. Giá trị p không cung cấp thông tin về kích thước hiệu ứng.
B. Giá trị p không thể hiện mức độ quan trọng thực tế của kết quả.
C. Giá trị p dễ bị hiểu sai và lạm dụng.
D. Tất cả các đáp án trên.
10. Giá trị p (p-value) trong kiểm định giả thuyết thống kê thể hiện điều gì?
A. Xác suất giả thuyết null (H0) là đúng.
B. Xác suất dữ liệu quan sát được xảy ra nếu giả thuyết null (H0) là đúng.
C. Xác suất giả thuyết thay thế (H1) là đúng.
D. Mức độ quan trọng thực tế của kết quả.
11. Mẫu thuận tiện (convenience sampling) có thể dẫn đến loại sai lệch nào?
A. Sai lệch chọn mẫu ngẫu nhiên.
B. Sai lệch do người trả lời tự lựa chọn.
C. Sai lệch chọn mẫu.
D. Sai lệch do không phản hồi.
12. Đa cộng tuyến (multicollinearity) ảnh hưởng đến kết quả hồi quy như thế nào?
A. Làm tăng độ chính xác của ước lượng hệ số hồi quy.
B. Không ảnh hưởng đến kết quả hồi quy.
C. Làm cho ước lượng hệ số hồi quy trở nên không ổn định và khó giải thích.
D. Chỉ ảnh hưởng đến giá trị R-squared, không ảnh hưởng đến hệ số hồi quy.
13. Khi nào thì trung vị (median) là thước đo độ tập trung tốt hơn so với trung bình (mean)?
A. Khi dữ liệu có phân phối đối xứng.
B. Khi muốn tính toán nhanh chóng và đơn giản.
C. Khi dữ liệu có giá trị ngoại lệ (outliers) hoặc phân phối lệch.
D. Khi dữ liệu là dữ liệu định tính.
14. Những cân nhắc về mặt đạo đức nào cần được quan tâm trong thu thập và phân tích dữ liệu thống kê?
A. Chỉ cần đảm bảo dữ liệu được thu thập nhanh chóng và hiệu quả.
B. Bảo vệ quyền riêng tư, bảo mật thông tin cá nhân và tránh gây hại cho đối tượng nghiên cứu.
C. Không cần quan tâm đến đạo đức nếu nghiên cứu mang lại lợi ích kinh tế.
D. Đạo đức chỉ quan trọng trong nghiên cứu y sinh học.
15. Tư duy thống kê (statistical thinking) có thể được áp dụng như thế nào trong việc ra quyết định hàng ngày?
A. Tư duy thống kê chỉ hữu ích trong nghiên cứu khoa học.
B. Tư duy thống kê giúp đưa ra quyết định dựa trên bằng chứng, đánh giá rủi ro, nhận diện xu hướng và hiểu được sự biến động, thay vì chỉ dựa vào cảm tính.
C. Ra quyết định hàng ngày nên dựa hoàn toàn vào kinh nghiệm cá nhân.
D. Tư duy thống kê làm chậm quá trình ra quyết định.
16. Trong kiểm định giả thuyết thống kê, giả thuyết null (H0) thường phát biểu điều gì?
A. Giả thuyết mà nhà nghiên cứu muốn chứng minh là đúng.
B. Giả thuyết về sự khác biệt đáng kể giữa các nhóm.
C. Giả thuyết mặc định hoặc không có hiệu ứng/khác biệt.
D. Giả thuyết được chấp nhận nếu p-value nhỏ hơn mức ý nghĩa alpha.
17. Sai số loại I (Type I error) xảy ra khi nào?
A. Bác bỏ giả thuyết null (H0) khi H0 thực sự sai.
B. Chấp nhận giả thuyết null (H0) khi H0 thực sự đúng.
C. Bác bỏ giả thuyết null (H0) khi H0 thực sự đúng.
D. Chấp nhận giả thuyết null (H0) khi H0 thực sự sai.
18. Trực quan hóa dữ liệu (data visualization) giúp ích như thế nào trong phân tích thống kê?
A. Thay thế hoàn toàn các phương pháp thống kê truyền thống.
B. Giúp phát hiện các mẫu, xu hướng và ngoại lệ trong dữ liệu một cách trực quan.
C. Chỉ hữu ích cho dữ liệu định tính.
D. Làm cho dữ liệu trở nên phức tạp và khó hiểu hơn.
19. Những thách thức nào phát sinh khi áp dụng phương pháp thống kê cho 'dữ liệu lớn' (big data)?
A. Dữ liệu lớn luôn sạch và dễ phân tích.
B. Các phương pháp thống kê truyền thống luôn hiệu quả với dữ liệu lớn.
C. Khối lượng dữ liệu lớn, tính đa dạng, tốc độ tạo dữ liệu và chất lượng dữ liệu không đồng đều tạo ra nhiều thách thức về tính toán, lưu trữ và phân tích.
D. Không có thách thức đặc biệt nào khi làm việc với dữ liệu lớn.
20. Phương pháp thống kê có thể được sử dụng để phát hiện gian lận hoặc các điểm bất thường (anomalies) như thế nào?
A. Thống kê không thể phát hiện gian lận.
B. Phân tích thống kê có thể xác định các mẫu dữ liệu bất thường, khác biệt đáng kể so với mong đợi, có thể là dấu hiệu của gian lận.
C. Chỉ có thể phát hiện gian lận bằng cách kiểm tra thủ công từng dữ liệu.
D. Thống kê chỉ có thể phát hiện lỗi, không phát hiện gian lận.
21. Thống kê Bayes (Bayesian statistics) khác biệt với thống kê tần suất (frequentist statistics) như thế nào?
A. Thống kê Bayes không sử dụng xác suất.
B. Thống kê Bayes cập nhật niềm tin dựa trên dữ liệu mới, thống kê tần suất dựa trên tần suất lặp lại trong dài hạn.
C. Thống kê Bayes chỉ sử dụng dữ liệu mẫu nhỏ.
D. Thống kê Bayes không thể sử dụng cho kiểm định giả thuyết.
22. Biến định tính (Qualitative variable) còn được gọi là biến gì?
A. Biến số (Numerical variable)
B. Biến liên tục (Continuous variable)
C. Biến phân loại (Categorical variable)
D. Biến thứ bậc (Ordinal variable)
23. Giải thích sự đánh đổi giữa độ chính xác (precision) và độ đúng (accuracy) trong ước lượng thống kê.
A. Độ chính xác và độ đúng là như nhau.
B. Độ chính xác cao luôn đi kèm với độ đúng cao.
C. Độ chính xác đề cập đến mức độ gần nhau của các ước tính lặp lại, độ đúng đề cập đến mức độ gần của ước tính so với giá trị thực tế của tham số.
D. Độ đúng chỉ quan trọng, độ chính xác không quan trọng.
24. Tại sao việc lấy mẫu ngẫu nhiên (random sampling) lại quan trọng để đảm bảo tính đại diện của mẫu?
A. Mẫu ngẫu nhiên luôn có kích thước lớn.
B. Mẫu ngẫu nhiên dễ thực hiện và tiết kiệm chi phí.
C. Mẫu ngẫu nhiên giảm thiểu sai lệch chọn mẫu, tăng khả năng mẫu đại diện cho quần thể.
D. Mẫu ngẫu nhiên đảm bảo tất cả các thành viên trong mẫu có đặc điểm giống nhau.
25. Điều gì xảy ra nếu vi phạm các giả định của một kiểm định thống kê (statistical test)?
A. Không ảnh hưởng đến kết quả kiểm định.
B. Kết quả kiểm định luôn chính xác hơn.
C. Kết quả kiểm định có thể không đáng tin cậy, dẫn đến kết luận sai lệch.
D. Chỉ cần tăng kích thước mẫu để khắc phục vi phạm giả định.
26. Mức ý nghĩa (alpha) trong kiểm định giả thuyết thống kê thể hiện điều gì?
A. Xác suất mắc lỗi Loại II (Type II error).
B. Xác suất bác bỏ giả thuyết null khi nó thực sự đúng (lỗi Loại I).
C. Xác suất chấp nhận giả thuyết null khi nó thực sự sai.
D. Mức độ tin cậy của kết quả kiểm định.
27. Điều gì xảy ra với biên độ sai số (margin of error) của khoảng tin cậy khi kích thước mẫu tăng lên?
A. Biên độ sai số tăng lên.
B. Biên độ sai số giảm xuống.
C. Biên độ sai số không đổi.
D. Không có mối quan hệ giữa kích thước mẫu và biên độ sai số.
28. Thước đo độ tập trung nào sau đây bị ảnh hưởng nhiều nhất bởi các giá trị ngoại lệ?
A. Trung vị (Median)
B. Trung bình (Mean)
C. Mốt (Mode)
D. Tứ phân vị (Quartile)
29. Làm thế nào để đánh giá tính hợp lệ (validity) của một nghiên cứu thống kê được báo cáo trên phương tiện truyền thông?
A. Chỉ cần tin vào tiêu đề hấp dẫn của bài báo.
B. Kiểm tra nguồn gốc nghiên cứu, phương pháp lấy mẫu, kích thước mẫu, giá trị p và xem xét liệu kết luận có hợp lý dựa trên dữ liệu hay không.
C. Nếu nghiên cứu được đăng trên báo chí uy tín thì chắc chắn hợp lệ.
D. Không cần kiểm tra, vì nghiên cứu trên truyền thông luôn đúng.
30. Phân phối chuẩn (normal distribution) có những đặc điểm chính nào?
A. Lệch trái, một đỉnh.
B. Đối xứng, đa đỉnh.
C. Đối xứng, một đỉnh, hình chuông.
D. Lệch phải, hình chữ nhật.