1. Phương pháp lấy mẫu phân tầng (stratified sampling) nhằm mục đích gì?
A. Giảm chi phí thu thập dữ liệu
B. Đảm bảo tính đại diện của mẫu cho các nhóm khác nhau trong quần thể
C. Tăng kích thước mẫu
D. Đơn giản hóa quá trình lấy mẫu
2. Hiện tượng đa cộng tuyến (multicollinearity) trong hồi quy đa biến xảy ra khi nào?
A. Khi biến phụ thuộc không tuân theo phân phối chuẩn
B. Khi các biến độc lập có mối tương quan cao với nhau
C. Khi kích thước mẫu quá nhỏ
D. Khi mô hình hồi quy không tuyến tính
3. Trong thống kê suy diễn (inferential statistics), chúng ta làm gì?
A. Mô tả dữ liệu mẫu
B. Thu thập dữ liệu
C. Rút ra kết luận về quần thể dựa trên dữ liệu mẫu
D. Tính toán các số liệu thống kê mô tả
4. Khi nào thì nên sử dụng kiểm định t (t-test) thay vì kiểm định z (z-test) để so sánh trung bình?
A. Khi kích thước mẫu lớn (n > 30)
B. Khi độ lệch chuẩn quần thể đã biết
C. Khi kích thước mẫu nhỏ (n < 30) và độ lệch chuẩn quần thể chưa biết
D. Khi so sánh phương sai thay vì trung bình
5. Sai số chuẩn (standard error) của trung bình mẫu đo lường điều gì?
A. Độ lệch chuẩn của quần thể
B. Độ lệch chuẩn của mẫu
C. Độ lệch chuẩn của phân phối lấy mẫu của trung bình mẫu
D. Sai số ngẫu nhiên trong dữ liệu
6. Trong thống kê Bayes, định lý Bayes được sử dụng để làm gì?
A. Tính xác suất biên
B. Tính xác suất có điều kiện
C. Cập nhật niềm tin (prior belief) dựa trên dữ liệu quan sát được
D. Ước lượng likelihood
7. Mục đích chính của việc chuẩn hóa dữ liệu (data normalization) là gì?
A. Tăng độ lệch chuẩn của dữ liệu
B. Giảm giá trị trung bình của dữ liệu
C. Đưa dữ liệu về cùng một thang đo để so sánh
D. Loại bỏ giá trị ngoại lệ
8. Hồi quy đa biến (multiple regression) khác hồi quy đơn biến (simple regression) ở điểm nào?
A. Hồi quy đa biến chỉ sử dụng biến định tính
B. Hồi quy đa biến có nhiều hơn một biến độc lập
C. Hồi quy đa biến sử dụng phân phối t thay vì phân phối chuẩn
D. Hồi quy đa biến không có hệ số chặn (intercept)
9. Thống kê mô tả (descriptive statistics) chủ yếu tập trung vào điều gì?
A. Dự đoán giá trị tương lai
B. Khái quát hóa kết quả mẫu lên quần thể
C. Tóm tắt và mô tả các đặc điểm chính của dữ liệu
D. Kiểm định giả thuyết về quần thể
10. Phương pháp nào sau đây KHÔNG phải là kỹ thuật giảm chiều dữ liệu (dimensionality reduction)?
A. Phân tích thành phần chính (PCA)
B. Phân tích nhân tố (Factor Analysis)
C. Hồi quy tuyến tính (Linear Regression)
D. Lựa chọn đặc trưng (Feature Selection)
11. Trong phân tích hồi quy tuyến tính, hệ số góc (slope) biểu thị điều gì?
A. Giá trị dự đoán của biến phụ thuộc khi biến độc lập bằng 0
B. Mức độ thay đổi của biến phụ thuộc khi biến độc lập tăng lên 1 đơn vị
C. Mức độ phù hợp của mô hình hồi quy
D. Sai số chuẩn của các hệ số hồi quy
12. Khoảng tin cậy 95% cho trung bình quần thể có nghĩa là gì?
A. 95% dữ liệu mẫu nằm trong khoảng này
B. Có 95% khả năng trung bình mẫu nằm trong khoảng này
C. Có 95% khả năng trung bình quần thể nằm trong khoảng này
D. Khoảng này chứa 95% các giá trị có thể của trung bình mẫu
13. Kiểm định Chi-bình phương thường được sử dụng để làm gì?
A. So sánh trung bình của hai quần thể
B. Kiểm tra sự độc lập giữa hai biến định tính
C. Đo lường mối quan hệ tuyến tính giữa hai biến định lượng
D. Ước lượng trung bình quần thể
14. Phương sai (variance) là gì?
A. Căn bậc hai của độ lệch chuẩn
B. Đo lường độ lệch tuyệt đối trung bình
C. Trung bình của bình phương độ lệch so với giá trị trung bình
D. Giá trị lớn nhất trừ giá trị nhỏ nhất của dữ liệu
15. Phân phối chuẩn (phân phối Gauss) có đặc điểm nào sau đây?
A. Lệch phải
B. Lệch trái
C. Đối xứng
D. Đa đỉnh
16. Khi nào thì nên sử dụng thống kê phi tham số (non-parametric statistics)?
A. Khi dữ liệu tuân theo phân phối chuẩn
B. Khi kích thước mẫu lớn
C. Khi dữ liệu không tuân theo phân phối chuẩn hoặc có thang đo thứ bậc
D. Khi muốn ước lượng trung bình quần thể
17. Loại biểu đồ nào thích hợp nhất để thể hiện mối quan hệ giữa hai biến định lượng?
A. Biểu đồ cột
B. Biểu đồ tròn
C. Biểu đồ tán xạ
D. Biểu đồ hộp
18. Trong phân tích ANOVA, F-statistic được sử dụng để làm gì?
A. So sánh trung bình của hai nhóm
B. Kiểm tra sự độc lập giữa hai biến định tính
C. So sánh phương sai giữa các nhóm
D. So sánh trung bình của ba nhóm trở lên
19. Đại lượng nào sau đây đo lường mức độ phân tán của dữ liệu xung quanh giá trị trung bình?
A. Trung vị
B. Giá trị lớn nhất
C. Độ lệch chuẩn
D. Tần số
20. Giá trị trung bình (mean) của một mẫu được tính như thế nào?
A. Giá trị xuất hiện nhiều nhất trong mẫu
B. Giá trị ở giữa khi mẫu được sắp xếp
C. Tổng các giá trị trong mẫu chia cho số lượng giá trị
D. Giá trị lớn nhất trừ giá trị nhỏ nhất trong mẫu
21. Phương pháp nào sau đây KHÔNG phải là phương pháp lấy mẫu ngẫu nhiên?
A. Lấy mẫu ngẫu nhiên đơn giản
B. Lấy mẫu phân tầng
C. Lấy mẫu cụm
D. Lấy mẫu thuận tiện
22. Mức ý nghĩa (alpha, α) trong kiểm định giả thuyết thường được đặt ở mức nào?
A. 0.1
B. 0.05
C. 0.2
D. 0.5
23. Trong kiểm định giả thuyết thống kê, lỗi loại I xảy ra khi nào?
A. Chấp nhận giả thuyết H0 khi H0 đúng
B. Bác bỏ giả thuyết H0 khi H0 sai
C. Chấp nhận giả thuyết H0 khi H0 sai
D. Bác bỏ giả thuyết H0 khi H0 đúng
24. Hệ số tương quan Pearson đo lường điều gì?
A. Mức độ biến thiên của một biến số
B. Mức độ phụ thuộc tuyến tính giữa hai biến số định lượng
C. Sự khác biệt giữa giá trị trung bình của hai nhóm
D. Tỷ lệ phần trăm của một thuộc tính trong mẫu
25. Trong phân tích chuỗi thời gian (time series analysis), thành phần xu hướng (trend) biểu thị điều gì?
A. Biến động ngắn hạn
B. Biến động theo mùa
C. Hướng thay đổi dài hạn của chuỗi
D. Biến động ngẫu nhiên
26. Giá trị P (p-value) trong kiểm định giả thuyết biểu thị điều gì?
A. Xác suất giả thuyết null là đúng
B. Xác suất quan sát được kết quả hoặc kết quả cực đoan hơn nếu giả thuyết null là đúng
C. Mức ý nghĩa thống kê của kiểm định
D. Sai số chuẩn của ước lượng
27. Hệ số xác định (R-squared) trong hồi quy tuyến tính đo lường điều gì?
A. Độ mạnh của mối quan hệ tuyến tính
B. Phần trăm biến thiên của biến phụ thuộc được giải thích bởi mô hình
C. Độ dốc của đường hồi quy
D. Sai số chuẩn của mô hình
28. Biến định tính (categorical variable) được chia thành mấy loại chính?
A. Một loại
B. Hai loại
C. Ba loại
D. Bốn loại
29. Độ mạnh kiểm định (power of a test) là gì?
A. Xác suất mắc lỗi loại I
B. Xác suất mắc lỗi loại II
C. Xác suất bác bỏ đúng giả thuyết null khi nó sai
D. Xác suất chấp nhận đúng giả thuyết null khi nó đúng
30. Đại lượng nào sau đây KHÔNG bị ảnh hưởng bởi giá trị ngoại lệ (outlier) trong dữ liệu?
A. Giá trị trung bình
B. Độ lệch chuẩn
C. Trung vị
D. Khoảng biến thiên