1. Trong thiết kế thử nghiệm, 'nguyên tắc ngẫu nhiên hóa′ (randomization) nhằm mục đích gì?
A. Tăng tính đại diện của mẫu.
B. Loại bỏ hoàn toàn sai số.
C. Giảm thiểu ảnh hưởng của các yếu tố gây nhiễu không kiểm soát được.
D. Đảm bảo tất cả các nhóm thử nghiệm có kích thước bằng nhau.
2. Trong bối cảnh phân tích dữ liệu lớn (Big Data), kỹ thuật thống kê nào đặc biệt quan trọng để xử lý dữ liệu phi cấu trúc?
A. Hồi quy tuyến tính đa biến
B. Khai thác văn bản (Text Mining) và phân tích ngôn ngữ tự nhiên (NLP)
C. Phân tích phương sai (ANOVA)
D. Thống kê mô tả cơ bản
3. Trong kiểm định giả thuyết thống kê, lỗi loại I xảy ra khi nào?
A. Chấp nhận giả thuyết null khi nó sai.
B. Bác bỏ giả thuyết null khi nó đúng.
C. Chấp nhận giả thuyết đối khi nó đúng.
D. Bác bỏ giả thuyết đối khi nó sai.
4. Điều gì xảy ra với khoảng tin cậy khi kích thước mẫu tăng lên (giữ nguyên độ tin cậy)?
A. Khoảng tin cậy trở nên rộng hơn.
B. Khoảng tin cậy trở nên hẹp hơn.
C. Khoảng tin cậy không thay đổi.
D. Khoảng tin cậy trở nên lệch về bên phải.
5. Trong lý thuyết xác suất, hai biến cố được gọi là độc lập khi nào?
A. Khi chúng không thể xảy ra cùng một lúc.
B. Khi sự xảy ra của biến cố này không ảnh hưởng đến xác suất xảy ra của biến cố kia.
C. Khi chúng có xác suất xảy ra bằng nhau.
D. Khi chúng phụ thuộc vào cùng một yếu tố.
6. Trong một phân phối chuẩn, khoảng bao nhiêu phần trăm dữ liệu nằm trong vòng 1 độ lệch chuẩn so với giá trị trung bình?
A. Khoảng 50%
B. Khoảng 68%
C. Khoảng 95%
D. Khoảng 99.7%
7. Độ lệch chuẩn của phân phối lấy mẫu của trung bình mẫu được gọi là gì?
A. Độ lệch chuẩn mẫu.
B. Phương sai mẫu.
C. Sai số chuẩn.
D. Khoảng biến thiên.
8. Phương pháp nào sau đây thường được sử dụng để giảm chiều dữ liệu (dimensionality reduction) trong học máy và thống kê?
A. Hồi quy logistic.
B. Phân tích thành phần chính (PCA).
C. Kiểm định Chi-bình phương.
D. Phân tích cụm (clustering).
9. Phương pháp nào sau đây là một kỹ thuật thống kê mô tả?
A. Phân tích hồi quy
B. Kiểm định t-Student
C. Tính trung bình và độ lệch chuẩn
D. Phân tích phương sai (ANOVA)
10. Đại lượng nào sau đây không bị ảnh hưởng bởi giá trị ngoại lai (outlier) trong một tập dữ liệu?
A. Giá trị trung bình
B. Độ lệch chuẩn
C. Trung vị
D. Khoảng biến thiên
11. Khi nào thì nên sử dụng kiểm định t-Student thay vì kiểm định z?
A. Khi kích thước mẫu lớn (n > 30).
B. Khi độ lệch chuẩn của tổng thể đã biết.
C. Khi kích thước mẫu nhỏ (n < 30) và độ lệch chuẩn của tổng thể chưa biết.
D. Khi dữ liệu tuân theo phân phối chuẩn.
12. Phân phối nào sau đây thường được sử dụng để mô hình hóa số lần xuất hiện của một sự kiện hiếm trong một khoảng thời gian hoặc không gian nhất định?
A. Phân phối chuẩn
B. Phân phối nhị thức
C. Phân phối Poisson
D. Phân phối đều
13. Trong thống kê Bayes, chúng ta cập nhật niềm tin (belief) về một giả thuyết dựa trên bằng chứng mới. 'Prior′ trong thống kê Bayes đại diện cho điều gì?
A. Bằng chứng mới thu thập được.
B. Niềm tin ban đầu về giả thuyết trước khi có bằng chứng mới.
C. Xác suất của dữ liệu.
D. Hàm правдоподобие (likelihood function).
14. Giả sử bạn thực hiện một kiểm định giả thuyết và giá trị P của bạn là 0.02. Nếu mức ý nghĩa (alpha) được đặt là 0.05, bạn sẽ đưa ra quyết định nào?
A. Chấp nhận giả thuyết null.
B. Bác bỏ giả thuyết null.
C. Không thể đưa ra quyết định.
D. Tăng kích thước mẫu.
15. Mục đích chính của thống kê suy diễn (inferential statistics) là gì?
A. Mô tả dữ liệu một cách trực quan.
B. Thu thập dữ liệu từ tổng thể.
C. Đưa ra kết luận về tổng thể dựa trên mẫu.
D. Tính toán các số đo thống kê mô tả.
16. Khi thực hiện kiểm định giả thuyết một đuôi (one-tailed test), chúng ta quan tâm đến điều gì?
A. Sự khác biệt theo cả hai hướng so với giả thuyết null.
B. Sự khác biệt theo một hướng cụ thể so với giả thuyết null.
C. Phương sai của dữ liệu mẫu.
D. Giá trị trung bình của dữ liệu mẫu.
17. Phương pháp thống kê nào được sử dụng để dự đoán giá trị của một biến phụ thuộc dựa trên một hoặc nhiều biến độc lập?
A. Thống kê mô tả
B. Hồi quy
C. Kiểm định giả thuyết
D. Phân tích phương sai
18. Giá trị P (p-value) trong kiểm định giả thuyết biểu thị điều gì?
A. Xác suất giả thuyết null là đúng.
B. Xác suất giả thuyết đối là đúng.
C. Xác suất quan sát được kết quả cực đoan như mẫu, giả sử giả thuyết null là đúng.
D. Ngưỡng ý nghĩa của kiểm định.
19. Hệ số tương quan Pearson đo lường điều gì giữa hai biến định lượng?
A. Mức độ biến thiên của mỗi biến.
B. Độ mạnh và hướng của mối quan hệ tuyến tính.
C. Mối quan hệ phi tuyến.
D. Sự khác biệt giữa giá trị trung bình của hai biến.
20. Biến định tính (qualitative variable) còn được gọi là gì?
A. Biến số
B. Biến phân loại
C. Biến liên tục
D. Biến rời rạc
21. Trong phân tích chuỗi thời gian, thành phần nào mô tả sự biến động ngắn hạn, không đều đặn trong dữ liệu?
A. Xu hướng (trend).
B. Tính mùa vụ (seasonality).
C. Chu kỳ (cycle).
D. Tính bất thường (irregularity∕random noise).
22. Đại lượng nào sau đây đo lường mức độ phân tán của dữ liệu xung quanh giá trị trung bình?
A. Trung vị
B. Độ lệch chuẩn
C. Mốt
D. Tứ phân vị
23. Khi dữ liệu không tuân theo phân phối chuẩn, phương pháp kiểm định phi tham số nào có thể được sử dụng để so sánh trung vị của hai nhóm độc lập?
A. Kiểm định t-Student độc lập.
B. Kiểm định Wilcoxon rank-sum (Mann-Whitney U).
C. Kiểm định ANOVA.
D. Kiểm định tương quan Pearson.
24. Loại sai số nào có thể giảm bằng cách tăng kích thước mẫu?
A. Sai số hệ thống (systematic error)
B. Sai số ngẫu nhiên (random error)
C. Sai số đo lường
D. Sai số do chọn mẫu sai
25. Phương pháp lấy mẫu nào đảm bảo mọi phần tử của tổng thể đều có cơ hội được chọn như nhau?
A. Lấy mẫu thuận tiện
B. Lấy mẫu phân tầng
C. Lấy mẫu ngẫu nhiên đơn giản
D. Lấy mẫu cụm
26. Loại biểu đồ nào thích hợp nhất để thể hiện tần suất của các biến định tính?
A. Biểu đồ phân tán
B. Biểu đồ đường
C. Biểu đồ cột hoặc biểu đồ tròn
D. Biểu đồ hộp
27. Trong phân tích hồi quy tuyến tính, hệ số chặn (intercept) biểu thị điều gì?
A. Độ dốc của đường hồi quy.
B. Giá trị trung bình của biến phụ thuộc.
C. Giá trị dự đoán của biến phụ thuộc khi biến độc lập bằng 0.
D. Mức độ phù hợp của mô hình hồi quy.
28. Độ tin cậy (confidence level) trong ước lượng khoảng tin cậy thể hiện điều gì?
A. Xác suất khoảng tin cậy chứa giá trị tham số tổng thể thực sự.
B. Xác suất mẫu được chọn là đại diện cho tổng thể.
C. Mức độ chính xác của ước lượng điểm.
D. Kích thước mẫu cần thiết cho ước lượng.
29. Trong phân tích phương sai (ANOVA), mục tiêu chính là gì?
A. So sánh trung bình của hai nhóm.
B. So sánh phương sai của hai nhóm.
C. So sánh trung bình của ba nhóm trở lên.
D. Đo lường mối quan hệ tuyến tính giữa các biến.
30. Trong thống kê, 'phân phối lấy mẫu′ (sampling distribution) là gì?
A. Phân phối của dữ liệu mẫu ban đầu.
B. Phân phối của tất cả các giá trị có thể của một thống kê mẫu (ví dụ trung bình mẫu) từ các mẫu có cùng kích thước.
C. Phân phối của tổng thể.
D. Phân phối của sai số trong ước lượng.