1. Khoảng tin cậy (confidence interval) cho trung bình tổng thể được sử dụng để:
A. Kiểm định giả thuyết về trung bình tổng thể
B. Ước lượng một khoảng giá trị mà trung bình tổng thể có khả năng nằm trong
C. Tính trung bình mẫu
D. Xác định độ lệch chuẩn của tổng thể
2. Kỹ thuật 'bootstrap′ trong thống kê ứng dụng được sử dụng chủ yếu cho mục đích gì?
A. Kiểm định giả thuyết về trung bình
B. Ước lượng phương sai và khoảng tin cậy khi không có giả định phân phối
C. Phân tích dữ liệu định tính
D. Giảm chiều dữ liệu
3. Trong phân tích hồi quy tuyến tính đơn giản, hệ số góc (slope) cho biết điều gì?
A. Giá trị trung bình của biến phụ thuộc
B. Sự thay đổi trung bình của biến phụ thuộc khi biến độc lập tăng một đơn vị
C. Giá trị lớn nhất của biến độc lập
D. Mức độ phù hợp của mô hình hồi quy
4. Khi thực hiện kiểm định Chi-bình phương về tính độc lập, giả thuyết null (H0) thường là gì?
A. Có mối quan hệ giữa các biến
B. Không có mối quan hệ giữa các biến
C. Các biến có phân phối chuẩn
D. Trung bình của các biến bằng nhau
5. Ứng dụng nào sau đây KHÔNG phải là một ví dụ của thống kê mô tả?
A. Tính trung bình thu nhập của dân số
B. Ước lượng tỷ lệ ủng hộ một ứng viên chính trị dựa trên khảo sát
C. Tính tỷ lệ phần trăm sinh viên đạt điểm A trong một lớp
D. Xác định độ lệch chuẩn của chiều cao trung bình của nam giới
6. Ưu điểm chính của việc sử dụng phương pháp thống kê Bayes so với phương pháp thống kê tần suất (frequentist) là gì?
A. Dễ tính toán hơn
B. Không yêu cầu giả định về phân phối dữ liệu
C. Cho phép kết hợp thông tin tiên验 (prior information) vào phân tích
D. Luôn cho kết quả chính xác hơn
7. Phương pháp nào sau đây KHÔNG phải là một kỹ thuật lấy mẫu xác suất?
A. Lấy mẫu ngẫu nhiên đơn giản
B. Lấy mẫu phân tầng
C. Lấy mẫu cụm
D. Lấy mẫu định mức
8. Trong thống kê ứng dụng, khái niệm 'đa cộng tuyến′ (multicollinearity) đề cập đến vấn đề gì trong mô hình hồi quy bội?
A. Sự vi phạm giả định về tính tuyến tính
B. Sự tương quan cao giữa các biến độc lập
C. Sự phân phối không chuẩn của phần dư
D. Kích thước mẫu quá nhỏ
9. Hệ số tương quan Pearson đo lường điều gì giữa hai biến định lượng?
A. Mức độ phụ thuộc phi tuyến tính
B. Mức độ biến thiên của một biến
C. Mức độ quan hệ tuyến tính
D. Mức độ khác biệt về đơn vị đo
10. Trong phân tích phương sai (ANOVA), mục đích chính là gì?
A. So sánh trung bình của hai nhóm
B. Đo lường mối quan hệ tuyến tính giữa các biến
C. So sánh trung bình của ba nhóm trở lên
D. Phân tích sự phân tán của dữ liệu
11. Trong phân tích hồi quy logistic, biến phụ thuộc thuộc loại dữ liệu nào?
A. Định lượng liên tục
B. Định lượng rời rạc
C. Định danh nhị phân
D. Thứ bậc
12. Khi nào nên sử dụng kiểm định phi tham số thay vì kiểm định tham số?
A. Khi dữ liệu có kích thước mẫu lớn
B. Khi dữ liệu tuân theo phân phối chuẩn
C. Khi các giả định của kiểm định tham số không được đáp ứng
D. Khi muốn tăng độ mạnh của kiểm định
13. Trong thống kê ứng dụng, loại dữ liệu nào thường được sử dụng để biểu diễn các danh mục hoặc nhóm, không có thứ tự tự nhiên?
A. Dữ liệu định lượng
B. Dữ liệu thứ bậc
C. Dữ liệu định danh
D. Dữ liệu khoảng
14. Phương pháp thống kê nào thường được sử dụng để dự báo giá trị tương lai dựa trên dữ liệu quá khứ theo thời gian?
A. Phân tích hồi quy tuyến tính
B. Phân tích chuỗi thời gian
C. Phân tích phương sai
D. Phân tích tương quan
15. Giá trị P (p-value) trong kiểm định giả thuyết thể hiện điều gì?
A. Xác suất giả thuyết null là đúng
B. Xác suất mắc lỗi loại I
C. Xác suất quan sát được kết quả cực đoan như kết quả mẫu (hoặc hơn) nếu giả thuyết null đúng
D. Mức độ quan trọng thực tế của kết quả
16. Mục đích của việc chuẩn hóa dữ liệu (data normalization) trong thống kê là gì?
A. Loại bỏ giá trị ngoại lệ
B. Chuyển đổi dữ liệu về cùng một thang đo để so sánh
C. Tăng kích thước mẫu
D. Đảm bảo dữ liệu phân phối chuẩn
17. Biến 'nhiễu′ (confounding variable) trong nghiên cứu quan sát là gì?
A. Biến không được đo lường trong nghiên cứu
B. Biến gây ra cả biến độc lập và biến phụ thuộc, làm sai lệch mối quan hệ giữa chúng
C. Biến có tác động ngẫu nhiên đến biến phụ thuộc
D. Biến được sử dụng để kiểm soát chất lượng dữ liệu
18. Trong phân tích sống sót (survival analysis), hàm sống sót (survival function) S(t) biểu thị điều gì?
A. Thời gian sống trung bình
B. Xác suất một cá thể sống sót ít nhất đến thời điểm t
C. Tỷ lệ tử vong tại thời điểm t
D. Thời gian sống dài nhất quan sát được
19. Khi so sánh hai nhóm độc lập về trung bình, kiểm định t-test hai mẫu độc lập giả định điều gì về phương sai của hai nhóm?
A. Phương sai phải khác nhau
B. Phương sai phải bằng nhau hoặc khác nhau, tùy thuộc vào kích thước mẫu
C. Phương sai phải bằng nhau
D. Không có giả định nào về phương sai
20. Phương pháp nào sau đây thường được sử dụng để giảm số chiều dữ liệu trong phân tích thống kê, đặc biệt khi làm việc với dữ liệu nhiều chiều?
A. Phân tích hồi quy
B. Phân tích phương sai
C. Phân tích thành phần chính (PCA)
D. Phân tích tương quan
21. Phương pháp lấy mẫu nào đảm bảo mỗi cá thể trong tổng thể đều có cơ hội được chọn vào mẫu như nhau?
A. Lấy mẫu phân tầng
B. Lấy mẫu cụm
C. Lấy mẫu ngẫu nhiên đơn giản
D. Lấy mẫu thuận tiện
22. Trong kiểm định giả thuyết thống kê, lỗi loại II (Type II error) xảy ra khi:
A. Bác bỏ giả thuyết null khi nó thực sự đúng
B. Không bác bỏ giả thuyết null khi nó thực sự sai
C. Chọn mức ý nghĩa alpha quá cao
D. Kích thước mẫu quá nhỏ
23. Sai số chuẩn của trung bình (standard error of the mean) đo lường điều gì?
A. Độ lệch chuẩn của mẫu
B. Độ lệch chuẩn của tổng thể
C. Độ lệch chuẩn của phân phối lấy mẫu của trung bình mẫu
D. Sai số do đo lường
24. Phép đo lường độ phân tán nào sau đây ít bị ảnh hưởng nhất bởi các giá trị ngoại lệ trong một tập dữ liệu?
A. Độ lệch chuẩn
B. Phương sai
C. Khoảng tứ phân vị
D. Khoảng biến thiên
25. Khi nào thì việc sử dụng trung vị (median) thích hợp hơn so với trung bình cộng (mean) để đo xu hướng trung tâm của dữ liệu?
A. Khi dữ liệu phân phối chuẩn
B. Khi dữ liệu có dạng rời rạc
C. Khi dữ liệu có giá trị ngoại lệ
D. Khi dữ liệu có kích thước mẫu lớn
26. Loại biểu đồ nào thích hợp nhất để thể hiện sự phân bố tần số của một biến định lượng liên tục?
A. Biểu đồ tròn
B. Biểu đồ cột
C. Biểu đồ hộp
D. Biểu đồ tần suất (histogram)
27. Trong ngữ cảnh của 'Big Data′, thống kê ứng dụng đóng vai trò quan trọng nhất trong giai đoạn nào của quy trình phân tích?
A. Thu thập dữ liệu
B. Làm sạch dữ liệu
C. Phân tích và mô hình hóa dữ liệu
D. Trực quan hóa dữ liệu
28. Khi kích thước mẫu tăng lên, điều gì thường xảy ra với chiều rộng của khoảng tin cậy (confidence interval)?
A. Chiều rộng khoảng tin cậy tăng lên
B. Chiều rộng khoảng tin cậy giảm xuống
C. Chiều rộng khoảng tin cậy không đổi
D. Chiều rộng khoảng tin cậy thay đổi ngẫu nhiên
29. Trong phân tích dữ liệu định tính, phương pháp nào tập trung vào việc tìm kiếm các chủ đề và mô hình lặp đi lặp lại trong dữ liệu văn bản?
A. Phân tích hồi quy
B. Phân tích phương sai
C. Phân tích nội dung
D. Phân tích tương quan
30. Trong thống kê ứng dụng, 'dữ liệu bảng′ (panel data) đề cập đến loại dữ liệu nào?
A. Dữ liệu được thu thập từ bảng hỏi
B. Dữ liệu có cấu trúc dạng bảng
C. Dữ liệu theo dõi nhiều đối tượng qua thời gian
D. Dữ liệu được trình bày dưới dạng bảng tần số