1. Trong phân tích dữ liệu lớn (Big Data), thống kê ứng dụng đóng vai trò gì?
A. Giảm kích thước dữ liệu để dễ quản lý
B. Trực quan hóa dữ liệu bằng đồ thị và biểu đồ
C. Trích xuất thông tin hữu ích, xu hướng và mô hình từ lượng lớn dữ liệu
D. Đảm bảo dữ liệu được thu thập một cách ngẫu nhiên
2. Hệ số tương quan (correlation coefficient) đo lường điều gì?
A. Độ mạnh và hướng của mối quan hệ tuyến tính giữa hai biến
B. Mức độ phân tán của dữ liệu
C. Giá trị trung bình của hai biến
D. Độ dốc của đường hồi quy
3. Độ lệch chuẩn đo lường điều gì về một tập dữ liệu?
A. Giá trị trung bình của dữ liệu
B. Mức độ phân tán của dữ liệu xung quanh giá trị trung bình
C. Giá trị lớn nhất trong dữ liệu
D. Hình dạng phân phối của dữ liệu
4. Ứng dụng nào sau đây **không phải** là ứng dụng của thống kê trong lĩnh vực kinh doanh?
A. Dự báo doanh số bán hàng
B. Nghiên cứu thị trường và phân tích khách hàng
C. Dự đoán thời tiết
D. Quản lý chất lượng sản phẩm
5. Phân tích hồi quy tuyến tính được sử dụng để làm gì?
A. Mô tả đặc điểm của một biến duy nhất
B. Xác định sự khác biệt giữa các nhóm
C. Mô hình hóa mối quan hệ tuyến tính giữa một biến phụ thuộc và một hoặc nhiều biến độc lập
D. Kiểm tra tính độc lập của các biến
6. Khi nào thì **biểu đồ hộp** (boxplot) đặc biệt hữu ích trong việc trình bày dữ liệu?
A. Khi muốn so sánh tần số của các giá trị rời rạc
B. Khi muốn thể hiện xu hướng theo thời gian
C. Khi muốn so sánh phân phối của một biến số giữa các nhóm khác nhau và xác định ngoại lệ
D. Khi muốn thể hiện tỷ lệ phần trăm của các thành phần trong tổng thể
7. Loại biểu đồ nào phù hợp nhất để hiển thị **tần số** của các hạng mục dữ liệu định tính?
A. Biểu đồ phân tán (Scatter plot)
B. Biểu đồ đường (Line chart)
C. Biểu đồ cột (Bar chart)
D. Biểu đồ hộp (Boxplot)
8. Trong thống kê ứng dụng, thuật ngữ 'tổng thể' (population) đề cập đến điều gì?
A. Một nhóm nhỏ các đối tượng được chọn để nghiên cứu
B. Toàn bộ tập hợp các đối tượng mà chúng ta quan tâm nghiên cứu
C. Giá trị trung bình của mẫu
D. Sai số chuẩn của mẫu
9. Trong y học, thống kê ứng dụng được sử dụng để làm gì?
A. Thiết kế kiến trúc bệnh viện
B. Đánh giá hiệu quả của các phương pháp điều trị mới
C. Quản lý hồ sơ bệnh án điện tử
D. Sản xuất thuốc
10. Trong thống kê ứng dụng, 'mẫu′ (sample) được định nghĩa là gì?
A. Toàn bộ nhóm đối tượng nghiên cứu
B. Một tập hợp con được chọn từ tổng thể để đại diện cho tổng thể đó
C. Giá trị trung bình của tổng thể
D. Sai số chuẩn của tổng thể
11. Biến số nào sau đây là **biến định lượng liên tục**?
A. Số lượng sinh viên trong một lớp
B. Màu mắt
C. Thời gian hoàn thành bài kiểm tra (phút)
D. Thứ hạng trong cuộc thi
12. Trong phân tích phương sai (ANOVA), chúng ta so sánh cái gì để xác định xem có sự khác biệt đáng kể giữa các nhóm trung bình?
A. Phương sai trong từng nhóm với phương sai giữa các nhóm
B. Trung bình của các nhóm với nhau
C. Độ lệch chuẩn của các nhóm
D. Số lượng quan sát trong mỗi nhóm
13. Khi nào thì **kiểm định t độc lập** (independent t-test) được sử dụng?
A. Để so sánh trung bình của hai mẫu phụ thuộc (paired samples)
B. Để so sánh trung bình của hai mẫu độc lập
C. Để so sánh phương sai của hai mẫu độc lập
D. Để phân tích mối quan hệ giữa hai biến định tính
14. Khái niệm 'ngoại lệ' (outlier) trong thống kê mô tả dữ liệu nào?
A. Dữ liệu xuất hiện thường xuyên nhất
B. Dữ liệu nằm gần giá trị trung bình
C. Dữ liệu có giá trị rất khác biệt so với phần lớn dữ liệu còn lại
D. Dữ liệu bị thiếu
15. Ý nghĩa của việc 'chuẩn hóa dữ liệu′ (data normalization) trong thống kê là gì?
A. Loại bỏ các giá trị ngoại lệ khỏi dữ liệu
B. Chuyển đổi dữ liệu về cùng một thang đo để so sánh hoặc phân tích dễ dàng hơn
C. Sắp xếp dữ liệu theo thứ tự tăng dần
D. Tính toán giá trị trung bình và độ lệch chuẩn
16. Trong phân tích thời gian (time series analysis), mục tiêu chính là gì?
A. Phân tích mối quan hệ giữa các biến tại một thời điểm nhất định
B. Dự đoán các giá trị tương lai dựa trên các mẫu trong dữ liệu quá khứ theo thời gian
C. So sánh dữ liệu giữa các nhóm khác nhau
D. Xác định các giá trị ngoại lệ trong dữ liệu
17. Phương pháp thống kê nào thích hợp để phân tích mối quan hệ giữa hai biến định tính?
A. Hồi quy tuyến tính
B. Phân tích phương sai (ANOVA)
C. Kiểm định Chi bình phương (Chi-square test)
D. Hệ số tương quan Pearson
18. Trong thống kê ứng dụng, 'sai số chuẩn′ (standard error) đo lường điều gì?
A. Độ lệch chuẩn của mẫu
B. Độ lệch chuẩn của trung bình mẫu
C. Sai số loại I
D. Sai số loại II
19. Sai số loại I trong kiểm định giả thuyết xảy ra khi nào?
A. Bác bỏ giả thuyết không (H0) khi nó thực sự đúng
B. Không bác bỏ giả thuyết không (H0) khi nó thực sự sai
C. Chọn mức ý nghĩa thống kê quá cao
D. Sử dụng kích thước mẫu quá nhỏ
20. Chọn **phương pháp lấy mẫu ngẫu nhiên đơn giản** (simple random sampling) đảm bảo điều gì?
A. Mỗi phần tử trong tổng thể có cơ hội được chọn khác nhau
B. Mẫu thu được chắc chắn đại diện cho tổng thể
C. Mỗi phần tử trong tổng thể có cơ hội được chọn như nhau
D. Các phần tử được chọn theo một quy luật định trước
21. Mục đích chính của việc **ước lượng khoảng tin cậy** (confidence interval) là gì?
A. Kiểm định giả thuyết về tham số tổng thể
B. Ước tính một giá trị điểm duy nhất cho tham số tổng thể
C. Cung cấp một khoảng giá trị mà tham số tổng thể có khả năng nằm trong đó, với một độ tin cậy nhất định
D. Mô tả phân phối của dữ liệu mẫu
22. Giá trị nào sau đây là **số trung vị** của tập dữ liệu: 5, 2, 8, 1, 9, 4, 6?
23. Khi nào thì **thống kê phi tham số** (non-parametric statistics) thường được ưu tiên sử dụng thay vì thống kê tham số?
A. Khi dữ liệu tuân theo phân phối chuẩn
B. Khi kích thước mẫu lớn
C. Khi các giả định về phân phối của dữ liệu không được đáp ứng
D. Khi cần tính toán trung bình và độ lệch chuẩn
24. Phương pháp thống kê nào thường được sử dụng để **tóm tắt và mô tả** các đặc điểm chính của một tập dữ liệu?
A. Thống kê suy luận
B. Thống kê mô tả
C. Phân tích hồi quy
D. Kiểm định giả thuyết
25. Phương pháp thống kê nào thường được sử dụng để giảm số chiều dữ liệu (dimensionality reduction) khi làm việc với dữ liệu nhiều chiều?
A. Phân tích hồi quy tuyến tính
B. Phân tích phương sai (ANOVA)
C. Phân tích thành phần chính (Principal Component Analysis - PCA)
D. Kiểm định Chi bình phương
26. Trong kiểm định giả thuyết, **giá trị p** (p-value) thể hiện điều gì?
A. Xác suất giả thuyết đối (H1) là đúng
B. Xác suất quan sát được kết quả cực đoan như vậy (hoặc hơn) nếu giả thuyết không (H0) là đúng
C. Mức độ ý nghĩa thống kê được chọn trước
D. Sai số loại I
27. Trong thống kê ứng dụng, loại dữ liệu nào sau đây là **định tính**?
A. Chiều cao (cm)
B. Cân nặng (kg)
C. Màu sắc yêu thích
D. Nhiệt độ (°C)
28. Ưu điểm chính của việc sử dụng **thống kê ứng dụng** trong nghiên cứu khoa học là gì?
A. Loại bỏ hoàn toàn tính chủ quan trong phân tích
B. Cung cấp các phương pháp khách quan và định lượng để thu thập, phân tích và diễn giải dữ liệu, từ đó đưa ra kết luận dựa trên bằng chứng
C. Thay thế hoàn toàn các phương pháp nghiên cứu định tính
D. Đảm bảo kết quả nghiên cứu luôn đúng tuyệt đối
29. Trong thống kê ứng dụng, 'phân phối chuẩn′ (normal distribution) có vai trò quan trọng như thế nào?
A. Chỉ áp dụng cho dữ liệu định tính
B. Là phân phối phổ biến trong tự nhiên và là cơ sở cho nhiều phương pháp thống kê tham số
C. Chỉ dùng để mô tả dữ liệu mẫu nhỏ
D. Không có vai trò quan trọng, chỉ là một loại phân phối dữ liệu
30. Hạn chế nào sau đây là **đúng** khi sử dụng thống kê ứng dụng?
A. Không thể áp dụng cho dữ liệu định tính
B. Kết quả thống kê luôn chính xác tuyệt đối
C. Việc lạm dụng hoặc diễn giải sai kết quả thống kê có thể dẫn đến kết luận sai lệch
D. Không thể sử dụng trong kinh doanh