Phân biệt độ lệch chuẩn với sai số chuẩnTrong các tạp chí khoa học, chúng ta thường thấy những kí hiệu dạng x ± y, trong đó x là số trung bình, còn y thì có khi là độ lệch chuẩn (standard deviation SD), đôi khi là sai số chuẩn (standard error SE) hoặc SEM (standard error of the mean). Cách trình bày này thông dụng đến nỗi một số chuyên gia và các ban biên tập phải lên tiếng khuyến cáo (đưa ra quy ước chung). Theo đó: Show
Để hiểu qui ước này, chúng ta cần phải tìm hiểu ý nghĩa của độ lệch chuẩn và sai số chuẩn. Đây là điều cần thiết, bởi hầu hết sách giáo khoa thống kê đều không giải rõ những khác biệt về ý nghĩa của hai chỉ số thống kê này. 1. Sai số chuẩn Standard errorCông thức tính sai số chuẩn (kí hiệu bằng SE viết tắt từ standard error) rất đơn giản: lấy độ lệch chuẩn chia cho căn số bậc hai của số cỡ mẫu (n),\(SE = \frac{s}{{\sqrt n }}\) Nguyên lí và mục đích đằng sau của thống kê học là ước tính những thông số của một quần thể (population). Trong thực tế chúng ta không biết các thông số này, mà chỉ dựa vào những ước tính từ một hay nhiều mẫu để suy luận cho giá trị của quần thể mà các mẫu được chọn. Chẳng hạn như chúng ta không biết chiều cao của người Việt là bao nhiêu (bởi vì đâu có ai đo lường chiều cao của gần 90 triệu dân); chúng ta phải chọn một mẫu gồm n đối tượng để tính trị số trung bình của mẫu này, và dùng trị số trung bình của mẫu để suy luận cho toàn dân số. Nhưng chọn mẫu phải ngẫu nhiên thì mới mang tính đại diện cao. Cứ mỗi lần chọn mẫu, chúng ta có một nhóm đối tượng khác. Và, cứ mỗi mẫu, chúng ta có một số trung bình mới. Câu hỏi đặt ra là: nếu chọn mẫu nhiều lần (nhiều ở đây có nghĩa là hàng triệu hay tỉ lần) thì các số trung bình này dao động cỡ nào. Nếu chúng ta chọn mẫu N lần, mỗi lần với n đối tượng thì chúng ta sẽ có N số trung bình. Độ lệch chuẩn của N số trung bình này chính là sai số chuẩn. Lưu ý, N ở đây là hàng triệu hay tỉ lần. Do đó, sai số chuẩn phản ảnh độ dao động hay biến thiên của các số trung bình mẫu (sample averages). Tuy nhiên, không có cái gọi là standard error of the mean, mà chỉ có standard deviation of the means. Chữ means có s là số nhiều vì tính từ nhiều số trung bình. Thay vì gọi dài dòng là standard deviation of the means, người ta gọi ngắn gọn bằng một thuật ngữ mới: standard error. 2. Ý nghĩa của độ lệch chuẩn (SD) và sai số chuẩn (SE)Gọi thông số trung bình của một quần thể là \(\mu \) (chúng ta không biết giá trị thật của \(\mu \)). Chúng ta có thể ước lượng gián tiếp \(\mu \) qua số trung bình của mẫu là \({\bar x}\) và độ lệch chuẩn của mẫu là s. Theo lí thuyết xác suất của phân phối chuẩn (dựa theo độ lệch chuẩn SD), chúng ta có thể phát biểu rằng:
Nếu gọi theo sai số chuẩn SE, chúng ta có thể phát biểu rằng:
KẾT LUẬN VỀ ĐỘ LỆCH CHUẨN vs SAI SỐ CHUẨN
Bài viết này được tổng hợp từ bài viết Độ lệch chuẩn hay sai số chuẩn? của Nguyễn Văn Tuấn trong chuyên đề Lâm sàng thống kê tại: ykhoa.net |