Cách tính Mean SD

Phân biệt độ lệch chuẩn với sai số chuẩn

Trong các tạp chí khoa học, chúng ta thường thấy những kí hiệu dạng x ± y, trong đó x là số trung bình, còn y thì có khi là độ lệch chuẩn (standard deviation SD), đôi khi là sai số chuẩn (standard error SE) hoặc SEM (standard error of the mean). Cách trình bày này thông dụng đến nỗi một số chuyên gia và các ban biên tập phải lên tiếng khuyến cáo (đưa ra quy ước chung). Theo đó:

  • Nếu biến tuân theo luật phân phối chuẩn các nhà nghiên cứu nên theo cách trình bày số trung bình và kèm độ lệch chuẩn (không phải sai số chuẩn;
  • Ngược lại, nếu biến không tuân theo luật phân phối chuẩn, nên trình bày số trung vị và số ở vị trí 25% và 75% (tức là interquartile range).

Cách tính Mean SD

Để hiểu qui ước này, chúng ta cần phải tìm hiểu ý nghĩa của độ lệch chuẩn và sai số chuẩn. Đây là điều cần thiết, bởi hầu hết sách giáo khoa thống kê đều không giải rõ những khác biệt về ý nghĩa của hai chỉ số thống kê này.

1. Sai số chuẩn Standard error

Công thức tính sai số chuẩn (kí hiệu bằng SE viết tắt từ standard error) rất đơn giản: lấy độ lệch chuẩn chia cho căn số bậc hai của số cỡ mẫu (n),\(SE = \frac{s}{{\sqrt n }}\)

Nguyên lí và mục đích đằng sau của thống kê học là ước tính những thông số của một quần thể (population). Trong thực tế chúng ta không biết các thông số này, mà chỉ dựa vào những ước tính từ một hay nhiều mẫu để suy luận cho giá trị của quần thể mà các mẫu được chọn. Chẳng hạn như chúng ta không biết chiều cao của người Việt là bao nhiêu (bởi vì đâu có ai đo lường chiều cao của gần 90 triệu dân); chúng ta phải chọn một mẫu gồm n đối tượng để tính trị số trung bình của mẫu này, và dùng trị số trung bình của mẫu để suy luận cho toàn dân số.

Cách tính Mean SD

Nhưng chọn mẫu phải ngẫu nhiên thì mới mang tính đại diện cao. Cứ mỗi lần chọn mẫu, chúng ta có một nhóm đối tượng khác. Và, cứ mỗi mẫu, chúng ta có một số trung bình mới. Câu hỏi đặt ra là: nếu chọn mẫu nhiều lần (nhiều ở đây có nghĩa là hàng triệu hay tỉ lần) thì các số trung bình này dao động cỡ nào.

Nếu chúng ta chọn mẫu N lần, mỗi lần với n đối tượng thì chúng ta sẽ có N số trung bình. Độ lệch chuẩn của N số trung bình này chính là sai số chuẩn. Lưu ý, N ở đây là hàng triệu hay tỉ lần. Do đó, sai số chuẩn phản ảnh độ dao động hay biến thiên của các số trung bình mẫu (sample averages).

Tuy nhiên, không có cái gọi là standard error of the mean, mà chỉ có standard deviation of the means. Chữ means có s là số nhiều vì tính từ nhiều số trung bình. Thay vì gọi dài dòng là standard deviation of the means, người ta gọi ngắn gọn bằng một thuật ngữ mới: standard error.

2. Ý nghĩa của độ lệch chuẩn (SD) và sai số chuẩn (SE)

Gọi thông số trung bình của một quần thể là \(\mu \) (chúng ta không biết giá trị thật của \(\mu \)). Chúng ta có thể ước lượng gián tiếp \(\mu \) qua số trung bình của mẫu là \({\bar x}\) và độ lệch chuẩn của mẫu là s. Theo lí thuyết xác suất của phân phối chuẩn (dựa theo độ lệch chuẩn SD), chúng ta có thể phát biểu rằng:

  • 68% quan sát trong tổng thể đó có giá trị từ \({\bar x}\) s đến \({\bar x}\) + s;
  • 95% quan sát trong tổng thể đó có giá trị từ \({\bar x}\) 1.96*s đến \({\bar x}\) + 1.96*s ;
  • 99% quan sát trong tổng thể đó có giá trị từ \({\bar x}\) 3*s đến \({\bar x}\) + 3*s.

Nếu gọi theo sai số chuẩn SE, chúng ta có thể phát biểu rằng:

  • 68% số trung bình từ mẫu có giá trị từ \({\bar x}\) SE đến \({\bar x}\) + SE;
  • 95% số trung bình từ mẫu có giá trị từ \({\bar x}\) 1.96*SE đến \({\bar x}\) + 1.96*SE ;
  • 99% số trung bình từ mẫu có giá trị từ \({\bar x}\) 3*SE đến \({\bar x}\) + 3*SE.

KẾT LUẬN VỀ ĐỘ LỆCH CHUẨN vs SAI SỐ CHUẨN

  • Độ lệch chuẩn SDphản ánh độ biến thiên của các quan sát trong một tổng thể.
  • Sai số chuẩn SEphản ánh độ dao động của các số trung bình mẫu được chọn từ tổngthể.
  • Sai số chuẩn SEkhông cung cấp thông tin về độ biến thiên của một tổng thể mà chỉ mô tả dự dao động của các số trung bình mẫu.
  • Sai số chuẩn SEthấp hơn độ lệch chuẩn, bởi vì nó chính bằng độ lệch chuẩn chia cho căn bậc 2 của cở mẫu.

Bài viết này được tổng hợp từ bài viết Độ lệch chuẩn hay sai số chuẩn? của Nguyễn Văn Tuấn trong chuyên đề Lâm sàng thống kê tại: ykhoa.net