Wednesday, April 16, 2014

Giá trị bình quân (mean), Phương sai (variance) và median của phân bố thống kê

Đối với mỗi loại phân bố thống kê, người ta quan tâm nhất là giá trị bình quân (mean) của phân bố, ví dụ như chiều cao trung bình của nhân viên, thu nhập bình quân trên đầu người, tuổi thọ bình quân của lốp xe, lượng mưa trung bình trong năm, v.v. Để tính giá trị bình quân về lý thuyết thì rất đơn giản, ta chỉ cần lấy tổng các giá trị của mọi phần tử trong quần thể, rồi chia cho số phần tử trong quần thể. Tuy nhiên trên thực tế, nói chung việc này là không thực hiện được, vì như đã thảo luận ở các bài trước, thường thường số phần tử trong quần thể cần xét là quá lớn hoặc vô cùng lớn, khiến cho việc thu thập thông tin từ tất cả các phần tử là không thể.
Giá trị bình quân thường được ký hiệu bằng chữ cái Hi Lạp μ (đúng ra phải đọc là "mi", nhưng thường đọc là "miu" hoặc "muy"). 
Ta không thể chỉ dựa vào giá trị bình quân để xem xét một phân bố thống kê. Để minh họa, có thể xem xét ví dụ sau do tôi lấy ra từ cuốn sách Naked Statistics của Charles Wheelan (đây là một quyển sách rất đáng đọc, quý vị dù khả năng Anh ngữ không tốt lắm nếu có cơ hội cũng nên đọc để vừa nâng cao trình độ thống kê vừa nâng cao trình độ ngoại ngữ!):
Tại một quầy bar nọ có 10 người đang ngồi uống rượu. Người ta thống kê ra thu nhập 10 người đều là 35.000 USD một năm, do đó thu nhập bình quân của 10 người cũng là 35.000 USD một năm. Từ đó người ta rút ra kết luận khách hàng của là quán bar này đại khái có thu nhập trung bình khoảng 35.000 USD. Bỗng nhiên tỷ phú Bill Gates đi vào quán và ngồi xuống quầy bar gọi một ly. Năm 2013, thu nhập ước lượng của Bill Gates là 15,8 tỉ USD. Vì có Bill Gates ngồi tại quầy nên thu nhập bình quân đầu người của 11 người khách vọt lên thành 1.44 tỉ USD một năm. Giờ đây người ta kết luận là quán bar này là nơi tụ tập của các tỷ phú đô la!
Đương nhiên kết luận này là không chính xác. Lý do giá trị trung bình cao như vậy là vì có một giá trị cách các giá trị khác quá xa, hay nói cách khác là các giá trị bị phân tán quá xa. Để đo độ phân tán của dữ liệu, người ta thường dùng một chỉ số gọi là "sai lệch bình phương" hay phương sai (variance). Phương sai của một phân bố là tổng của các bình phương khoảng cách từ mỗi giá trị đến giá trị bình quân. Ví dụ như trong trường hợp quầy bar trước khi Bill Gates bước vào, phương sai của thu nhập bình quân là 0 (vì mỗi giá trị đều bằng với giá trị trung bình, do đó bình phương khoảng cách đều bằng 0), do đó dữ liệu có độ tập trung rất cao, thậm chí là tuyệt đối.
Sau khi Bill Gates vào quán, phương sai của thu nhập bình quân trở thành
(15.8 tỉ - 35.000)² = 249 nghìn tỉ tỉ (249 tiếp theo là 18 số 0!!!)
Giá trị phương sai này cho ta thấy rằng dữ liệu ở trong trường hợp này có độ phân tán cao đến mức lố bịch, và do đó giá trị bình quân của dữ liệu sẽ không phản ánh đúng phân bố dữ liệu.
Phương sai thường được ký hiệu bằng bình phương của chữ cái Hy Lạp sigma: σ². Dùng bình phương vì trong tính toán người ta thường dùng căn bậc hai của phương sai, gọi là độ lệch tiêu chuẩn (standard deviation) và ký hiệu là σ. Lý do là đơn vị của phương sai là bình phương của đơn vị cần tính, ví dụ như nếu ta cần tìm phân bố chiều cao đo bằng m thì đơn vị của phương sai sẽ là m², không tiện trong tính toán.
Để tránh trường hợp giá trị bình quân bị độ phân tán của dữ liệu làm cho méo mó, người ta còn thường dùng một giá trị trung bình khác gọi là median (đọc là mê đi an). Muốn tính median người ta làm như sau:
  1. Sắp xếp tất cả các phần tử theo giá trị từ thấp đến cao;
  2. Nếu số phần tử trong phân bố là lẻ thì median là giá trị của phần tử ở chính giữa. Ví dụ nếu phân bố có 7 phần tử thì median là giá trị của phần tử số 4;
  3. Nếu số phần tử trong phân bố là chẵn thì median là giá trị bình quân của hai phần tử ở giữa. Ví dụ có 8 phần tử thì median là một nửa tổng của phần tử số 4 và 5.
Như trong ví dụ trên, trước khi Bill Gates bước vào, số người ngồi ở quầy là 10 người, do đó median thu nhập là một nửa tổng thu nhập của hai người có thu nhập cao thứ 5 và thứ 6. Vì hai người này đều có thu nhập 35.000 USD nên median của cả 10 người là 35.000 USD.
Sau khi Bill Gates vào, số người tăng thêm một thành 11 người, do đó median thu nhập sẽ là thu nhập của người có thu nhập cao thứ 6 (vị trí người có thu nhập cao nhất đã bị Bill Gates chiếm mất, do đó người có thu nhập cao thứ 5 trong 10 người còn lại sẽ là người có thu nhập cao thứ 6 của cả 11 người). Thu nhập của người này là 35.000 USD  nên median thu nhập của 11 người vẫn là 35.000 USD. Bill Gates dù có giàu mấy cũng không thể làm thay đổi median của dữ liệu!
Từ đây có thể rút ra một kết luận ngoài lề là: Chỉ nêu thu nhập bình quân không đủ! Nếu thật sự muốn nói một quốc gia có sự phát triển về thu nhập của người dân, ít nhất phải có ba điều kiện:
  1. Bình quân thu nhập của người dân tăng lên;
  2. Median thu nhập của người dân tăng lên, nghĩa là tăng bình quân thu nhập không phải chỉ do người giàu giàu lên mà thôi;
  3. Phương sai thu nhập của người dân giảm đi, nghĩa là giảm tỷ lệ những người cực giàu hoặc cực nghèo trong xã hội.

No comments:

Post a Comment