Monday, April 14, 2014

Phân bố thống kê (statistical distribution)

Trong xác suất thống kê, người ta dùng "phân bố thống kê" (statistical distribution) để biểu thị tất cả các khả năng của một biến số nào đó. Ví dụ để biết được phân bố chiều cao của tất cả các nhân viên trong một công ty, người ta có thể tiến hành đo chiều cao của từng nhân viên, làm tròn đến đơn vị cm, rồi đếm số người có cùng chiều cao. Phân bố chiều cao của các nhân viên trong một công ty có thể được mô tả bằng đồ thị như dưới đây:
Phân bố như trên là một ví dụ về phân bố rời rạc (discrete distribution). Trong phân bố rời rạc, các giá trị chỉ có thể nhận một số giá trị nhất định. Trong ví dụ ở trên, bằng cách làm tròn, chiều cao của các nhân viên chỉ có thể là số tự nhiên trong khoảng từ 150 đến 180 cm. Để biết xác suất một nhân viên bất kỳ có chiều cao nào đó, ví dụ như 160 cm, ta chỉ việc lấy số người có chiều cao đó chia cho tổng số nhân viên, ở đây là 11/201 = 0,055 hay khoảng 5,5%
Trong nhiều trường hợp, phân bố rời rạc không tiện để sử dụng hoặc không mô tả đúng bản chất của vấn đề, người ra phải dùng đến phân bố liên tục (continuous distribution). Đại đa số các loại phân bố thường dùng trong quản trị kinh doanh là phân bố liên tục, ví dụ như tuổi thọ của sản phẩm lốp xe, thời gian dùng bữa của thực khách trong nhà hàng, lượng sơn cần dùng để sơn một sản phẩm, v.v.
Khác với phân bố rời rạc, ở phân bố liên tục người ta không định nghĩa xác suất để cho biến số có thể nhận một giá trị nhất định, mà chỉ định nghĩa xác suất biến số có giá trị rơi vào trong một khoảng nào đó, ví dụ như xác suất để nhiệt độ từ 20 đến 22 độ C, xác suất để tuổi thọ của lốp xe là từ 29.000km đến 33.000km, v.v. Để mô tả một phân bố liên tục, người ta dùng khái niệm mật độ xác suất (probability density).

Trong trường hợp này, mật độ xác suất của biến số là đường cong, còn xác suất để biến số có giá trị nằm trong khoảng từ a đến b là phần diện tích tô màu xanh trên hình, ký hiệu là P(a  x  b) . Một đặc điểm của mật độ xác suất là nếu ta kéo a đến tận cùng bên trái và kéo b đến tận cùng bên phải sao cho ab bao hàm tất cả các giá trị có thể của x, thì  = 100%. Để cho dễ hiểu, nếu x tuổi thọ của lốp xe tính bằng km, thì x có thể có giá trị từ 0 đến một giá trị lớn nào đó, giả sử là 100.000km. Như vậy, xác suất để tuổi thọ của lốp xe rơi vào trong khoảng từ 0 đến 100.000km, P(0  x  100.000) = 100%, và xác suất để tuổi thọ của lốp xe nhỏ hơn 0 hoặc vượt quá 100.000km đều là 0%.
Lý do để giải thích dài dòng như vậy về phân bố và phân bố liên tục là vì trong thống kê, ta thường xuyên làm việc với một loại phân bố liên tục đặc biệt vô cùng quan trọng, gọi là phân bố thường thái hoặc phân bố chính thái hay phân bố Gauss (normal hoặc Gauss distribution).

No comments:

Post a Comment