Thursday, April 17, 2014

Phân bố chính quy (normal distribution)

Tôi quyết định dùng chữ "phân bố chính quy" theo cách dùng của người Nhật để dịch chữ "normal distribution". Lựa chọn như vậy vì tôi thấy trong số các nước có sử dụng chữ Hán,  cách dịch các khái niệm của người Nhật tương đối phù hợp với cách suy nghĩ của người Việt Nam chúng ta. Tất nhiên đây chỉ là một lựa chọn cá nhân, quý vị nếu thích có thể sử dụng cách dịch "phân bố chính thái" như Trung Quốc dùng, hoặc "phân bố thường thái" như Đài Loan dùng đều được. Điều quan trọng là chúng ta truyền tải được nội dung cần thảo luận.
Phân bố chính quy là một loại phân bố vô cùng quan trọng, thậm chí có thể khẳng định nó là loại phân bố quan trọng nhất trong toàn bộ môn thống kê học. Sự quan trọng của phân bố có nguồn gốc từ một phát kiến vĩ đại trong môn thống kê gọi là Định lý Giới hạn Trung tâm (tiếng Anh: Central Limit Theorem). Nội dung đại khái của định lý trong quan hệ với quản trị như sau:
Gọi thuộc tính cần quan tâm của các phần tử trong một quần thể P nào đó là xGiả sử từ quần thể đó, mỗi lần ta lấy ra một mẫu gồm n phần tử. Gọi giá trị trung bình của thuộc tính x của mẫu này là s. Nếu n là một số đủ lớn và ta lấy mẫu rất nhiều lần thì bất kể phân bố của P là gì, các giá trị của s cũng sẽ tạo thành một phân bố chính quy.
Có thể xem lại một ví dụ trước để hiểu rõ hơn về định lý này: Giả sử P là quần thể các sản phẩm lốp xe thuộc cùng một loại, và thuộc tính cần quan tâm x là tuổi thọ của sản phẩm. Định lý Giới hạn Trung tâm khẳng định rằng nếu ta chọn một số n đủ lớn (trong ứng dụng thường dùng n khoảng 30) và lặp đi lặp lại nhiều lần quá trình sau:
  1. Lấy một mẫu gồm n chiếc lốp
  2. Đo tuổi thọ của từng chiếc lốp trong mẫu, giả sử là x(1), x(2), .. x(n)
  3. Tính tuổi thọ bình quân của mẫu s = (x(1) + x(2) + .. + x(n))/n 
Tập hợp các giá trị s này sẽ tuân theo một phân bố chính quy, và dùng phân bố chính quy này ta có thể ước lượng ra giá trị bình quân tuổi thọ của toàn thể các sản phẩm trong quần thể.
Hi vọng là đến đây tôi đã thuyết phục được mọi người tin vào tầm quan trọng của Định lý Giới hạn Trung tâm, vì nếu không có định lý này thì toàn bộ các quá trình thống kê hiện nay, kể cả các quá trình trong quản trị kinh doanh như kiểm tra chất lượng, điều tra ý kiến, dự báo thị trường, v.v., đều không có cơ sở để thực hiện.
Vậy phân bố chính quy là gì?
Phân bố chính quy nói đơn giản là một phân bố có dạng hình chuông như dưới đây:
Đối với phân bố chính quy, xác suất để biến số đạt một giá trị x nào đó là phần diện tích về phía bên trái của x và giới hạn bởi đường cong đồ thị (phần tô màu xanh) trên hình, phần diện tích này chính là điều đáng quân tâm nhất về phân bố thống kê và được gọi là xác suất lũy tích (cumulative probability) của phân bố tại giá trị x. Điểm cao nhất của đồ thị tương ứng với giá trị bình quân (mean) μ của phân bố chính quy, và cũng là median của nó. Một điểm quan trọng cần nhớ là đường cong của đồ thị phân bố chính quy đối xứng về hai phía của μ.
Một phân bố chính quy có thể được mô tả hoàn chỉnh bằng giá trị bình quân μ và phương sai σ². μ xác định vị trí của phân bố, và σ² xác định độ nhọn hay bẹp của đồ thị phân bố.
Nguồn: Wikipedia
Trong bốn phân bố chính quy trên, ba phân bố màu lam, đỏ và vàng có cùng μ (=0), còn phân bố màu lục không cùng. σ² của cả bốn phân bố đều khác nhau. Phân bố màu đỏ (μ = 0σ² = 1) là một phân bố chính quy đặc biệt gọi là phân bố chính quy tiêu chuẩn (standard normal distribution). Để tiện cho tính toán, người ta quy tất cả các phân bố chính quy về phân bố chính quy tiêu chuẩn bằng một quá trình gọi là tiêu chuẩn hóa (standardization) như sau:
Giả sử phân bố chính quy cần xét có giá trị bình quân μ và phương sai σ², đối với mỗi giá trị x bất kỳ, thực hiện phép tính
Xác suất lũy tích của phân bố đang xét tại x sẽ đúng bằng xác suất lũy tích của phân bố tiêu chuẩn tại z
Các giá trị xác suất lũy tích của phân bố chính quy tiêu chuẩn thường được tính toán sẵn và lập thành bảng để tiện tra. Ngoài ra ta có thể sử dụng phần mềm thống kê hoặc bảng tính để tính toán mật độ xác suất và xác suất lũy tích một cách rất dễ dàng, nhất là khi quý vị đã hiểu tương đối rõ về phân bố chính quy.

No comments:

Post a Comment