Sunday, April 20, 2014

Giới hạn dung sai tự nhiên, giới hạn kiểm soát và giới hạn tiêu chuẩn kỹ thuật

Trong các quy trình nghiệp vụ, bao gồm cả sản xuất và dịch vụ, giới hạn tiêu chuẩn kỹ thuật (specification hoặc spec limits) là phạm vi cho phép để một sản phẩm hay dịch vụ được coi là hợp tiêu chuẩn. Giới hạn tiêu chuẩn kỹ thuật thông thường bao gồm hai con số: giới hạn tiêu chuẩn dưới (lower spec limit, LSL) và giới hạn tiêu chuẩn trên (upper spec limit, USL), tuy nhiên có một số trường hợp chỉ quy định một con số USL hoặc LSL. Ví dụ:
  1. Đường kính cho phép của đinh ốc là từ 9,98cm đến 10,02cm: LSL=99.8 mm, USL=100.2mm;
  2. Số lỗi trên một bản sao kê tài khoản ngân hàng là nhỏ hơn hoặc bằng 0,001 (1 lỗi trên 1000 sao kê): USL = 0.001, LSL không định nghĩa (cũng có thể cho LSL = 0);
  3. Dung lượng chất lỏng trong một chai nước ngọt có dung tích danh nghĩa 330ml là lớn hơn 329,5ml: LSL = 329.5ml, USL không định nghĩa (thông thường để giảm chi phí, có thể định nghĩa một giá trị USL nào đó để khống chế lãng phí, ví dụ như USL = 335ml).
Giới hạn tiêu chuẩn kỹ thuật thường được thiết lập từ bên ngoài quá trình tác nghiệp, ví dụ như do khách hàng, do yêu cầu của cơ quan quản lý nhà nước, hoặc do bộ phận thiết kế sản phẩm đặt ra. Để xem xem liệu quá trình tác nghiệp có đáp ứng được tiêu chuẩn kỹ thuật không, người ta xem xét giới hạn dung sai tự nhiên (natural tolerance limits) của quá trình tác nghiệp. Giới hạn dung sai tự nhiên gồm hai giá trị: giới hạn dung sai tự nhiên dưới (lower natural tolerance limit, LNTL) và giới hạn dung sai tự nhiên trên (upper natural tolerance limit, UNTL). Giới hạn dung sai tự nhiên là giá trị của quần thể sản phẩm, thông thường được định nghĩa là:
Trong đó μ là giá trị bình quân (mean) của quần thể sản phẩm, còn σ là độ lệch tiêu chuẩn (standard deviation) của quần thể. Nếu ta giả sử phân bố của quần thể là chính quy (normal) thì có 99.7% sản phẩm sẽ có trị số trong khoảng từ LNTL đến UNTL.
Mục đích mà nhà quản lý muốn đạt được là LNTL > LSL và UNTL < USL, tức là khoảng (LNTL, UNTL) nằm gọn trong khoảng (LSL, USL). Trong trường hợp lý tưởng, μ cũng sẽ nằm chính giữa LSL và USL, tức là giá trị bình quân của quá trình cũng chính là giá trị bình quân của tiêu chuẩn kỹ thuật, người ta gọi là quá trình cân bằng (centered process).
Nguồn: SymphonyTech
Trong hình trên, hai giới hạn màu xanh lơ là LNTL và UNTL của quá trình.
Vì LNTL và UNTL là giá trị của quần thể nên thông thường không có cách nào đo được chính xác, do đó người ta phải dùng phương pháp lấy mẫu để suy đoán LNTL và UNTL. Nhờ có Định lý Giới hạn Trung tâm mà ta biết được rằng trong quá trình lấy mẫu, giá trị bình quân của mẫu sẽ tuân theo một phân bố chính quy với trị bình quân bằng với trị bình quân của quần thể và phương sai bằng phương sai của quần thể chia cho số phần tử trong mẫu.
Từ quá trình lấy mẫu, ta có thể suy luận giá trị bình quân và phương sai của quần thể
Từ đó, người ta đặt ra giới hạn kiểm soát (control limits) bao gồm giới hạn kiểm soát dưới (LCL) và trên (UCL) như sau:

Nếu trong quá trình tác nghiệp, các giá trị bình quân của mẫu rơi vào khoảng giữa LCL và UCL, người ta có thể kết luận là quá trình hiện đang nằm trong tầm kiểm soát thống kê (process in statistical control hay in-control). Nếu giá trị bình quân thường rơi ra ngoài khoảng này người ta nói là quá trình ra ngoài tầm kiểm soát thống kê (process out of statistical control hay out-of-control).

Thursday, April 17, 2014

Phân bố chính quy (normal distribution)

Tôi quyết định dùng chữ "phân bố chính quy" theo cách dùng của người Nhật để dịch chữ "normal distribution". Lựa chọn như vậy vì tôi thấy trong số các nước có sử dụng chữ Hán,  cách dịch các khái niệm của người Nhật tương đối phù hợp với cách suy nghĩ của người Việt Nam chúng ta. Tất nhiên đây chỉ là một lựa chọn cá nhân, quý vị nếu thích có thể sử dụng cách dịch "phân bố chính thái" như Trung Quốc dùng, hoặc "phân bố thường thái" như Đài Loan dùng đều được. Điều quan trọng là chúng ta truyền tải được nội dung cần thảo luận.
Phân bố chính quy là một loại phân bố vô cùng quan trọng, thậm chí có thể khẳng định nó là loại phân bố quan trọng nhất trong toàn bộ môn thống kê học. Sự quan trọng của phân bố có nguồn gốc từ một phát kiến vĩ đại trong môn thống kê gọi là Định lý Giới hạn Trung tâm (tiếng Anh: Central Limit Theorem). Nội dung đại khái của định lý trong quan hệ với quản trị như sau:
Gọi thuộc tính cần quan tâm của các phần tử trong một quần thể P nào đó là xGiả sử từ quần thể đó, mỗi lần ta lấy ra một mẫu gồm n phần tử. Gọi giá trị trung bình của thuộc tính x của mẫu này là s. Nếu n là một số đủ lớn và ta lấy mẫu rất nhiều lần thì bất kể phân bố của P là gì, các giá trị của s cũng sẽ tạo thành một phân bố chính quy.
Có thể xem lại một ví dụ trước để hiểu rõ hơn về định lý này: Giả sử P là quần thể các sản phẩm lốp xe thuộc cùng một loại, và thuộc tính cần quan tâm x là tuổi thọ của sản phẩm. Định lý Giới hạn Trung tâm khẳng định rằng nếu ta chọn một số n đủ lớn (trong ứng dụng thường dùng n khoảng 30) và lặp đi lặp lại nhiều lần quá trình sau:
  1. Lấy một mẫu gồm n chiếc lốp
  2. Đo tuổi thọ của từng chiếc lốp trong mẫu, giả sử là x(1), x(2), .. x(n)
  3. Tính tuổi thọ bình quân của mẫu s = (x(1) + x(2) + .. + x(n))/n 
Tập hợp các giá trị s này sẽ tuân theo một phân bố chính quy, và dùng phân bố chính quy này ta có thể ước lượng ra giá trị bình quân tuổi thọ của toàn thể các sản phẩm trong quần thể.
Hi vọng là đến đây tôi đã thuyết phục được mọi người tin vào tầm quan trọng của Định lý Giới hạn Trung tâm, vì nếu không có định lý này thì toàn bộ các quá trình thống kê hiện nay, kể cả các quá trình trong quản trị kinh doanh như kiểm tra chất lượng, điều tra ý kiến, dự báo thị trường, v.v., đều không có cơ sở để thực hiện.
Vậy phân bố chính quy là gì?
Phân bố chính quy nói đơn giản là một phân bố có dạng hình chuông như dưới đây:
Đối với phân bố chính quy, xác suất để biến số đạt một giá trị x nào đó là phần diện tích về phía bên trái của x và giới hạn bởi đường cong đồ thị (phần tô màu xanh) trên hình, phần diện tích này chính là điều đáng quân tâm nhất về phân bố thống kê và được gọi là xác suất lũy tích (cumulative probability) của phân bố tại giá trị x. Điểm cao nhất của đồ thị tương ứng với giá trị bình quân (mean) μ của phân bố chính quy, và cũng là median của nó. Một điểm quan trọng cần nhớ là đường cong của đồ thị phân bố chính quy đối xứng về hai phía của μ.
Một phân bố chính quy có thể được mô tả hoàn chỉnh bằng giá trị bình quân μ và phương sai σ². μ xác định vị trí của phân bố, và σ² xác định độ nhọn hay bẹp của đồ thị phân bố.
Nguồn: Wikipedia
Trong bốn phân bố chính quy trên, ba phân bố màu lam, đỏ và vàng có cùng μ (=0), còn phân bố màu lục không cùng. σ² của cả bốn phân bố đều khác nhau. Phân bố màu đỏ (μ = 0σ² = 1) là một phân bố chính quy đặc biệt gọi là phân bố chính quy tiêu chuẩn (standard normal distribution). Để tiện cho tính toán, người ta quy tất cả các phân bố chính quy về phân bố chính quy tiêu chuẩn bằng một quá trình gọi là tiêu chuẩn hóa (standardization) như sau:
Giả sử phân bố chính quy cần xét có giá trị bình quân μ và phương sai σ², đối với mỗi giá trị x bất kỳ, thực hiện phép tính
Xác suất lũy tích của phân bố đang xét tại x sẽ đúng bằng xác suất lũy tích của phân bố tiêu chuẩn tại z
Các giá trị xác suất lũy tích của phân bố chính quy tiêu chuẩn thường được tính toán sẵn và lập thành bảng để tiện tra. Ngoài ra ta có thể sử dụng phần mềm thống kê hoặc bảng tính để tính toán mật độ xác suất và xác suất lũy tích một cách rất dễ dàng, nhất là khi quý vị đã hiểu tương đối rõ về phân bố chính quy.

Wednesday, April 16, 2014

Giá trị bình quân (mean), Phương sai (variance) và median của phân bố thống kê

Đối với mỗi loại phân bố thống kê, người ta quan tâm nhất là giá trị bình quân (mean) của phân bố, ví dụ như chiều cao trung bình của nhân viên, thu nhập bình quân trên đầu người, tuổi thọ bình quân của lốp xe, lượng mưa trung bình trong năm, v.v. Để tính giá trị bình quân về lý thuyết thì rất đơn giản, ta chỉ cần lấy tổng các giá trị của mọi phần tử trong quần thể, rồi chia cho số phần tử trong quần thể. Tuy nhiên trên thực tế, nói chung việc này là không thực hiện được, vì như đã thảo luận ở các bài trước, thường thường số phần tử trong quần thể cần xét là quá lớn hoặc vô cùng lớn, khiến cho việc thu thập thông tin từ tất cả các phần tử là không thể.
Giá trị bình quân thường được ký hiệu bằng chữ cái Hi Lạp μ (đúng ra phải đọc là "mi", nhưng thường đọc là "miu" hoặc "muy"). 
Ta không thể chỉ dựa vào giá trị bình quân để xem xét một phân bố thống kê. Để minh họa, có thể xem xét ví dụ sau do tôi lấy ra từ cuốn sách Naked Statistics của Charles Wheelan (đây là một quyển sách rất đáng đọc, quý vị dù khả năng Anh ngữ không tốt lắm nếu có cơ hội cũng nên đọc để vừa nâng cao trình độ thống kê vừa nâng cao trình độ ngoại ngữ!):
Tại một quầy bar nọ có 10 người đang ngồi uống rượu. Người ta thống kê ra thu nhập 10 người đều là 35.000 USD một năm, do đó thu nhập bình quân của 10 người cũng là 35.000 USD một năm. Từ đó người ta rút ra kết luận khách hàng của là quán bar này đại khái có thu nhập trung bình khoảng 35.000 USD. Bỗng nhiên tỷ phú Bill Gates đi vào quán và ngồi xuống quầy bar gọi một ly. Năm 2013, thu nhập ước lượng của Bill Gates là 15,8 tỉ USD. Vì có Bill Gates ngồi tại quầy nên thu nhập bình quân đầu người của 11 người khách vọt lên thành 1.44 tỉ USD một năm. Giờ đây người ta kết luận là quán bar này là nơi tụ tập của các tỷ phú đô la!
Đương nhiên kết luận này là không chính xác. Lý do giá trị trung bình cao như vậy là vì có một giá trị cách các giá trị khác quá xa, hay nói cách khác là các giá trị bị phân tán quá xa. Để đo độ phân tán của dữ liệu, người ta thường dùng một chỉ số gọi là "sai lệch bình phương" hay phương sai (variance). Phương sai của một phân bố là tổng của các bình phương khoảng cách từ mỗi giá trị đến giá trị bình quân. Ví dụ như trong trường hợp quầy bar trước khi Bill Gates bước vào, phương sai của thu nhập bình quân là 0 (vì mỗi giá trị đều bằng với giá trị trung bình, do đó bình phương khoảng cách đều bằng 0), do đó dữ liệu có độ tập trung rất cao, thậm chí là tuyệt đối.
Sau khi Bill Gates vào quán, phương sai của thu nhập bình quân trở thành
(15.8 tỉ - 35.000)² = 249 nghìn tỉ tỉ (249 tiếp theo là 18 số 0!!!)
Giá trị phương sai này cho ta thấy rằng dữ liệu ở trong trường hợp này có độ phân tán cao đến mức lố bịch, và do đó giá trị bình quân của dữ liệu sẽ không phản ánh đúng phân bố dữ liệu.
Phương sai thường được ký hiệu bằng bình phương của chữ cái Hy Lạp sigma: σ². Dùng bình phương vì trong tính toán người ta thường dùng căn bậc hai của phương sai, gọi là độ lệch tiêu chuẩn (standard deviation) và ký hiệu là σ. Lý do là đơn vị của phương sai là bình phương của đơn vị cần tính, ví dụ như nếu ta cần tìm phân bố chiều cao đo bằng m thì đơn vị của phương sai sẽ là m², không tiện trong tính toán.
Để tránh trường hợp giá trị bình quân bị độ phân tán của dữ liệu làm cho méo mó, người ta còn thường dùng một giá trị trung bình khác gọi là median (đọc là mê đi an). Muốn tính median người ta làm như sau:
  1. Sắp xếp tất cả các phần tử theo giá trị từ thấp đến cao;
  2. Nếu số phần tử trong phân bố là lẻ thì median là giá trị của phần tử ở chính giữa. Ví dụ nếu phân bố có 7 phần tử thì median là giá trị của phần tử số 4;
  3. Nếu số phần tử trong phân bố là chẵn thì median là giá trị bình quân của hai phần tử ở giữa. Ví dụ có 8 phần tử thì median là một nửa tổng của phần tử số 4 và 5.
Như trong ví dụ trên, trước khi Bill Gates bước vào, số người ngồi ở quầy là 10 người, do đó median thu nhập là một nửa tổng thu nhập của hai người có thu nhập cao thứ 5 và thứ 6. Vì hai người này đều có thu nhập 35.000 USD nên median của cả 10 người là 35.000 USD.
Sau khi Bill Gates vào, số người tăng thêm một thành 11 người, do đó median thu nhập sẽ là thu nhập của người có thu nhập cao thứ 6 (vị trí người có thu nhập cao nhất đã bị Bill Gates chiếm mất, do đó người có thu nhập cao thứ 5 trong 10 người còn lại sẽ là người có thu nhập cao thứ 6 của cả 11 người). Thu nhập của người này là 35.000 USD  nên median thu nhập của 11 người vẫn là 35.000 USD. Bill Gates dù có giàu mấy cũng không thể làm thay đổi median của dữ liệu!
Từ đây có thể rút ra một kết luận ngoài lề là: Chỉ nêu thu nhập bình quân không đủ! Nếu thật sự muốn nói một quốc gia có sự phát triển về thu nhập của người dân, ít nhất phải có ba điều kiện:
  1. Bình quân thu nhập của người dân tăng lên;
  2. Median thu nhập của người dân tăng lên, nghĩa là tăng bình quân thu nhập không phải chỉ do người giàu giàu lên mà thôi;
  3. Phương sai thu nhập của người dân giảm đi, nghĩa là giảm tỷ lệ những người cực giàu hoặc cực nghèo trong xã hội.

Monday, April 14, 2014

Phân bố thống kê (statistical distribution)

Trong xác suất thống kê, người ta dùng "phân bố thống kê" (statistical distribution) để biểu thị tất cả các khả năng của một biến số nào đó. Ví dụ để biết được phân bố chiều cao của tất cả các nhân viên trong một công ty, người ta có thể tiến hành đo chiều cao của từng nhân viên, làm tròn đến đơn vị cm, rồi đếm số người có cùng chiều cao. Phân bố chiều cao của các nhân viên trong một công ty có thể được mô tả bằng đồ thị như dưới đây:
Phân bố như trên là một ví dụ về phân bố rời rạc (discrete distribution). Trong phân bố rời rạc, các giá trị chỉ có thể nhận một số giá trị nhất định. Trong ví dụ ở trên, bằng cách làm tròn, chiều cao của các nhân viên chỉ có thể là số tự nhiên trong khoảng từ 150 đến 180 cm. Để biết xác suất một nhân viên bất kỳ có chiều cao nào đó, ví dụ như 160 cm, ta chỉ việc lấy số người có chiều cao đó chia cho tổng số nhân viên, ở đây là 11/201 = 0,055 hay khoảng 5,5%
Trong nhiều trường hợp, phân bố rời rạc không tiện để sử dụng hoặc không mô tả đúng bản chất của vấn đề, người ra phải dùng đến phân bố liên tục (continuous distribution). Đại đa số các loại phân bố thường dùng trong quản trị kinh doanh là phân bố liên tục, ví dụ như tuổi thọ của sản phẩm lốp xe, thời gian dùng bữa của thực khách trong nhà hàng, lượng sơn cần dùng để sơn một sản phẩm, v.v.
Khác với phân bố rời rạc, ở phân bố liên tục người ta không định nghĩa xác suất để cho biến số có thể nhận một giá trị nhất định, mà chỉ định nghĩa xác suất biến số có giá trị rơi vào trong một khoảng nào đó, ví dụ như xác suất để nhiệt độ từ 20 đến 22 độ C, xác suất để tuổi thọ của lốp xe là từ 29.000km đến 33.000km, v.v. Để mô tả một phân bố liên tục, người ta dùng khái niệm mật độ xác suất (probability density).

Trong trường hợp này, mật độ xác suất của biến số là đường cong, còn xác suất để biến số có giá trị nằm trong khoảng từ a đến b là phần diện tích tô màu xanh trên hình, ký hiệu là P(a  x  b) . Một đặc điểm của mật độ xác suất là nếu ta kéo a đến tận cùng bên trái và kéo b đến tận cùng bên phải sao cho ab bao hàm tất cả các giá trị có thể của x, thì  = 100%. Để cho dễ hiểu, nếu x tuổi thọ của lốp xe tính bằng km, thì x có thể có giá trị từ 0 đến một giá trị lớn nào đó, giả sử là 100.000km. Như vậy, xác suất để tuổi thọ của lốp xe rơi vào trong khoảng từ 0 đến 100.000km, P(0  x  100.000) = 100%, và xác suất để tuổi thọ của lốp xe nhỏ hơn 0 hoặc vượt quá 100.000km đều là 0%.
Lý do để giải thích dài dòng như vậy về phân bố và phân bố liên tục là vì trong thống kê, ta thường xuyên làm việc với một loại phân bố liên tục đặc biệt vô cùng quan trọng, gọi là phân bố thường thái hoặc phân bố chính thái hay phân bố Gauss (normal hoặc Gauss distribution).

Saturday, April 12, 2014

Mẫu (sample) và quá trình lấy mẫu (sampling)

Có thể kết luận thống kê là hệ thống các phương pháp dùng một bộ phận các phần tử để suy luận ra thông tin của toàn thể, ví dụ như:

  1. Một công ty thiết kế hàng điện tử, ví dụ như Apple, muốn suy luận xem liệu một công ty gia công có năng lực đáp ứng được yêu cầu kỹ thuật của sản phẩm mới hay không để quyết định ký hợp đồng
  2. Một công ty cao su muốn suy luận xem tuổi thọ trung bình của dòng sản phẩm lốp xe mới là bao lâu để quyết định có tung ra thị trường hay không?
  3. Một ngân hàng muốn suy luận xem giá trị tài sản trung bình của khách hàng đang gửi tiền là bao nhiêu để quyết định có tung dòng sản phẩm phục vụ khách hàng VIP ra thị trường hay không?; v.v.
Trong mỗi trường hợp kể trên, việc ra quyết định đúng rất quan trọng. Quyết định sai có thể ảnh hưởng đến sự tồn vong của công ty. Tuy nhiên, trong các trường hợp trên, không có cách nào để có thể đo được thông tin cần tìm của toàn thể. Nếu lấy công ty cao su ra làm ví dụ thì công ty này rõ ràng không thể cứ làm ra sản phẩm nào là cho chạy thử nghiệm tới khi mòn hết để tìm tuổi thọ trung bình của toàn thể các sản phẩm lốp. Do đó, cần phải thông qua một quá trình cẩn trọng và mang tính hệ thống để lựa chọn và đo lường một bộ phận, từ đó rút ra một kết luận có độ tin cậy cao để có thể đưa ra quyết định.  Bộ phận phần tử này gọi là "mẫu" (sample) của toàn thể. Quá trình lựa chọn và đo lường mẫu gọi là quá trình "lấy mẫu" (sampling).

Trong quá trình lấy mẫu, nhà quản lý cần đưa ra hai quyết định quan trọng:
  1. Quyết định thứ nhất: Cần lấy bao nhiêu mẫu, và mỗi mẫu có bao nhiêu sản phẩm. Giả sử công ty cao su cần đưa ra con số tuổi thọ của lốp sao cho ít nhất 95% tổng số sản phẩm làm ra có tuổi thọ lớn hơn hoặc bằng con số này, vậy mẫu phải lấy bao nhiêu để đáp ứng yêu cầu trên?
  2. Quyết định thứ hai: Cách lấy mẫu thế nào để các phần tử của mẫu thật sự ngẫu nhiên và đại diện cho tất cả các sản phẩm. Giả sử cũng công ty cao su kể trên mua cao su nguyên liệu từ hai nhà cung cấp khác nhau và có ba phân xưởng tương tự, nhưng không hoàn toàn giống hệt nhau, cùng sản xuất sản phẩm lốp này với năng lực sản xuất của mỗi phân xưởng khác nhau, vậy phải lấy mẫu thế nào để các nguồn nguyên liệu và các phân xưởng đều được đại diện một cách hợp lý trong mẫu?
Sau khi đã lấy xong mẫu và đo lường, vấn đề tiếp theo là diễn giải kết quả đo lường mẫu như thế nào? Giả sử công ty cao su đã lấy một mẫu đạt tiêu chuẩn ngẫu nhiên và đại diện, giả sử gồm 10 sản phẩm, mang đi thử nghiệm. Kết quả là tuổi thọ tính theo km của từng chiếc lốp trong mẫu lần lượt là 32678, 27754, 30209, 33709, 29563, 28644, 30087, 29882, 33198, và 29375. Tuổi thọ trung bình của các sản phẩm trong mẫu là 30510 km. Vậy công ty phải hiểu kết quả này như thế nào? Nếu tuổi thọ trung bình của các sản phẩm cùng cấp trên thị trường là 30000 km thì liệu có thể nói chắc chắn là sản phẩm mới này có tuổi thọ cao hơn hay không?

Friday, April 11, 2014

Quần thể (Population)

Đối với các ngành học quản lý, thống kê đóng vai trò vô cùng quan trọng. Khó có thể nói quá được tầm quan trọng của môn học này. Tôi tìm qua trên mạng những trang web chuyên về thống kê bằng tiếng Việt thì có vẻ như hiện nay môn này chưa được để ý lắm, nhất là trong những hoạt động sản xuất kinh doanh. Đây là một điều thiệt thòi lớn đối với nền kinh tế của chúng ta, bởi lẽ các nước công nghiệp phát triển đạt đến trình độ sản xuất kinh doanh như ngày nay phải nói là một phần lớn nhờ vào việc vận dụng hiệu quả các công cụ thống kê. Tôi hi vọng dần dần sẽ tổng hợp được các nội dung chính của thống kê học ứng dụng trong quản lý tại đây để giúp các sinh viên đang theo học ngành quản lý và các nhà quản trị của Việt Nam có thêm công cụ để hoàn thiện các quá trình kinh doanh của mình, đỡ cho các doanh nghiệp Việt Nam việc phải lần mò tìm con đường đi đến thành công. Tôi cũng hy vọng các bậc tiền bối và các bạn đóng góp chỉ bảo cho những điểm chưa chính xác, chưa đầy đủ hoặc trình bày chưa tốt để mọi người cùng đạt được thu hoạch tối đa.

Muốn định nghĩa thống kê là gì thì trước hết cần định nghĩa "quần thể" và "mẫu". "Quần thể" nói nôm na là bao gồm tất cả các phần tử thành viên của sự việc ta đang xét trong một khoảng không gian và thời gian nhất định. Trong công tác quản lý, có thể xét một số ví dụ về quần thể :
  1. Tất cả các nhân viên trong một công ty vào thời điểm hiện tại
  2. Tất cả các sản phẩm mà công ty sản xuất ra trong quý I năm nay
  3. Tất cả các khách hàng đã sử dụng hoặc mua sản phẩm hoặc dịch vụ của một công ty trong năm 2013, v.v.
Số lượng phần tử của "quần thể" thông thường là tương đối lớn, nhất là đối với những vấn đề cần giải quyết trong thực tế. Đối với một số vấn đề, ta có thể dùng tất cả các phần tử trong quần thể để nghiên cứu. Ví dụ như trong ví dụ 1 nêu trên, nếu một công ty nếu muốn biết tỷ lệ nhân viên nữ của mình thì chỉ việc đơn giản lấy số nhân viên nữ chia cho tổng số nhân viên, vì thường thường một công ty thường có sẵn số liệu về giới tính của nhân viên, kể cả trong trường hợp số lượng nhân viên có lên đến vài vạn người.

Tuy nhiên, nếu một công ty có vài vạn nhân viên muốn biết chiều cao trung bình của các nhân viên nữ trong công ty, việc đo chiều cao của tất cả các nhân viên sẽ trở nên rất tốn kém. Vì vậy, câu hỏi đặt ra ở đây là "Liệu có cách nào kết luận tương đối chính xác chiều cao trung bình của các nhân viên nữ mà không phải đo từng người một hay không?"

Trong một số trường hợp, số phần tử của quần thể có thể là vô hạn hoặc lớn đến mức có thể coi như vô hạn. Ví dụ, nếu quần thể cần xét là tất cả các sản phẩm mà công ty của mình đã và sẽ sản xuất ra, nhà quản lý đương nhiên mong muốn số lượng sẽ là vô hạn hoặc là một số vô cùng lớn. Bất kể có vô hạn hay không, cũng không có cách nào để nhà quản lý biết được cũng như xem xét tất cả các sản phẩm trong quần thể này. Giờ ta giả sử nhà quản lý muốn so sánh hiệu quả của hai quy trình sản xuất, một là quy trình hiện có, hai là một quy trình mới do bộ phận kỹ thuật đề xuất ra. Nếu muốn xem xét toàn bộ quần thể, nhà quản lý chỉ có cách là cho hai quy trình chạy song song với nhau cho tới ngày công ty đóng cửa (vì phá sản hoặc vì người chủ không muốn làm tiếp). Hiển nhiên là làm như vậy chẳng có ý nghĩa gì. Câu hỏi ở đây là: "Liệu có cách nào để trong một thời gian ngắn, chỉ với chi phí không đáng kể, có thể đưa ra một kết luận tương đối đáng tin cậy về hiệu suất của hai quy trình này so với nhau hay không?"

Tin vui cho nhà quản lý là câu trả lời của môn thống kê học đối với cả hai câu hỏi trên đều là "CÓ!". Trong những trường hợp mà ta không thể hoặc không muốn (không đủ tiền hoặc thời gian hoặc cả hai) xem xét tất cả các phần tử của quần thể, ta có thể chỉ cần xem xét một số ít phần tử của quần thể để có kết luận tương đối chính xác. Số ít phần tử đó gọi là "mẫu" (dịch từ chữ "sample") của quần thể, mà tôi sẽ thảo luận ở phần sau.