Phân phối mũ

**Phân phối mũ**
Hàm mật độ xác suất
Hàm phân phối tích lũy
Tham số	$\lambda >0\,$ , tham số tỉ lệ (số thực)
Giá	$x\in [0;\infty )\!$
Hàm mật độ xác suất	$\lambda e^{-\lambda x}$
Hàm phân phối tích lũy	$1-e^{-\lambda x}$
Giá trị kỳ vọng	$\lambda ^{-1}\,$
Trung vị	$\ln(2)/\lambda \,$
Yếu vị	$0\,$
Phương sai	$\lambda ^{-2}\,$
Độ xiên	$2\,$
Độ nhọn	$6\,$
Entropy	$1-\ln(\lambda )\,$
Hàm sinh mô men	$\left(1-{\frac {t}{\lambda }}\right)^{-1}\,$
Hàm đặc trưng	$\left(1-{\frac {it}{\lambda }}\right)^{-1}\,$

Trong Lý thuyết xác suất và thống kê, phân phối mũ là một lớp của các phân bố xác suất liên tục. Chúng thường được dùng để mô hình thời gian giữa các biến cố xảy ra theo một tỷ lệ trung bình là hằng số..

Đặc tả về phân phối mũ

Hàm mật độ xác suất

Hàm mật độ xác suất của một phân phối mũ có dạng sau

f(x;\lambda )=\left\{{\begin{matrix}\lambda e^{-\lambda x}&,\;x\geq 0,\\0&,\;x<0.\end{matrix}}\right.

trong đó λ > 0 là tham số của phân bố, thường được gọi là tham số tỉ lệ (rate parameter). Phân bố được hỗ trợ trên khoảng [0,∞). Nếu một biến ngẫu nhiên X có phân bố này, ta viết X ~ Exponential(λ).

Hàm phân bố tích lũy

Hàm phân bố tích lũy được định nghĩa như sau:

F(x;\lambda )=\left\{{\begin{matrix}1-e^{-\lambda x}&,\;x\geq 0,\\0&,\;x<0.\end{matrix}}\right.

Đặc tả khác

Một cách khác để định nghĩa hàm mật độ xác suất của một phân phối mũ như sau:

f(x;\lambda )=\left\{{\begin{matrix}{\frac {1}{\lambda }}e^{-x/\lambda }&,\;x\geq 0,\\0&,\;x<0.\end{matrix}}\right.

Trong đó, λ > 0 là một tham số của phân bố và có thể được coi là nghịch đảo của tham số tỉ lệ được định nghĩa ở trên. Trong đặc tả này, λ là một tham số sống sót (survival parameter) theo nghĩa: nếu một biến ngẫu nhiên X là khoảng thời gian mà một hệ thống sinh học hoặc cơ học M cho trước sống sót được và X ~ Exponential(λ) thì $\mathbb {E} [X]=\lambda$ . Nghĩa là, khoảng thời gian sống sót kỳ vọng của M là λ đơn vị thời gian.

Đôi khi, đặc tả này thuận tiện hơn đặc tả đầu tiên, một số tác giả dùng đặc tả này làm định nghĩa chuẩn (nhưng trong bài này thì không). Rất tiếc là điều này làm nảy sinh nhập nhằng về ký hiệu. Nói chung, người đọc sẽ phải kiểm tra xem đặc tả nào trong hai đặc tả này được sử dụng khi một tác giả viết "X ~ Exponential(λ)."

Ứng dụng

Phân phối mũ được dùng để mô hình các quá trình Poisson, đó là các tình huống mà khi đó một đối tượng đang ở trạng thái A có thể chuyển sang trạng thái B với xác suất không đổi λ trong mỗi đơn vị thời gian. Thời điểm thay đổi trạng thái được mô tả bằng một biến ngẫu nhiên có phân phối mũ với tham số λ. Do đó, tích phân từ 0 đến T của f là xác suất đối tượng đang ở trạng thái B tại thời điểm T.

Phân phối mũ có thể được xem là một phân bố liên tục tương ứng với phân bố hình học. Phân bố hình học mô tả số phép thử Bernoulli (Bernoulli trial) cần thiết cho một quá trình rời rạc thay đổi trạng thái. Trong khi đó, phân phối mũ mô tả thời điểm mà một quá trình liên tục chuyển trạng thái.

Trong các tình huống thực, giả thuyết về một tỉ lệ hằng số (hay xác suất không đổi trong một đơn vị thời gian) hiếm khi được thỏa mãn. Ví dụ, tỉ lệ các cuộc điện thoại gọi đến thay đổi theo thời gian trong ngày. Tuy nhiên, nếu ta tập trung vào một khoảng thời gian khi tỉ lệ đó khá gần với hằng số, chẳng hạn từ 2 đến 4 giờ chiều trong ngày làm việc, phân phối mũ có thể là mô hình xấp xỉ tốt cho thời gian đến khi có cú điện thoại tiếp theo. Các dự đoán tương tự áp dụng cho các ví dụ sau, chúng cho ra các biến có phân bố xấp xỉ phân phối mũ:

thời gian cho đến khi bạn bị tai nạn giao thông lần nữa
thời gian cho đến khi một hạt phóng xạ phân rã, hay thời gian giữa hai tiếng bíp của một máy đếm geiger (geiger counter)
số lần thả súc sắc cần thiết cho đến khi bạn thả được lục liên tục 11 lần.
thời gian cho đến khi một thiên thạch lớn rơi xuống trái đất gây ra biến cố tuyệt chủng hàng loạt (mass extinction event).

Các biến phân phối mũ còn có thể được dùng để mô hình các tình huống khi một số biến cố nhất định xảy ra với một xác suất không đổi trong mỗi đơn vị khoảng cách:

khoảng cách giữa các đột biến trên một sợi DNA;
khoảng cách giữa hai đoạn hay xảy ra tai nạn trên một con đường cho trước;

Trong Lý thuyết hàng đợi, khoảng thời gian giữa các sự kiện đến (nghĩa là thời gian giữa các thời điểm khách hàng vào hệ thống) thường được mô hình bằng các biến phân phối mũ. Độ dài của một quá trình mà có thể được coi là một chuỗi các nhiệm vụ độc lập được mô hình tốt hơn bởi một biến theo phân bố Gamma (đó là tổng của một số biến độc lập theo phân phối mũ).

Lý thuyết về độ tin cậy (Reliability theory), và reliability engineering (ngành kỹ nghệ đảm bảo rằng một hệ thống sẽ đáng tin cậy khi được vận hành theo một quy cách được định trước) cũng ứng dụng phân phối mũ rất nhiều. Do tính chất không bộ nhớ, phân phối mũ rất thích hợp cho việc mô hình phần tỉ lệ rủi ro hằng số của đường cong hình chậu (bathtub curve) sử dụng trong lý thuyết về độ tin cậy. Nó cũng thuận tiện cho việc bổ sung các tỉ lệ thất bại (failure rate) vào mô hình độ tin cậy. Tuy nhiên phân phối mũ không thích hợp cho việc mô hình toàn bộ đời sống của các cơ thể sống hoặc các thiết bị kỹ thuật, vì các "tỉ lệ thất bại" ở đây không phải hằng số: có nhiều thất bại xảy ra hơn đối với các hệ thống rất trẻ hoặc rất già.

Trong vật lý, nếu ta quan sát một chất khí tại một nhiệt độ và áp suất không đổi trong một trọng trường đều, độ cao của các phân tử cũng tuân theo một phân phối mũ xấp xỉ. Đó là kết luận của tính chất entropy được nêu dưới đây.

Các tính chất

Giá trị trung bình và phương sai

Giá trị trung bình hay giá trị kỳ vọng của một biến ngẫu nhiên phân phối mũ X với tham số tỉ lệ λ được cho bởi công thức:

\mathbf {E} [X]={\frac {1}{\lambda }}

Như trong ví dụ về điện thoại ở mục trước, nếu ta nhận được các cú điện thoại với tỷ lệ trung bình hai cú mỗi giờ, thì ta có thể trông đợi khoảng thời gian nửa tiếng cho đến khi nhận được cú tiếp theo.

Phương sai của X là ${\frac {1}{\lambda ^{2}}}$ .

Không nhớ

Một tính chất quan trọng của phân phối mũ là nó không nhớ. Nghĩa là nếu một biến ngẫu nhiên T có phân phối mũ, xác suất điều kiện của nó phải thỏa mãn:

P(T>s+t\;|\;T>t)=P(T>s)\;\;{\hbox{for all}}\ s,t\geq 0.

Công thức trên có nghĩa rằng xác suất điều kiện rằng ta cần đợi, chẳng hạn, 10 phút nữa trước khi cú điện thoại tiếp theo được gọi đến, biết rằng ta đã đợi nó 30 phút rồi, không khác gì với xác suất cho việc ta cần đợi thêm 10 phút nữa cho đến khi cú điện thoại tiếp theo được gọi đến, biết rằng ta vừa mới bắt đầu quá trình đợi. Sinh viên học môn xác suất thường gặp phải nhầm lẫn đó. Thực tế rằng P(T > 40 | T > 30) = P(T > 10) không có nghĩa rằng các biến cố T > 40 và T > 30 là độc lập. Tóm lại, tính chất không nhớ của phân bố xác suất của thời gian chờ đợi T cho đến khi có cú điện thoại tiếp theo có nghĩa là

(Đúng)

\ P(T>40\mid T>30)=P(T>10).

Nó không có nghĩa là

(Sai)

\ P(T>40\mid T>30)=P(T>40).

(Công thức trên có nghĩa độc lập. Nhưng hai biến cố này không độc lập)

Chỉ có các phân phối mũ là các phân phối xác suất không nhớ liên tục.

Phân phối mũ cũng có một hàm rủi ro (hazard function) là hằng số.

Tứ phân vị

Hàm điểm vi phân (quantile function - hàm phân bố tích lũy nghịch đảo) cho Exponential(λ) là

F^{-1}(p;\lambda )={\frac {-\ln(1-p)}{\lambda }},\!

với $0\leq p<1$ .

Có các tứ phân vị sau:

Tứ phân vị thứ nhất: $\ln(4/3)/\lambda \,$
Trung vị (tứ phân vị thứ hai): $\ln(2)/\lambda \,$
Tứ phân vị thứ ba: $\ln(4)/\lambda \,$

Entropy

Trong số tất cả các phân bố xác suất liên tục với hỗ trợ [0,∞) và giá trị trung bình μ, phân phối mũ với λ = 1/μ có entropy lớn nhất.

Ước lượng tham số

Giả sử ta biết rằng một biến cho trước có phân bố mũ và ta muốn ước lượng tham số tỷ lệ λ.

Khả năng cực đại

Hàm khả năng (likelihood function) cho λ, nếu cho trước một mẫu phân bố đồng nhất và độc lập x = (x₁,..., x_n) lấy từ biến ngẫu nhiên của ta, là

L(\lambda )=\prod _{i=1}^{n}\lambda \,\exp(-\lambda x_{i})=\lambda ^{n}\,\exp \!\left(\!-\lambda \sum _{i=1}^{n}x_{i}\right)=\lambda ^{n}\exp \left(-\lambda n{\overline {x}}\right)

trong đó

{\overline {x}}={1 \over n}\sum _{i=1}^{n}x_{i}

là giá trị trung bình của mẫu.

Đạo hàm của lôga của hàm khả năng là

{\frac {\mathrm {d} }{\mathrm {d} \lambda }}\ln L(\lambda )={\frac {\mathrm {d} }{\mathrm {d} \lambda }}\left(n\ln(\lambda )-\lambda n{\overline {x}}\right)={n \over \lambda }-n{\overline {x}}\ \left\{{\begin{matrix}>0&{\mbox{if}}\ 0<\lambda <1/{\overline {x}},\\\\=0&{\mbox{if}}\ \lambda =1/{\overline {x}},\\\\<0&{\mbox{if}}\ \lambda >1/{\overline {x}}.\end{matrix}}\right.

Do đó, ước lượng khả năng cực đại (maximum likelihood) cho tham số tỷ lệ là

{\widehat {\lambda }}={\frac {1}{\overline {x}}}

.

Suy diễn Bayes

Tiên nghiệm liên hợp (conjugate prior) cho phân phối mũ là phân phối Gamma (mà phân phối mũ là một trường hợp đặc biệt). Dưới đây là cách tính tham số hữu ích cho hàm mật độ xác suất gamma:

\mathrm {Gamma} (\lambda \,;\,\alpha ,\beta )={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}\,\lambda ^{\alpha -1}\,\exp(-\lambda \,\beta ).\!

Khi đó, phân bố hậu nghiệm (posterior distribution) p có thể được biểu diễn theo hàm khả năng được định nghĩa ở trên và tiên nghiệm gamma:

p(\lambda )\propto L(\lambda )\times \mathrm {Gamma} (\lambda \,;\,\alpha ,\beta )

=\lambda ^{n}\,\exp(-\lambda \,n{\overline {x}})\times {\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}\,\lambda ^{\alpha -1}\,\exp(-\lambda \,\beta )

\propto \lambda ^{(\alpha +n)-1}\,\exp(-\lambda \,(\beta +n{\overline {x}})).

Đến đây, mật độ hậu nghiệm p đã được mô tả rõ ràng và chỉ còn thiếu một hằng số chuẩn hóa. Do nó có dạng của một hàm mật độ xác suất, ta dễ dàng điền thêm hằng số đó, và ta có

p(\lambda )=\mathrm {Gamma} (\lambda \,;\,\alpha +n,\beta +n{\overline {x}}).

Ở đây, tham số $\alpha$ có thể được hiểu là số quan sát tiên nghiệm, và $\beta$ là tổng của các quan sát tiên nghiệm.

Sinh biến ngẫu nhiên theo phân phối mũ

Có một phương pháp đơn giản về mặt khái niệm cho việc sinh các biến sinh ngẫu nhiên (random variate) theo phân phối mũ. Phương pháp này dựa trên phương pháp lấy mẫu biến đổi nghịch: Cho trước một biến sinh ngẫu nhiên U rút ra từ phân bố đều trên khoảng đơn vị $(0;1)$ , biến sinh

T=F^{-1}(U)\!

có một phân phối mũ, trong đó $F^{-1}$ là hàm điểm vi phân, được định nghĩa như sau:

F^{-1}(p)={\frac {-\ln(1-p)}{\lambda }}.\!

Ngoài ra, nếu U là đều trên $(0;1)$ , thì $1-U$ cũng vậy. Nghĩa là ta có thể sinh các biến theo phân phối mũ theo cách sau:

T={\frac {-\ln U}{\lambda }}.\!

Xem thêm các phương pháp khác tại các cuốn sách của Knuth^[1] và Devroye^[2].

Các phân bố liên quan

Một phân phối mũ là một trường hợp đặc biệt của một phân bố Gamma nếu $\alpha =1$ (hoặc $k=1$ tùy theo tập tham số được sử dụng).
$Y\sim \mathrm {Weibull} (\gamma ,\lambda )$ là một phân bố Weibull nếu $Y=X^{1/\gamma }\,$ và $X\sim \mathrm {Exponential} (\lambda ^{-\gamma })$ . Đặc biệt, mọi phân phối mũ đều là phân bố Weibull.
$Y\sim \mathrm {Rayleigh} (1/\lambda )$ là một phân bố Rayleigh nếu $Y={\sqrt {2X/\lambda }}$ và $X\sim \mathrm {Exponential} (\lambda )$ .
$Y\sim \mathrm {Gumbel} (\mu ,\beta )$ là một phân bố Gumbel nếu $Y=\mu -\beta \log(X/\lambda )\,$ và $X\sim \mathrm {Exponential} (\lambda )$ .
$Y\sim \mathrm {Laplace}$ là một phân bố Laplace nếu $Y=X_{1}-X_{2}$ , với $X_{1}$ và $X_{2}$ là hai phân bố mũ độc lập.
$Y\sim \mathrm {Exponential}$ là một phân bố mũ nếu $Y=\min(X_{1},X_{2},\cdots ,X_{N})$ , với $X_{i}$ là các phân bố mũ độc lập.
$Y\sim \mathrm {Gamma}$ là một phân bố gamma nếu $Y=\sum _{i}X_{i}\,$ , với $X_{i}\,$ là các phân bố mũ độc lập.
$Y\sim \mathrm {Uniform} (0,1)$ là một phân bố đều nếu $Y=\exp(-X/\lambda )\,$ và $X\sim \mathrm {Exponential} (\lambda )$ .
$X\sim \chi _{2}^{2}$ là một phân bố chi-square (với degrees of freedom bằng 2) nếu $X\sim \mathrm {Exponential} (\lambda =2)$ .

Tham khảo

^ Donald E. Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn. Boston: Addison-Wesley. ISBN 0-201-89684-2. Xem mục 3.4.1, tr. 133.
^ Luc Devroye (1986). Non-Uniform Random Variate Generation Lưu trữ ngày 6 tháng 7 năm 2005 tại Wayback Machine. New York: Springer-Verlag. ISBN 0-387-96305-7. Xem chương 9 Lưu trữ ngày 11 tháng 2 năm 2006 tại Wayback Machine, mục 2, tr. 392–401.

[1] Donald E. Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn. Boston: Addison-Wesley. ISBN 0-201-89684-2. Xem mục 3.4.1, tr. 133.

[2] Luc Devroye (1986). Non-Uniform Random Variate Generation Lưu trữ ngày 6 tháng 7 năm 2005 tại Wayback Machine. New York: Springer-Verlag. ISBN 0-387-96305-7. Xem chương 9 Lưu trữ ngày 11 tháng 2 năm 2006 tại Wayback Machine, mục 2, tr. 392–401.

[1]

[2]