L08~10 - Random Variable
What is Random Variable?
Function from sample space 'S' to the real life 'R'
.
Think X in ‘X+3=7’ as a constant. a Variable is not a constant, but a function.
R.V is a numerical summary of an aspect of experiment.
Random
> experiment
Variable
> function
Bernoulli Distribution: Bern(p)
A r.v. X is said to have Bern(p) distribution. 如果X只有两种可能的值 {0,1}, 而且 P(X=1)=p, P(X=0)=1-p
Binomial Distribution: Bin(n, p)
The distribution of # successes “X” in n independent Bern(p) trials is called Bin(n,p). It’s distribution is given by:
二項分布: n 個獨立的 {0,1} 試驗中成功的次數的離散機率分布,其中每次試驗的成功機率為 p。 這樣的單次成功/失敗試驗又稱為伯努利試驗。實際上,當n = 1時,二項分布就是伯努利分布。
\[P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}\]This is the PMF
(Probability Math Function)
$ X \sim Bin(n,p), Y \sim Bin(m,p) $ and X,Y are independent, then $ X + Y \sim Bin(m+n, p) $
Proof: X是丢n次硬币正面的次数,Y是丢m次硬币正面的次数,那么 X+Y 就是丢 m+n 次硬币正面的次数。
Sum of indicator r.v.s :
\[X = X_1 + X_2 + \dots + X_n, X_j = \begin{cases} 1, \text{if success} \\ 0, \text{if failure} \end{cases}\]i.i.d.
: Independent, identically distributed.
PMF
: Probability Math Function, P(X=k) “當X=k時,機率為何?”, only for Discrete r.v.s
CDF
: Cumulative Distribution Function
例如在一個有許多數字的 Sample Space, X=7
代表選取了所有數字為7的事件 Event。
Sample Space : 15 7 5 13 9 1 8 60 7 1
Event X=7 : 7 7
Event X<=7 : 7 5 1 7 1
X<=x
也是一個事件, $ F = P(X \le x) $, F 是 CDF
CDF Properties
- Increasing
- Right continuous (从右方趋近)
- $ F(X) \to 0, \text{as x} \to - \infty, F(X) \to 1, \text{as x} \to \infty $
- if and only if
Hypergeometric Distribution
Story 1
瓶中有 黑石頭b顆,白石頭w顆,取出n顆的機率分佈為?
令 X=取出的白石頭數量。X=k代表取出k顆的白石頭。
\[PMF = P(X=k) = \frac{\binom{b}{n-k} \binom{w}{k}}{ \binom{b+w}{n} }\]驗證 sum PMF = 1, 利用 Vandermonde Identity, C(w+b,n) = C(w,n) X C(b,n-k)
\[\\ \begin{align} \sum_{k=0}^{w} P(X=k) = & \sum_{k=0}^{n} \frac{\binom{b}{n-k} \binom{w}{k}}{ \binom{b+w}{n} } \\ = & \frac{1}{ \binom{b+w}{n} } \sum_{k=0}^{n} \binom{b}{n-k} \binom{w}{k} \\ = & \frac{1}{ \binom{b+w}{n} } \times \binom{w+b}{n} = 1\\ \end{align}\]Independence of r.v.s
X, Y are indep. r.v.s if: $ P(X \le x, Y \le y) = P(X \le x) \ P(Y \le y) $ , for all x, y.
For discrete cases:
$ P(X = x, Y = y) = P(X = x) \ P(Y = y) $
Average (Mean), Expected Value
計算 平均數: {1,1,1,1,1,3,3,5} 可以有兩種方法
- 所有加總 / 8
- 乘以權重 : 1 * 5/8 + 3 * 2/8 + 5 * 1/8
Average of a discrete r.v. X : E(X)
$ E(X) = \sum_{x} x P(X=x) $, 即為加總 所有數值x乘以該數值的出現機率P(X=x)。
E(X) of X~Bern(p)
$ E(X) = 1 p + 0 (1-p) = p $
Indicator of random variables
: 如果 A 發生,則為 1 ;A不發生,則為 0 。 Then, E(X) = P(A), 這也叫做 Fundamental Bridge.
將 E, P 做連結。如果想求得 P(A), 只要先訂出 i.r.v 然後求得 E(X), 即得 P(A)
E(X) of X~Bin(n,p)
1st Way:
$ E(X) = \sum_{k=0}^{n} k \binom{n}{k} p^k q^{n-k} $
2nd Way:
Linearity 1
: E(X+Y) = E(X) + E(Y), event if X,Y are dependent.
Linearity 2
: E(cX) = c E(X), if c is a constant.
Bin(n,p) 的 E(X) 是 加總 n 個 iid of Bern(p), 即為 n E(X~Bern(p)) = n p
\[Y \sim Bin(n,p) \\ Y=X_1 + X_2 + \dots + X_n \\ X_j \sim Bern(p)\]X ~ Hypergeometric
從一副牌中取 5 張, X = (# of aces) 令 Xj 為 indicator of jth card being an ace.
X ~ Geom(p)
X ~ NBin(r,p) :Negative Binomial
Story
: indep. Bern(p) trials, # of failures before got r th successes. 在得到第 r 個成功前,失敗的次數。
PMF
: $ P(X=n) = \binom{n+r-1}{r-1} p^r q^n $
E(X)
: $ E(X) = r \frac{q}{p} $
PMF:
1: 成功4次 (r)
0: 失敗6次 (n)
0100011001
# 最後一位一定是1,剩下的共有 C(n+r-1, r-1) 種方法組合
E(X):
Xj = 在得到第 r 個成功前,失敗的次數。
X1 = X ~ Geom(p) >> E(X1) = q / p
X2 = X1 + X1 (得到第一個成功前失敗的次數;加上,再等到一個成功前失敗的次數)
Xr = X1 + X1 + ... (r times) = r * X1 = r * q / p
應用: First Success [FS]
X ~ FS(p) : 得到第一個成功前,總共硬幣投擲的次數 (失敗的次數+1次成功) let Y = X-1, Y ~ Geom(p) E(X) = E(Y) + E(1) = q / p + 1 = 1 / p 如果成功機率是 1/10,代表獲得第一個成功前,預期需要投擲10次。
應用: Expectation - from Putnam competition
Question: Random permutaion of 1,2,3,…,n (n >= 2). Find the average (Expected Value) of local maximum (數字比相鄰的數字都大).
Solution: Let Ij be the indicator r.v. of jth position having the local maximum. 1 ≤ j ≤ n
3 2 1 4 7 5 6
^ ^ ^ : local maximum
可分為兩頭(2個數字)的比較,與中間(3個數字)的比較。
中間(n-2個位置): 三個數字如 4,7,5 ,有 1/3 的機會中間的數字最大。
兩頭( 2個位置): 兩個數字,有 1/2 的機會邊緣的數字最大。
$ E(I_1 + \dots + I_n) = E(I_1) + \dots + E(I_n) = (n - 2) \times \frac{1}{3} + 2 \times \frac{1}{2} $
應用: St. Petersburg Paradox
Question: 投擲硬幣x次才獲得第一個正面,可獲得 2^x 元 (x包含投出正面的那一次)
Let $ Y=2^X, E(Y) = \sum_{k=1}^{\infty} 2^k q^{k-1} p = \sum_{k=1}^{\infty} 2^k \frac{1}{2^k} = \sum_{k=1}^{\infty} 1 = \infty $
但實際上金錢不是無限大的,假設有 2^40 元 (超過一兆),期待值也不過是 $40
\[\sum_{k=1}^{40} 1 = 40\]MISTAKE: Sympathetic Magic
不要弄混 r.v. 與 distribution
沒有意義: P(X=x) + P(Y=y)
Word is not the thing, Map is not territory
r.v 是隨機造出的房子;distribution 是藍圖