확률변수란
어떤 사건이 발생했을 때, 변수 X가 취할 수 있는 값과 그 확률이 정해질 때, 이 변수 X를 확률변수라고 부릅니다.
어떤 값 \( x \)를 취할 확률을 기호로 \( P(X=x) \)로 나타냅니다.
확률변수는 표본 공간을 정의역으로 정의하고, 실수 전체의 집합을 공역으로 두는 일종의 함수입니다.
예시를 두개 들겠습니다. 주사위를 굴려 얻을 수 있는 값을 확률변수로 표현해보겠습니다.
- \( P(X = 1) = \frac {1} {6} \)
- \( P(X = 2) = \frac {1} {6} \)
- \( P(X = 3) = \frac{1} {6} \)
- \( P(X = 4) = \frac{1} {6} \)
- \( P(X = 5) = \frac{1} {6} \)
- \( P(X = 6) = \frac{1} {6} \)
그럼 표본공간(정의역)에는 \( S = {1, 2, 3, 4, 5, 6} \)으로 정의가 되겠죠? 확률변수 \( X \)는 모두 \( \frac {1} {6} \)에 대응됩니다. 위와 같이 확률변수 \( X \)가 취할 수 있는 값이 유한하고 셀수 있는 것을 이산 확률변수라고 합니다.
다음 예시로 유튜브를 본 시간을 확률변수로 둔다고 가정해봅시다. 유튜브를 본 시간이 정확히 2시간, 3시간 떨어지면 좋겠지만 시간은 2시간 0분 1초 68, 3시간 0분 12초 56 등 정확이 떨어지지 않습니다. \( P(X=x) \)로 표기가 불가능합니다. 실수의 집합으로 셀 수 없는 것을 연속 확률변수라고 합니다.
이산 확률변수와 연속 확률변수의 큰 차이점은 아무래도 \( P(X=x) \)로 표기가 가능 여부입니다. 그럼 이제 이 변수들로 이루어진 분포도를 보겠습니다.
확률질량함수와 확률밀도함수
확률 질량 함수(Probability mass function, PMF)
이산 확률변수의 확률분포를 나타내는 함수입니다.
확률 밀도 함수(Probability density function, PDF)
연속 확률변수의 경우 실수의 분포이기 때문에, 분포를 표현하는 것이 불가능합니다. 하지만 특정 구간을 적분함으로써 그 구간의 확률을 구할 수 있다
공식
- 이산 확률분포: \( \mathrm {E}(X) = x_{1} p_{1} + x_{2} p_{2} +... + x_{n} p_{n} = \sum_{i=1}^n x_{i} p_{i} \)
- 연속 확률분포: \( \mathrm {E}(X) = \int_{a}^b x*f(x) dx \)
'통계' 카테고리의 다른 글
[통계] 결합엔트로피, 조건부엔트로피 (0) | 2022.11.15 |
---|---|
[통계] 조건부확률질량함수, 조건부확률밀도함수 (0) | 2022.11.15 |
[통계] 주변확률질량함수, 주변확률밀도함수 (0) | 2022.11.15 |
[통계] 결합확률질량함수, 결합확률밀도함수 (0) | 2022.11.14 |
[통계] 정보량과 엔트로피 (0) | 2022.11.14 |
댓글