본문 바로가기
통계

[통계] 정보량과 엔트로피

by PIAI 2022. 11. 14.

 

 

 

정보량이란?

 

확률이 낮을수록, 어떤 정보일지 불확실하게 되고, 이때 "정보가 많다", "엔트로피가 높다"라고 표현합니다. 

예시를 들어봅시다. 저희가 뽑기를 한다고 가정해봅시다. 뽑기에는 1등 1개, 2등 4개, 3등 5개가 있습니다. 이때 1등을 뽑을 확률은 아주 희박하고 대부분 2등이나 3등을 뽑겠지요. 저희는 1등일 때 놀라고 기뻐하지 3등일 때 놀라고 기뻐하지 않습니다.

 

이렇게 1등을 뽑는 것에 확신을 가질 수 없고, 불확실합니다. 불확실할때 훨씬 유용한 정보를 제공하고, 그러므로 정보량은 확률에 반비례합니다. 확률이 낮을수록 많은 정보를 얻죠? 그래서 그래프가 \( I(x_{i}) = -log_{a} p(x_{i}) \)가 되고 아래와 같이 그려집니다.

여기서 \( p(x_{i}) \)는 \( x_{i} \)가 발생할 확률이고, 확률이므로 0~1 사이의 실수입니다. 로그의 밑 a는 주로 2가 많이 사용되고, 2일 때 정보량의 단위는 비트(bit)이고, e일 때는 nat입니다.

 

아까 예시의 확률을 환산하고, 로그의 밑이 2일때 계산하면

 

  • 1등: \( \frac{1} {10} \), \( -log_{2}\frac {1} {10} = 3.3219 \)
  • 2등: \( \frac{4} {10} \), \( -log_{2}\frac {4} {10} = 1.3219 \)
  • 3등: \( \frac{5} {10} \), \( -log_{2}\frac {5} {10} = 1 \)

확률이 낮을수록 정보량이 높은 것을 볼 수 있습니다.

 

엔트로피

 

엔트로피도 정보량과 비슷하게 "어떤 상태에서의 불확실성", 또는 "평균 정보량"을 의미합니다. 수식은 아래와 같습니다.

\( H(x) = \mathbb{E}\{I(x_{i})\} = - \sum_{i=1}^n p(x_{i})log_{2} p(x_{i}) \)

여기서 \( \mathbb{E} \)는 기댓값(평균)을 구하는 함수로, 모든 결과가 비슷한 확률로 일어날 때 엔트로피가 가장 큽니다.

위의 식을 그대로 가져오면, 

  • 확률이 0.5, 0.3, 0.2일때 엔트로피 = \( -log_{2} 0.5 * 0.5 + -log_{2} 0.3 * 0.3 + -log_{2} 0.2 * 0.2 = 1.47 \)
  • 확률이 0.36, 0.34, 0.3일때 엔트로피 = \( -log_{2} 0.36 * 0.36 + -log_{2} 0.34 * 0.34 + -log_{2} 0.3 * 0.3 = 1.58 \)

결과가 예측이 뻔히 되는 사건일 수록 엔트로피가 작고, 결과 예측이 힘들수록 엔트로피가 큽니다.

 

참조

 

 

정보 엔트로피 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 2 섀넌의 엔트로피: 2 개의 공정한 동전을 던질 때 정보 엔트로피는 발생 가능한 모든 결과의 개수에 밑이 2 인 로그를 취한 것과 같다. 2 개의 동전을 던지면 4

ko.wikipedia.org

 

 

[정보이론] 정보량과 엔트로피의 의미

정보이론은 신호에 존재하는 정보의 양을 측정하는 이론이다. 정보이론의 핵심은 잘 발생하지 않는 사건은 자주 발생하는 사건보다 정보량이 많다는 것이다. 정보량이란 우선 정보이론에서 '정

bskyvision.com

 

댓글