딥러닝의 논문을 보면 엄청나게 많은 수학기호와 약어 등이 있습니다.
사실 제가 보려고 만든 모음집이니 편하게 봐주시길 바랍니다.
그리스 문자
먼저 수학에서 나오는 변수 이름은 그리스 문자를 많이 사용합니다. 그래서 최소한에 이것을 보고 읽을 줄은 알아야겠죠?
다 외울필요 없습니다. 그냥 모르는 거 나왔을 때 보시면 됩니다.
대문자 | 소문자 | 영어 | 한글 |
\( A \) | \( \alpha \) | alpha | 알파 |
\( B \) | \( \beta \) | beta | 베타 |
\( \Gamma \) | \( \gamma \) | gamma | 감마 |
\( \Delta \) | \( \delta \) | delta | 델타 |
\( E \) | \( \epsilon \) | epsilon | 엡실론 |
\( Z \) | \( \zeta \) | zeta | 제타 |
\( H \) | \( \eta \) | eta | 에타 |
\( \Theta \) | \( \theta \) | theta | 세타 |
\( I \) | \( \iota \) | iota | 요타 |
\( K \) | \( \kappa \) | kappa | 카파 |
\( \Lambda \) | \( \lambda \) | lambda | 람다 |
\( M \) | \( \mu \) | mu | 뮤 |
\( N \) | \( \nu \) | nu | 뉴 |
\( \Xi \) | \( \xi \) | xi | 크시 |
\( \Pi \) | \( \pi \) | pi | 파이 |
\( P \) | \( \rho \) | rho | 로 |
\( \Sigma \) | \( \sigma \) | sigma | 시그마 |
\( T \) | \( \tau \) | tau | 타우 |
\( \Upsilon \) | \( \upsilon \) | upsilon | 입실론 |
\( \Phi \) | \( \phi \) | phi | 파이 |
\( X \) | \( \chi \) | chi | 카이 |
\( \Psi \) | \( \psi \) | psi | 프사이 |
\( \Omega \) | \( \omega \) | omega | 오메가 |
수학기호
이제 논문에서 사용되는 기호들이 어떤 의미를 가지는지 확인해 보겠습니다(100% 통용되는 것은 아닐 수도 있습니다).
기호 | 의미 | 예시 |
\( a, b, c, \alpha, \beta, \gamma \) | 스칼라 | 0.1, 5, 2, -0.3 |
\( \boldsymbol {x, y, z} \) | 벡터(볼드체 소문자) | [1, 5, 8, 2, 8] |
\( \boldsymbol {A, B, C} \) | 행렬(볼드체 대문자) | \( \begin {pmatrix} x & y \\ z & y \end {pmatrix} \) |
\( \boldsymbol {x}^T , \boldsymbol {A}^T \) | 전치행렬(위 첨자 T) | |
\( < \boldsymbol {x, y} > \) | x와 y의 내적 |
|
\( \boldsymbol {x}^T y \) | x와 y의 dot product(\( \neq \)행렬곱) |
전치 행렬로 아래와 같이 정의 가능 |
\( \mathbb {Z, N, R} \) | 정수, 실수, 소수 | |
\( \mathbb {R}^n \) | 실수의 n차원의 벡터 공간 | [가로(H), 세로(W), 3(RGB)]의 이미지는 \( \mathbb {R}^{H * W * 3} \) |
\( \forall x\) | 전체 한정자(universal quantifier) - 논의영역에 속하는 모든 값을 의미 - 모든 원소에 대해 만족할 경우에만 참 |
D = {x | 0 < x <= 4, x는 양의 정수} \( P(x) \)는 \( x^2 < 10 \) \( \forall xP(x) \)는 거짓 |
\( \exists x \) | 존재 한정자(Existential Quantifier) - 논의영역에 속하는 어떤 값을 의미 - 하나라도 만족할 경우에만 참 |
D = {x | 0 < x <= 4, x는 양의 정수} \( P(x) \)는 \( x^2 < 10 \) \( \exists xP(x) \)는 참 |
\(a := b\) | a가 b로 정의된다. | 팩토리얼 예시 \( n! := 1 * 2 * ... * n \) |
\(b := a\) | b가 a로 정의된다. | 위와 동일 |
\( a ∝ b \) | a는 b에 비례한다. | a = constant * b |
\( g \circ f \) | 합성함수 | \( f(x) = 2x \), \( g(y) = y + 3 \) \( g(f(x)) = g(2x) = 2x + 3\) |
\( A \Leftrightarrow B \) | 필요충분조건( A가 참이면 B도 참이고, B가 참이면 A도 참이다.) | \( n \)이 짝수 \( \Longrightarrow \) \(n \)이 2로 나누어 떨어진다. \(n \) 이 2로 나누어 떨어진다. \( \Longrightarrow \) \( n \)이 짝수 \( n \)이 짝수 \( \Leftrightarrow \) \(n\)이 2로 나누어 떨어진다. |
\( A \Longrightarrow B\) | A가 B의 충분조건(만약 A가 참이면, 그결과 B도 참이다) | 비가오면 \( \Longrightarrow \) 거리가 젖는다. |
\( \mathcal {A, C} \) | 집합 | \( \mathcal {A} = \left\{1, 2, 3, 4, ...\right\} \) |
\( \alpha \in \mathcal {A} \) | \( \alpha \)는 \( \mathcal {A} \)의 원소이다. | \( \mathcal {A} = \left\{1, 2, 3, 4, ...\right\} \) \( 1 \in \mathcal {A} \) |
\( D \) | 차원의 수 | |
\( N \) | 데이터의 수 | |
\( I_m \) | 단위 행렬 \( m * m \) | |
\( 0_{m, n} \) | zero 행렬 \( m * n \) | |
\( 1_{m, n} \) | ones 행렬 | |
\( e_i \) | 표준 벡터(i번째 요소만 1이고 나머지는 0) |
이 벡터들은 각각 x, y, z축의 방향을 나타냄. |
\(dim \) | 벡터 공간의 차원 | |
\( tr(A) \) | 대각행렬의 합 |
|
\( det(A) \)\ | \( A \)의 행렬식 | |
\( \left| \cdot \right| \) | 절댓값 또는 행렬식 | |
\( \left| | \cdot | \right| \) | 벡터나 함수의 Norm | 흔히 사용되는 Euclidean norm |
\( \lambda \) | 고윳값 | |
\( E_{\lambda} \) | 고유공간 | |
\( \theta \) | 파라미터 벡터 | 일반적인 딥러닝 \( y = \theta_0 + \theta_1 \) 라면 \( \theta = [\theta_0, \theta_1] \) |
\( \frac { \partial {f} } { \partial {x} } \) | x에 대한 f의 편미분 | \( f(x, y) = x^2y + 3xy^2 \) \( \frac {\partial {f}} {\partial {x}} = 2xy + 3y^2 \) |
\( \frac { \operatorname{d}\!{f} } { \operatorname{d}\!{x} } \) | x에 대한 f의 전체미분 | \( f(x, y) = x^2y + 3xy^2 \) \( \frac {\partial {f}} {\partial {x}} = 2xy + 3y^2 \) \( \frac {\partial {f}} {\partial {y}} = x^2 + 6xy \) \( \operatorname{d}\!{f} = (2xy + 3y^2)dx + (x^2 + 6xy)dy \) |
\( \nabla \) | Gradient | \( f(x, y) = x^2y + 3xy^2 \) \( \frac {\partial {f}} {\partial {x}} = 2xy + 3y^2 \) \( \frac {\partial {f}} {\partial {y}} = x^2 + 6xy \) \( \nabla {f} = [ \frac {\partial {f}} {\partial {x}} , \frac {\partial {f}} {\partial {y}}] = [2xy + 3y^2, x^2 + 6xy] \) |
\( \mathcal{L} \) | Negative log-likegood | |
\( {n \choose k} \) | n개의 다른 요소중에서 k개를 선택하는 방법의 수 | |
\( \mathbb{E}_X[x] \) | 확률변수 X에 대한 변수 x의 기대값 | \( X = 1 \)일 확률이 0.2, \( X = 2 \)일 확률이 0.3, \( X = 3 \)일 확률이 0.5, \( \mathbb{E}_X[x] = 1 * 0.2 + 2*0.3 + 3*0.5 = 2.3 \) |
\( \mathbb{V}_X[x] \) | 확률변수 X에 대한 변수 x의 분산 | 위에서 구한 평균 기대값으로 분산을 계산 |
\( X \sim p \) | 랜덤 변수 X는 p에 따라 분포한다. | 주사위 눈금 예시 \(p(1) = 1/6\) \(p(2) = 1/6\) \(p(3) = 1/6\) \(p(4) = 1/6\) \(p(5) = 1/6\) \(p(6) = 1/6\) 이 의미는 주사위를 던질 때 \(X\)가 1부터 6까지의 값을 동일한 확류로 가질 것을 의미 |
\( \mathcal {N} (\mu, \Sigma) \) | 평균이 \(\mu\)이고, 분산이 \(\Sigma \)인 가우시안 분포 | \( \mathcal {N} (\mu, \Sigma) = \frac {1} {\sqrt {2\pi\sigma^2}} \cdot e^{-\frac {(x-\mu)^2} {2\sigma^2}} \) |
\( Ber(\mu) \) | 파라미터 \( \mu \)를 가진 베르누이 분포 | \( Ber(\mu) = \mu^x(1-\mu)^{(1-x)} \) |
\( Bin(N, \mu) \) | 파라미터 \( N, \mu \)를 가지는 이항분포 | \( Bin(N, \mu) = {n \choose \mu}\mu^x(1-\mu)^{(1-x)} \) |
'통계' 카테고리의 다른 글
[통계] Cross Entropy, Kullback-Leibler Divergence (0) | 2022.11.15 |
---|---|
[통계] 상호 정보량(Mutual Information) (0) | 2022.11.15 |
[통계] 결합엔트로피, 조건부엔트로피 (0) | 2022.11.15 |
[통계] 조건부확률질량함수, 조건부확률밀도함수 (0) | 2022.11.15 |
[통계] 주변확률질량함수, 주변확률밀도함수 (0) | 2022.11.15 |
댓글