본문 바로가기
통계

[딥러닝] 논문에서 많이 사용되는 수학 기호, 약어 모음집

by PIAI 2024. 1. 12.

딥러닝의 논문을 보면 엄청나게 많은 수학기호와 약어 등이 있습니다.

 

사실 제가 보려고 만든 모음집이니 편하게 봐주시길 바랍니다.

 

그리스 문자

 

먼저 수학에서 나오는 변수 이름은 그리스 문자를 많이 사용합니다. 그래서 최소한에 이것을 보고 읽을 줄은 알아야겠죠? 

다 외울필요 없습니다. 그냥 모르는 거 나왔을 때 보시면 됩니다.

 

대문자 소문자 영어 한글
\( A \) \( \alpha \) alpha  알파
\( B \) \( \beta \) beta  베타
\( \Gamma \) \( \gamma \) gamma  감마
\( \Delta \) \( \delta \) delta  델타
\( E \) \( \epsilon \) epsilon 엡실론
\( Z \) \( \zeta \) zeta  제타
\( H \) \( \eta \) eta  에타
\( \Theta \) \( \theta \) theta  세타
\( I \) \( \iota \) iota  요타
\( K \) \( \kappa \) kappa  카파
\( \Lambda \) \( \lambda \) lambda  람다
\( M \) \( \mu \) mu 
\( N \) \( \nu \) nu 
\( \Xi \) \( \xi \) xi  크시
\( \Pi \) \( \pi \) pi  파이
\( P \) \( \rho \) rho 
\( \Sigma \) \( \sigma \) sigma  시그마
\( T \) \( \tau \) tau  타우
\( \Upsilon \) \( \upsilon \) upsilon  입실론
\( \Phi \) \( \phi \) phi  파이
\( X \) \( \chi \) chi  카이
\( \Psi \) \( \psi \) psi  프사이
\( \Omega \) \( \omega \) omega  오메가

 

 

수학기호

 

이제 논문에서 사용되는 기호들이 어떤 의미를 가지는지 확인해 보겠습니다(100% 통용되는 것은 아닐 수도 있습니다).

 

기호 의미 예시
\( a, b, c, \alpha, \beta, \gamma \) 스칼라 0.1, 5, 2, -0.3
\( \boldsymbol {x, y, z} \) 벡터(볼드체 소문자) [1, 5, 8, 2, 8]
\( \boldsymbol {A, B, C} \) 행렬(볼드체 대문자) \( \begin {pmatrix} x & y \\ z & y \end {pmatrix} \)
\( \boldsymbol {x}^T , \boldsymbol {A}^T \) 전치행렬(위 첨자 T)
\( < \boldsymbol {x, y} > \) x와 y의 내적

\( \boldsymbol {x}^T y \) x와 y의 dot product(\( \neq \)행렬곱)

전치 행렬로 아래와 같이 정의 가능
\( \mathbb {Z, N, R} \) 정수, 실수, 소수  
\( \mathbb {R}^n \) 실수의 n차원의 벡터 공간 [가로(H), 세로(W), 3(RGB)]의 이미지는 \( \mathbb {R}^{H * W * 3} \)
\( \forall x\) 전체 한정자(universal quantifier)
- 논의영역에 속하는 모든 값을 의미
- 모든 원소에 대해 만족할 경우에만 참
D = {x | 0 < x <= 4, x는 양의 정수}
\( P(x) \)는 \( x^2 < 10 \)

\( \forall xP(x) \)는 거짓
\( \exists x \) 존재 한정자(Existential Quantifier)
- 논의영역에 속하는 어떤 값을 의미
- 하나라도 만족할 경우에만 참
D = {x | 0 < x <= 4, x는 양의 정수}
\( P(x) \)는 \( x^2 < 10 \)

\( \exists xP(x) \)는 참
\(a := b\) a가 b로 정의된다.  팩토리얼 예시

\( n! := 1 * 2 * ... * n \)
\(b := a\) b가 a로 정의된다. 위와 동일
\( a ∝ b \) a는 b에 비례한다. a = constant * b
\( g \circ f \) 합성함수 \( f(x) = 2x \), \( g(y) = y + 3 \)
\( g(f(x)) = g(2x) = 2x + 3\)
\( A \Leftrightarrow B \) 요충분조건( A가 참이면 B도 참이고, B가 참이면 A도 참이다.) \( n \)이 짝수 \( \Longrightarrow \) \(n \)이 2로 나누어 떨어진다. 

\(n \) 이 2로 나누어 떨어진다. \( \Longrightarrow \) \( n \)이 짝수

\( n \)이 짝수 \( \Leftrightarrow \) \(n\)이 2로 나누어 떨어진다.
\( A \Longrightarrow B\) A가 B의 충분조건(만약 A가 참이면, 그결과 B도 참이다) 비가오면 \( \Longrightarrow \) 거리가 젖는다.
\( \mathcal {A, C} \) 집합 \( \mathcal {A} = \left\{1, 2, 3, 4, ...\right\} \)
\( \alpha \in \mathcal {A} \) \( \alpha \)는 \( \mathcal {A} \)의 원소이다. \( \mathcal {A} = \left\{1, 2, 3, 4, ...\right\} \)

\( 1 \in \mathcal {A} \)
\( D \) 차원의 수  
\( N \) 데이터의 수  
\( I_m \) 단위 행렬 \( m * m \)  
\( 0_{m, n} \) zero 행렬 \( m * n \)  
\( 1_{m, n} \) ones 행렬  
\( e_i \) 표준 벡터(i번째 요소만 1이고 나머지는 0)


이 벡터들은 각각 x, y, z축의 방향을 나타냄. 
\(dim \) 벡터 공간의 차원  
\( tr(A) \) 대각행렬의 합

\( det(A) \)\ \( A \)의 행렬식
\( \left| \cdot \right| \) 절댓값 또는 행렬식  
\( \left| | \cdot | \right| \) 벡터나 함수의 Norm 흔히 사용되는 Euclidean norm

\( \lambda \) 고윳값  
\( E_{\lambda} \) 고유공간  
\( \theta \) 파라미터 벡터 일반적인 딥러닝

\( y = \theta_0 + \theta_1 \) 라면

\( \theta = [\theta_0, \theta_1] \)
\( \frac { \partial {f} } { \partial {x} } \) x에 대한 f의 편미분 \( f(x, y) = x^2y + 3xy^2 \)

\( \frac {\partial {f}} {\partial {x}} = 2xy + 3y^2 \)
\( \frac { \operatorname{d}\!{f} } { \operatorname{d}\!{x} } \) x에 대한 f의 전체미분 \( f(x, y) = x^2y + 3xy^2 \)

\( \frac {\partial {f}} {\partial {x}} = 2xy + 3y^2 \)
\( \frac {\partial {f}} {\partial {y}} = x^2 + 6xy \)

\( \operatorname{d}\!{f} = (2xy + 3y^2)dx + (x^2 + 6xy)dy \)
\( \nabla \) Gradient \( f(x, y) = x^2y + 3xy^2 \)

\( \frac {\partial {f}} {\partial {x}} = 2xy + 3y^2 \)
\( \frac {\partial {f}} {\partial {y}} = x^2 + 6xy \)

\( \nabla {f} = [ \frac {\partial {f}} {\partial {x}} , \frac {\partial {f}} {\partial {y}}] = [2xy + 3y^2, x^2 + 6xy] \)
\( \mathcal{L} \) Negative log-likegood  
\( {n \choose k} \) n개의 다른 요소중에서 k개를 선택하는 방법의 수
\( \mathbb{E}_X[x] \) 확률변수 X에 대한 변수 x의 기대값 \( X = 1 \)일 확률이 0.2,
\( X = 2 \)일 확률이 0.3,
\( X = 3 \)일 확률이 0.5,

\( \mathbb{E}_X[x] = 1 * 0.2 + 2*0.3 + 3*0.5 = 2.3 \) 
\( \mathbb{V}_X[x] \) 확률변수 X에 대한 변수 x의 분산 위에서 구한 평균 기대값으로 분산을  계산

\( X \sim p \) 랜덤 변수 X는 p에 따라 분포한다. 주사위 눈금 예시

\(p(1) = 1/6\)
\(p(2) = 1/6\)
\(p(3) = 1/6\)
\(p(4) = 1/6\)
\(p(5) = 1/6\)
\(p(6) = 1/6\)

이 의미는 주사위를 던질 때 \(X\)가 1부터 6까지의 값을 동일한 확류로 가질 것을 의미
\( \mathcal {N} (\mu, \Sigma) \) 평균이 \(\mu\)이고, 분산이 \(\Sigma \)인 가우시안 분포 \( \mathcal {N} (\mu, \Sigma) = \frac {1} {\sqrt {2\pi\sigma^2}} \cdot e^{-\frac {(x-\mu)^2} {2\sigma^2}} \)
\( Ber(\mu) \) 파라미터 \( \mu \)를 가진 베르누이 분포 \( Ber(\mu) = \mu^x(1-\mu)^{(1-x)} \)
\( Bin(N, \mu) \) 파라미터 \( N, \mu \)를 가지는 이항분포 \( Bin(N, \mu) = {n \choose \mu}\mu^x(1-\mu)^{(1-x)} \)

 

 

댓글