본문 바로가기

Study/DL

Deep Neural Network, Perceptron, MLP

by 까망우동 2023. 6. 28.

Index

딥러닝은 머신러닝에 속하는 개념으로, (Deep) Neural Network 를 기반으로 한 학습모델이다. 많은 layer를 progressive하게 학습시켜 high level feature를 뽑아내기 때문에, 일반적으로 머신러닝 대비해서 훨씬 큰 사이즈의 데이터로 학습할때 성능이 좋고, 다만 많은 layer와 node로 인해 black box와 같이 어떻게 결론에 도달했는지 해석력이 부족한 단점이 있다.

Perceptron

딥러닝의 기본이 되는 Neural Network는 인간의 신경망 구조모양을 본떠만든 Perceptron으로 시작
input node(x)에 weight(w)를 곱하고 bias(b)를 더한 선형결합에 nonlinear한 activation function(활성화 함수)을 씌워 output을 만드는 구조이다. 뒤에 다루겠지만 활성화함수가 linear하면 layer를 여러개 쌓는 의미가 없게된다.

Perceptron 구조

MLP (Multi-Layer-Perceptron)

단층 Perceptron으로는 선형적인 문제만 풀 수 있기때문에 여러개 Layer를 쌓아 MLP를 만든다.
MLP는 크게 input - hidden - output layer 로 구성되어있으며 hidden layer 의 개수가 많을수록 deep하다고 표현한다
Deep한 모델일 수록, 뒤의 layer로 갈수록 feature의 퀄리티가 높다.
'Node'는 layer에 있는 각각의 뉴런들이고, inputs을 w,b로 선형결합하고 활성화함수를 취하는 '객체'이다. 그리고 'Feature'는 node로 부터 계산된 결과값이다. (두개 용어는 혼용되기도 함)
Activation function으로는 주로 Sigmoid가 사용되는데 nonlinear 하면서 differentiable 하여 backpropagation 하기에 용이하기 때문이다.

hidden layer(은닉층)과는 다르게, 마지막 output layer에는 Softmax 함수가 사용되는데, 이는 실제 확률을 의미하는건 아니지만 확률과 비슷하게 ouput node들이 전부 0~1사이의 값을 가지면서 합이 1이 되게 해준다.
Softmax 의 input으로 사용되는 Z값은 보통 logit이라고 부른다. logit은 sigmoid의 역함수 모양으로 [-∞,∞] 범위의 값이다.

저작자표시

'Study > DL' 카테고리의 다른 글

CNN - 1편 (CNN의 구조) (0)	2023.06.29
Dropout 과 Batch Normalization (0)	2023.06.29
활성화함수(Activation function)와 Optimizer (0)	2023.06.29
역전파(Backpropagation)와 Vanishing gradient (0)	2023.06.29
비용함수(Cost function)와 경사하강법(Gradient Descent) (0)	2023.06.29

댓글

티스토리툴바