본문 바로가기

전체 글111

Deep Neural Network, Perceptron, MLP Index딥러닝은 머신러닝에 속하는 개념으로, (Deep) Neural Network 를 기반으로 한 학습모델이다. 많은 layer를 progressive하게 학습시켜 high level feature를 뽑아내기 때문에, 일반적으로 머신러닝 대비해서 훨씬 큰 사이즈의 데이터로 학습할때 성능이 좋고, 다만 많은 layer와 node로 인해 black box와 같이 어떻게 결론에 도달했는지 해석력이 부족한 단점이 있다.  Perceptron딥러닝의 기본이 되는 Neural Network는 인간의 신경망 구조모양을 본떠만든 Perceptron으로 시작input node(x)에 weight(w)를 곱하고 bias(b)를 더한 선형결합에 nonlinear한 activation function(활성화 함수)을 씌워.. 2023. 6. 28.
예측모델 실습 (mercari제품가격 예측) Index 제품가격 예측모델 코드 실습.price 를 예측하는 회귀문제이지만, 비정형의 텍스트 형태 피쳐가 포함된 데이터셋이다.데이터의 전처리부터, 예측모델 학습, 평가까지 전반적인 프로세스 흐름을 만들어본다.  (출처 - 파이썬 머신러닝 완벽가이드) 1. 데이터 탐색(EDA) & 전처리 데이터 불러오기. price 가 타겟이고, 나머지 7개 피처중에 4개정도가 비정형의 텍스트형 피쳐다. from sklearn.linear_model import Ridge , LogisticRegressionfrom sklearn.model_selection import train_test_split , cross_val_scorefrom sklearn.feature_extraction.text import CountV.. 2023. 6. 22.
12. 군집화(Clustering) Index군집분석은 대표적인 머신러닝의 비지도 학습이다. 머신러닝의 분류/회귀와 같이 직접적인 예측을 수행하는 알고리즘은 아니지만, 데이터의 탐색단계 (EDA)에서 데이터간의 군집/패턴등을 시각화하고 이해하는데 유용하고 (이상탐지에도 쓰일 수 있겠다) 전처리 단계에서도 사용될 수 있는데, 예를들어 데이터셋이 우리가 알지 못했던 명확한 특성을 가진 몇가지 군집으로 분류된다면 각 군집별로 개별적인 머신러닝/딥러닝 모델을 학습시키는게 효율적일 수 있다. 이번 포스팅에서는 Clustering의 대표적인 모델  4가지에 대해서, 그리고 정답이 따로 없는 군집화 모델들에 대한 평가 방법에 대해 정리한다. 군집화의 대표적인 모델  1. K-means Clustering 군집화의 가장 대표적이고 간결한 알고리즘군집의 .. 2023. 6. 5.
11. 차원축소(PCA,LDA,SVD) Index● 차원축소 개요 차원의 저주(Curse of Dimensionality): 데이터의 차원이 너무 크면 모델을 학습하는데 여러가지 문제점이 있을수 있다.데이터간의 거리가 기하적으로 멀어지며 희소(sparse)한 구조를 갖게된다. 따라서 데이터 거리기반의 알고리즘 (KNN, SVM)에 부적합해지며, 과적합의 위험성도 커지고 계산속도도 저하된다. 피쳐가 많다는 의미는 그만큼 다중공선성(multi-collinearity) 문제가 발생할 경향이 크다. 이러한 이유로 우리는 고차원 데이터에 대해, 전처리 과정 중 하나로 차원축소를 진행하는데, 방법은 크게 두가지이다. Feature Selection : 특정 피처에 종속성이 강한 불필요한 피처는 제거하고 독립적인 피처들만 선택Feature Extracti.. 2023. 6. 1.