Latent variable: 직접적으로 관찰되거나 측정되지는 않지만 다양한 변수들로 부터 유추되는(숨겨져있는) 변수를 variable 이 latent 하다고 표현. 여러가지 관찰변수 간의 복잡한 관계를 포착하고 데이터의 차원을 줄이기위해 사용. 지능은 관찰 불가능하지만 IQ, 성적 등을 통해 유추가능한 latent var
Explanatory variable: latent variable 처럼 서로다른 변수간에 관계를 설명하는데 사용되지만 관찰가능한 변수. 연령은 소득,건강과 같은 변수에 대한 explanatory var
Covariate(공변량): 종속변수에 대해 독립변수와 기타 잡음인자들이 공유하는 변량. 변수,독립변수(x) 그보다는 하나의 개념으로 여러 변수들이 공통적으로 공유하고 있는 변량. 공변량이 종속변수에 영향을 미친다면 통제해야 독립변수의 영향성을 명확하게 규명할 수 있다.
★ 변수정리 : 여러가지 이름의 변수를 독립/종속 관점에서는 아래와 같이 동의어로 정의할 수 있다.
Parametric ↔ Non-parametric model : 데이터 분포에 대해 가정하는 모델. 고정된 수의 매개변수를 러닝을 통해서 추정. 예를들어 linear regression, logistic regression.. , 반면 Nonparametric(비모수적 모델)은 데이터 분포에 대한 어떠한 가정도 없이 parameter 의 수도 데이터에 의해 결정되는 모델. 예를들어 Decision tree, random forest, KNN 등..
비모수적 모델이 flesibility 가 높고 더 넓은 범위의 데이터를 처리할 수 있지만, computational 부하가 크고, 많은 양의 데이터가 필요하다.
Loss function (손실함수): 실제 y 값 대비, 가정한 모델의 추정값 y hat 이 얼마나 잘 예측했는지 SE, AE 등..
Cost function (비용함수) : 알고리즘에서 최적화는 비용함수의 값이 가장 작아지는 최적의 파라미터를 찾는 과정. MSE, MAE 와 같이 Loss function 의 평균으로 정의되곤함. Cost function 의 최소값을 찾는 과정으로 Gradient Descent 등이 사용됨.
※ 뛰어난 알고리즘일수록 파라미터 튜닝할 필요가 적고, 튜닝에 들이는 공수대비 향상 효과가 높지 않다.
정보의 균일도 : 서로다른 class 의 데이터가 많이 섞여있을 수록 정보의 규일도는 낮다. Classification 모델 특히 Decision Tree 계열의 모델은 정보의 균일도가 큰 방향으로 Decision 내린다.
댓글