본문 바로가기
Study

terms, concept

by 까망우동 2023. 4. 12.
반응형

Latent variable직접적으로 관찰되거나 측정되지는 않지만 다양한 변수들로 부터 유추되는(숨겨져있는) 변수를 variable 이 latent 하다고 표현. 여러가지 관찰변수 간의 복잡한 관계를 포착하고 데이터의 차원을 줄이기위해 사용. 지능은 관찰 불가능하지만 IQ, 성적 등을 통해 유추가능한 latent var

 

Explanatory variable: latent variable 처럼 서로다른 변수간에 관계를 설명하는데 사용되지만 관찰가능한 변수. 연령은 소득,건강과 같은 변수에 대한 explanatory var 

 

Covariate(공변량)종속변수에 대해 독립변수와 기타 잡음인자들이 공유하는 변량. 변수,독립변수(x) 그보다는 하나의 개념으로 여러 변수들이 공통적으로 공유하고 있는 변량. 공변량이 종속변수에 영향을 미친다면 통제해야 독립변수의 영향성을 명확하게 규명할 수 있다. 

 

★ 변수정리 :  여러가지 이름의 변수를 독립/종속 관점에서는 아래와 같이 동의어로 정의할 수 있다. 

 

 

Parametric ↔ Non-parametric model : 데이터 분포에 대해 가정하는 모델. 고정된 수의 매개변수를 러닝을 통해서 추정. 예를들어 linear regression, logistic regression.. , 반면 Nonparametric(비모수적 모델)은 데이터 분포에 대한 어떠한 가정도 없이 parameter 의 수도 데이터에 의해 결정되는 모델. 예를들어 Decision tree, random forest, KNN 등..

비모수적 모델이 flesibility 가 높고 더 넓은 범위의 데이터를 처리할 수 있지만, computational 부하가 크고, 많은 양의 데이터가 필요하다. 

 

 

Loss function (손실함수): 실제 y 값 대비, 가정한 모델의 추정값 y hat 이 얼마나 잘 예측했는지 SE, AE 등.. 

 

Cost function (비용함수) : 알고리즘에서 최적화는 비용함수의 값이 가장 작아지는 최적의 파라미터를 찾는 과정. MSE, MAE 와 같이 Loss function 의 평균으로 정의되곤함. Cost function 의 최소값을 찾는 과정으로 Gradient Descent 등이 사용됨. 

 

※ 뛰어난 알고리즘일수록 파라미터 튜닝할 필요가 적고, 튜닝에 들이는 공수대비 향상 효과가 높지 않다. 

 

정보의 균일도 :   서로다른 class 의 데이터가 많이 섞여있을 수록 정보의 규일도는 낮다. Classification 모델 특히 Decision Tree 계열의 모델은 정보의 균일도가 큰 방향으로 Decision 내린다. 

반응형

'Study' 카테고리의 다른 글

WSE  (2) 2024.09.27

댓글