본문 바로가기

전체 글111

3. 데이터의 전처리 (Pre-processing) Index활용하고자 하는 데이터를 EDA 등의 과정을 통해 탐색하고 이해했다면, 이 데이터를 기계학습 모델에 사용하기 적합하도록 데이터의 질을 높여주는 과정이 전처리(Pre-processing) 이다.기본적인 전처리 과정에는 Noise 혹은 Null 값처리, 인코딩(Encoding), 스케일링(Scaling) 및 정규화(Normalization) 과정 등이 있다. PCA 등의 차원축소 기법, Feature Selection 및 Extraction 등에 대해서는 후속 포스팅에서 정리하겠다.  1. 데이터 인코딩 (Encoding) 데이터 인코딩은 기계학습에서 활용할 알고리즘에 적합한 형태로 데이터를 변환하는 것을 의미하며, 대게는 문자형/범주형 데이터를 숫자형으로 변환하는 과정을 말한다.   1-1.  레.. 2023. 5. 27.
2. 교차검증 (Cross-Validation) Index 교차검증은 과적합(Overfitting : 학습데이터에만 과도하게 최적화되어 다른 데이터 셋에는 정합성이 안맞는 현상)을 방지하기 위하여, '테스트 이전에' 여러 세트로 구성된 학습-검증 데이터 세트를 교차로 학습-검증하여  모델을 최적화 하는 과정이다 . 예측 모델의 유연성을 확보하는 과정이라고 할 수 있다.  학습 → 테스트 로 바로 가지 않고, 학습 → 검증 →테스트로 거쳐서 간다. 검증결과를 가지고 실제 테스트(예측) 이전에 하이퍼 파라미터 튜닝을 진행한다. (최적화) ● K-Fold 교차검증데이터셋을 k 개로 분리하여, 한개씩 검증 세트로 번갈아가면서 쓰면서 k번 평가한 뒤, k개의 평가값 평균을 최종 평가값으로 계산하여 모델을 검증하는 방식. 구현 코드는 아래와 같다. (물론 아래 .. 2023. 5. 26.
1. 머신러닝 개요 Index개요머신러닝은 크게 지도학습(Supervised) 과 비지도학습(Unspervised) 으로 구분된다. 지도학습은 Label(=Target) 즉, 정답이 있는 데이터를 학습하는 과정이고, 비지도 학습은 반대로 Label 이 없는 데이터로 학습/예측을 진행하는 과정지도학습은 Target 데이터의 형식에 따라, Categorical 데이터를 학습할때는 Classification(분류) / Continuous 데이터를 학습할때는 Regression(회귀) 문제로 구분한다. (분류이든, 회귀이든 학습모델을 Estimator 라고 부른다)  머신러닝의 구현은 주로 Python 의 Scikit Learn (sklearn) 라이브러리를 활용한다. 머신러닝에 사용되는 데이터는 크게 두가지 ①예측대상(Targe.. 2023. 5. 26.
Pandas 기본 활용법 Pandas는 DataFrame, Series 형태의 객체로 데이터를 읽고 쓰고 분석하기 위한 중요한 라이브러리이다. Index  파일 불러오기 (csv → DataFrame) titanic_df = pd.read_csv('titanic_train.csv') # 같은 디렉토리 csv_test = pd.read_csv('C:/Users/Administrator/Documents/Python/test_csv_file.csv') #다른 디렉토리titanic_df.head(3)titanic_df['Pclass'].value_counts() # 지정된 칼럽의 데이터 값 별 건수를 반환, NULL 개수까지 새려면 dropna=Fatitanic_df['Pclass'] # 특정 컬럼으로 선정하면 Series 타입이.. 2023. 5. 26.