본문 바로가기

전체 글118

2. 교차검증 (Cross-Validation) Index 교차검증은 과적합(Overfitting : 학습데이터에만 과도하게 최적화되어 다른 데이터 셋에는 정합성이 안맞는 현상)을 방지하기 위하여, '테스트 이전에' 여러 세트로 구성된 학습-검증 데이터 세트를 교차로 학습-검증하여  모델을 최적화 하는 과정이다 . 예측 모델의 유연성을 확보하는 과정이라고 할 수 있다.  학습 → 테스트 로 바로 가지 않고, 학습 → 검증 →테스트로 거쳐서 간다. 검증결과를 가지고 실제 테스트(예측) 이전에 하이퍼 파라미터 튜닝을 진행한다. (최적화) ● K-Fold 교차검증데이터셋을 k 개로 분리하여, 한개씩 검증 세트로 번갈아가면서 쓰면서 k번 평가한 뒤, k개의 평가값 평균을 최종 평가값으로 계산하여 모델을 검증하는 방식. 구현 코드는 아래와 같다. (물론 아래 .. 2023. 5. 26.
1. 머신러닝 개요 Index개요머신러닝은 크게 지도학습(Supervised) 과 비지도학습(Unspervised) 으로 구분된다. 지도학습은 Label(=Target) 즉, 정답이 있는 데이터를 학습하는 과정이고, 비지도 학습은 반대로 Label 이 없는 데이터로 학습/예측을 진행하는 과정지도학습은 Target 데이터의 형식에 따라, Categorical 데이터를 학습할때는 Classification(분류) / Continuous 데이터를 학습할때는 Regression(회귀) 문제로 구분한다. (분류이든, 회귀이든 학습모델을 Estimator 라고 부른다)  머신러닝의 구현은 주로 Python 의 Scikit Learn (sklearn) 라이브러리를 활용한다. 머신러닝에 사용되는 데이터는 크게 두가지 ①예측대상(Targe.. 2023. 5. 26.
Pandas 기본 활용법 Pandas는 DataFrame, Series 형태의 객체로 데이터를 읽고 쓰고 분석하기 위한 중요한 라이브러리이다. Index  파일 불러오기 (csv → DataFrame) titanic_df = pd.read_csv('titanic_train.csv') # 같은 디렉토리 csv_test = pd.read_csv('C:/Users/Administrator/Documents/Python/test_csv_file.csv') #다른 디렉토리titanic_df.head(3)titanic_df['Pclass'].value_counts() # 지정된 칼럽의 데이터 값 별 건수를 반환, NULL 개수까지 새려면 dropna=Fatitanic_df['Pclass'] # 특정 컬럼으로 선정하면 Series 타입이.. 2023. 5. 26.
Numpy 기본 함수 및 연산 Numpy는 파이썬에서 배열(array)이라는 객체를 만들고, 이를 통한 선형대수 및 통계 연산을 하는데 매우 유용한 라이브러리이다. Index배열 혹은 행렬을 만드는 예시 array1 = np.array([1,2,3]) #array 함수는 입력된 객체를 Numpy 배열 형식으로 반환하는 함수print('array1 type:',type(array1)) # array 의 type 은 "numpy.ndarray" 이다. print('array1 array 형태:',array1.shape) # 반환값 (3,)array3 = np.array([[1,2,3]])print('array2 type:',type(array3))print('array2 array 형태:',array3.shape) # 반환값 (1,3)a.. 2023. 5. 26.