XGBoost (3) 썸네일형 리스트형 4.6 산타데르 은행 고객 만족도 데이터셋 실습 지금까지 배운 XGboost, LightGBM을 이용하여 산타데르 은행 고객 만족도 데이터셋 분석을 해보도록 하겠습니다. 해당 내용은 '파이썬 머신러닝 완벽 가이드'를 정리한 내용입니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib cust_df = pd.read_csv("./train_santander.csv",encoding='latin-1') cust_df.info() 먼저 '산타데르 은행 고객 만족도 데이터셋의 속성을 살펴보겠습니다. 총 371개의 속성으로 이루어져 있으며 가장 마지막 행은 'Target'으로 1이면 불만족, 0이면 만족을 의미합니다. RangeIndex: 76020 .. 4.5 XGboost 실습 XGboost는 파이썬 기반과 사이킷런 기반 두 종류를 제공합니다. 하지만 해당 포스팅에서는 앞으로 자주 사용할 사이킷런 기반 XGboost에 대해서만 실습을 진행해보도록 하겠습니다. 데이터셋으로는 예전에 사용했던 위스콘시 암 데이터를 사용하였습니다. 우선 데이터를 분석해보도록 하겠습니다. # 사이킷런 래퍼 XGboost from xgboost import XGBClassifier from xgboost import plot_importance import pandas as pd import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split import .. 4.5 앙상블(부스팅) 이번 시간에는 앙상블 기법 중 부스팅에 대하여 다뤄보도록 하겠습니다. 해당 내용은 '파이썬 머신러닝 완벽 가이드'를 정리한 내용입니다. 1. 부스팅 알고리즘 부스팅 알고리즘 : 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방법 2. 에이다 부스트(AdaBoost) 에이다 부스트 : 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 알고리즘 위의 사진을 보면서 에이다 부스트의 수행 방법을 살펴보겠습니다. 1. 첫 번째 약한 학습기를 통해 분류 2. 오류 데이터에 대하여 가중치 부여 3. 다음 약한 학습기를 통해 분류 4. 위 과정을 반복 후 각 분류 기준에 대하여 가중치를 부여하여 결합하여 예측 수행.. 이전 1 다음