파이썬 머신러닝 완벽가이드 (18) 썸네일형 리스트형 5.2 LinearRegression을 이용한 보스턴 주택 가격 예측 이번 시간에는 지난 시간에 이야기했듯이 회귀 라이브러리를 이용하여 보스턴 주택 가격 예측을 진행해보도록 하겠습니다. 해당 내용은 '파이썬 머신러닝 완벽가이드'를 정리한 내용입니다. 1. LinearRegression 클래스 먼저 LinearRegression 클래스에 대해서 살펴보도록 하겠습니다. 주요 파라미터는 다음과 같습니다. fit_intercept : 회귀 모델의 절편 값을 계산할 것인지 말지를 결정 normalize : 입력 데이터 세트를 정규화할 것인지 결정 coef_ : 회귀 계수가 배열 형태로 저장 intercept_ : intercept 값 LinearRegression 클래스와 같은 Ordinary Least Squares 기반의 회귀 모델은 입력 피처의 독립성에 영향을 많이 받습니다... 5.1 회귀와 경사하강법 그동안 머신러닝의 중요한 축인 분류에 대하여 학습하느라 다들 너무 수고 많으셨습니다. 이번 시간부터는 머신러닝의 또 다른 중요한 축인 '회귀'에 대해 배워보도록 하겠습니다. 집중해서 잘 따라와주세요~ 해당 내용은 '파이썬 머신러닝 완벽 가이드'를 정리한 내용입니다. 1. 회귀 먼저 회귀의 정의에 대해 살펴보겠습니다. 회귀랑 통계학에서 사용되기 시작한 말로, 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링한 기법을 통치합니다. 예를 들어 아파트 가격이라는 종속 변수와 아파트 위치, 방의 개수, 방의 크기 등 독립 변수 간의 상관관계를 나타낸 것이 회귀입니다. 이를 선형 회귀로 표현하면 Y = W1*X1 + W2*X2 + W3*X3 W1*X1와 같이 표현할 수 있습니다. 독립 변수와 종속 변수.. 4.7 캐글 신용카드 사기 검출 자! 이번 시간에는 이전 포스팅에서 예고했듯이 '캐글 신용카드 사기 검출'에 대한 실습을 진행해보도록 하겠습니다. 다양한 전처리 기법을 익혀보는 시간이 될 것입니다. 바로 시작하겠습니다. 해당 내용은 '파이썬 머신러닝 완벽 가이드'를 정리한 내용입니다. 항상 해왔듯 이 먼저 데이터셋을 확인해보도록 하겠습니다. 해당 데이터 셋은 0.172%만 사기 트랜젝션인 데이터셋입니다. 따라서 재현율이 무척 중요한 평가지표로 사용될 예정입니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import warnings warnings.filterwarnings("ignore") %matplotlib inline card_df = pd.re.. 4.6 산타데르 은행 고객 만족도 데이터셋 실습 지금까지 배운 XGboost, LightGBM을 이용하여 산타데르 은행 고객 만족도 데이터셋 분석을 해보도록 하겠습니다. 해당 내용은 '파이썬 머신러닝 완벽 가이드'를 정리한 내용입니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib cust_df = pd.read_csv("./train_santander.csv",encoding='latin-1') cust_df.info() 먼저 '산타데르 은행 고객 만족도 데이터셋의 속성을 살펴보겠습니다. 총 371개의 속성으로 이루어져 있으며 가장 마지막 행은 'Target'으로 1이면 불만족, 0이면 만족을 의미합니다. RangeIndex: 76020 .. 4.5 LightGBM 실습 LightGBM 역시 파이썬 기반과 사이킷런 기반 두 종류가 있습니다. 하지만 자주 사용되는 사이킷런 기반 LightGBM에 대하여 실습을 진행해보도록 하겠습니다. 데이터는 위스콘신 유방암 예측 데이터셋을 사용해보도록 하겠습니다. # LightGBM의 파이썬 패키지인 lightgbm에서 LGBMClassifier 임포트 from lightgbm import LGBMClassifier import pandas as pd import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split dataset = load_breast_cancer() ftr = datas.. 4.5 XGboost 실습 XGboost는 파이썬 기반과 사이킷런 기반 두 종류를 제공합니다. 하지만 해당 포스팅에서는 앞으로 자주 사용할 사이킷런 기반 XGboost에 대해서만 실습을 진행해보도록 하겠습니다. 데이터셋으로는 예전에 사용했던 위스콘시 암 데이터를 사용하였습니다. 우선 데이터를 분석해보도록 하겠습니다. # 사이킷런 래퍼 XGboost from xgboost import XGBClassifier from xgboost import plot_importance import pandas as pd import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split import .. 4.5 앙상블(부스팅) 이번 시간에는 앙상블 기법 중 부스팅에 대하여 다뤄보도록 하겠습니다. 해당 내용은 '파이썬 머신러닝 완벽 가이드'를 정리한 내용입니다. 1. 부스팅 알고리즘 부스팅 알고리즘 : 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방법 2. 에이다 부스트(AdaBoost) 에이다 부스트 : 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 알고리즘 위의 사진을 보면서 에이다 부스트의 수행 방법을 살펴보겠습니다. 1. 첫 번째 약한 학습기를 통해 분류 2. 오류 데이터에 대하여 가중치 부여 3. 다음 약한 학습기를 통해 분류 4. 위 과정을 반복 후 각 분류 기준에 대하여 가중치를 부여하여 결합하여 예측 수행.. 4.4 앙상블 학습(배깅) 이번 시간에는 앙상블 기법 중 배깅에 대하여 다뤄보도록 하겠습니다. 해당 내용은 '파이썬 머신러닝 완벽 가이드'를 정리한 내용입니다. 1. 배깅(Bagging) 배깅 : 같은 알고리즘으로 여러 개의 분류기를 만들어서 보팅으로 최종 결정하는 알고리즘 가장 대표적인 알고리즘으로 랜덤 포레스트가 있음 2. 랜덤 포레스트 랜덤포레스트는 결정 트리 기반의 알고리즘으로 결정 트리의 쉽고 직관적인 장점을 그대로 갖고 있으며, 수행 속도가 비교적 빠릅니다. 하지만 트리 기반의 앙상블 기법으로 하이퍼 파라미터를 튜닝 하더라도 예측성능이 크게 향상 되지 않는다는 단점이 있습니다. 랜덤 포레스트의 개별 분류기는 학습 데이터의 샘플 데이터를 학습합니다. 이때 샘플 데이터를 부트스트래핑(bootstrapping)방식으로 분할합.. 이전 1 2 3 다음