본문 바로가기

전체 글

(74)
5.1 회귀와 경사하강법 그동안 머신러닝의 중요한 축인 분류에 대하여 학습하느라 다들 너무 수고 많으셨습니다. 이번 시간부터는 머신러닝의 또 다른 중요한 축인 '회귀'에 대해 배워보도록 하겠습니다. 집중해서 잘 따라와주세요~ 해당 내용은 '파이썬 머신러닝 완벽 가이드'를 정리한 내용입니다. 1. 회귀 먼저 회귀의 정의에 대해 살펴보겠습니다. 회귀랑 통계학에서 사용되기 시작한 말로, 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링한 기법을 통치합니다. 예를 들어 아파트 가격이라는 종속 변수와 아파트 위치, 방의 개수, 방의 크기 등 독립 변수 간의 상관관계를 나타낸 것이 회귀입니다. 이를 선형 회귀로 표현하면 Y = W1*X1 + W2*X2 + W3*X3 W1*X1와 같이 표현할 수 있습니다. 독립 변수와 종속 변수..
4.7 캐글 신용카드 사기 검출 자! 이번 시간에는 이전 포스팅에서 예고했듯이 '캐글 신용카드 사기 검출'에 대한 실습을 진행해보도록 하겠습니다. 다양한 전처리 기법을 익혀보는 시간이 될 것입니다. 바로 시작하겠습니다. 해당 내용은 '파이썬 머신러닝 완벽 가이드'를 정리한 내용입니다. 항상 해왔듯 이 먼저 데이터셋을 확인해보도록 하겠습니다. 해당 데이터 셋은 0.172%만 사기 트랜젝션인 데이터셋입니다. 따라서 재현율이 무척 중요한 평가지표로 사용될 예정입니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import warnings warnings.filterwarnings("ignore") %matplotlib inline card_df = pd.re..
4.6 산타데르 은행 고객 만족도 데이터셋 실습 지금까지 배운 XGboost, LightGBM을 이용하여 산타데르 은행 고객 만족도 데이터셋 분석을 해보도록 하겠습니다. 해당 내용은 '파이썬 머신러닝 완벽 가이드'를 정리한 내용입니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib cust_df = pd.read_csv("./train_santander.csv",encoding='latin-1') cust_df.info() 먼저 '산타데르 은행 고객 만족도 데이터셋의 속성을 살펴보겠습니다. 총 371개의 속성으로 이루어져 있으며 가장 마지막 행은 'Target'으로 1이면 불만족, 0이면 만족을 의미합니다. RangeIndex: 76020 ..
4.5 LightGBM 실습 LightGBM 역시 파이썬 기반과 사이킷런 기반 두 종류가 있습니다. 하지만 자주 사용되는 사이킷런 기반 LightGBM에 대하여 실습을 진행해보도록 하겠습니다. 데이터는 위스콘신 유방암 예측 데이터셋을 사용해보도록 하겠습니다. # LightGBM의 파이썬 패키지인 lightgbm에서 LGBMClassifier 임포트 from lightgbm import LGBMClassifier import pandas as pd import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split dataset = load_breast_cancer() ftr = datas..
4.5 XGboost 실습 XGboost는 파이썬 기반과 사이킷런 기반 두 종류를 제공합니다. 하지만 해당 포스팅에서는 앞으로 자주 사용할 사이킷런 기반 XGboost에 대해서만 실습을 진행해보도록 하겠습니다. 데이터셋으로는 예전에 사용했던 위스콘시 암 데이터를 사용하였습니다. 우선 데이터를 분석해보도록 하겠습니다. # 사이킷런 래퍼 XGboost from xgboost import XGBClassifier from xgboost import plot_importance import pandas as pd import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split import ..
4.5 앙상블(부스팅) 이번 시간에는 앙상블 기법 중 부스팅에 대하여 다뤄보도록 하겠습니다. 해당 내용은 '파이썬 머신러닝 완벽 가이드'를 정리한 내용입니다. 1. 부스팅 알고리즘 부스팅 알고리즘 : 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방법 2. 에이다 부스트(AdaBoost) 에이다 부스트 : 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 알고리즘 위의 사진을 보면서 에이다 부스트의 수행 방법을 살펴보겠습니다. 1. 첫 번째 약한 학습기를 통해 분류 2. 오류 데이터에 대하여 가중치 부여 3. 다음 약한 학습기를 통해 분류 4. 위 과정을 반복 후 각 분류 기준에 대하여 가중치를 부여하여 결합하여 예측 수행..
정현종 - 방문객 방문객 사람이 온다는 건 사실은 어마어마한 일이다 그는 그의 과거와 현재와 그리고 그의 미래와 함께 오기 때문이다 한 사람의 일생이 오기 때문이다 부서지기 쉬운 그래서 부서지기도 했을 마음이 오는 것이다 그 갈피를 아마 바람은 더듬어 볼 수 있을 마음. 내 마음이 그런 바람을 흉내 낼 수 있다면 필경 환대가 될 것이다. 2021년 한 해가 또 이렇게 마무리되었다. 한 해 동안 너무나도 많은 소중한 사람들을 만났고, 그런 수많은 사람들과 나의 삶을 나눌 수 있어서 너무 행복한 한 해였다. 비록 그 어느 해보다 고민도 많고 생각도 많고 힘든 한 해였지만 그만큼 얻은 것도 매우 많은 한해라고 생각하고 싶다. 2022년은 나에게 있어서 그 어느 해보다도 중요한 해이다. 나를 돌아보고 나의 삶을 돌아보고 온전히 ..
박노해 - 경계 경계 과거를 팔아 오늘을 살지 말 것, 현실이 미래를 잡아먹지 말 것, 미래를 말하며 과거를 묻어버리거나 미래를 내세워 오늘 할 일을 흐르지 말 것 최근 본 시 중에 나에게 가장 울림이 있는 시였다. 난 성장 욕구가 굉장히 강한 사람이다. 그래서 어떤 일을 하더라도 내가 지금 하는게 미래에 이런 일을 하는데 도움이 될까 고민하고 하고싶은 것들 중에서도 고르고 골라 어떤걸 하다가도 이게 맞나 또 고민하고, 결국 항상 미래에 대한 시뮬레이션만 돌리고 결국 지쳐버리고 말았다. 그렇게 항상 나에게 다가올 미래에 대해서만 생각하면 살아왔다. 그러던 어느날 누군가 나에게 '그냥 해보면 되지'라는 말을 해주셨다. 그렇다. 그냥 해보면 된다. 근데 난 그동안 이 말의 뜻을 알지 못했다. 그냥 해본다는거? 그게 가능한걸..

728x90
반응형