Tech Trail

[AI] 머신러닝 알고리즘(2): Ensemble 기법, XGBoost, LightGBM 본문

AI/Machine Learning

[AI] 머신러닝 알고리즘(2): Ensemble 기법, XGBoost, LightGBM

_밍지_ 2023. 11. 19. 00:05
728x90
반응형
SMALL

Ensemble (앙상블): 여러 개의 분류기를 결합하여 보다 정확한 예측을 얻는 머신러닝 기법입니다. 이를 통해 약한 모델을 조합하여 높은 예측 정확도를 달성할 수 있으며, 적절한 Hyperparameter 튜닝이 필요합니다.

Ensemble 기법

  1. Boosting: 이전 학습에 대하여 잘못 예측된 데이터에 가중치를 부여하여 오차를 보완하는 방식으로, 대표 모델로 XGBoost, LightGBM이 있습니다. 순차적인 학습을 통해 오차를 보완하지만 학습 시간이 길 수 있습니다.
  2. Stacking: 여러 모델이 예측한 결과 데이터를 기반으로 최종 예측을 수행하는 방식입니다. 이를 통해 성능은 향상될 수 있지만 과대적합을 유발할 수 있습니다.
  3. Weighted Blending: 각 모델의 예측값에 가중치를 곱하여 최종 결과를 계산하는 방식으로, 가중치의 합은 1.0이 되도록 합니다.

 

Ensemble 대표 모델

XGBoost

대표적인 Boosting 기반의 알고리즘으로, 높은 예측 성능을 제공합니다. 아래는 XGBoost를 활용한 예제 코드입니다.

!pip install xgboost
from xgboost import XGBClassifier
model = XGBClassifier(n_estimators=50)
model.fit(X_train, y_train)
pred = model.predict(X_test)

 

LightGBM

또 다른 Boosting 알고리즘인 LightGBM은 빠른 학습과 높은 예측 성능을 특징으로 합니다. 아래는 LightGBM을 활용한 예제 코드입니다.

!pip install lightgbm
from lightgbm import LGBMClassifier
model = LGBMClassifier(n_estimators=50)
model.fit(X_train, y_train)
pred = model.predict(X_test)

 


 

머신러닝 정리

1. 기본 개념: 머신러닝은 데이터를 기반으로 최적의 예측을 수행하는 방법입니다. 이는 데이터와 모델 사이의 오차를 최소화하려는 목표로 Cost Function과 경사하강법(Gradient Descent)을 활용합니다.

2. 기술 원리

  • 지도 학습 vs. 비지도 학습: 지도 학습은 레이블된 데이터를 사용하여 모델을 훈련하고, 비지도 학습은 레이블 없는 데이터로부터 구조나 패턴을 발견합니다.
  • 회귀와 분류: 회귀는 연속적인 값을 예측하는 작업이며, 분류는 주어진 데이터를 여러 클래스 중 하나로 분류하는 작업입니다.
  • 데이터 확보 및 전처리: 데이터 수집과 전처리는 머신러닝의 핵심 단계로, 데이터의 품질과 양에 따라 모델의 성능이 크게 좌우됩니다.
  • 모델 성능 지표: 모델의 성능은 정확도, 정밀도, 재현율, F1 점수 등과 같은 지표로 평가되며, 이러한 지표를 통해 모델의 품질을 측정합니다.

3. 주요 알고리즘: 여러 머신러닝 알고리즘 중에서 몇 가지 주요 알고리즘은 다음과 같습니다.

  • 선형 회귀 (Linear Regression): 연속적인 출력 변수를 예측하는데 사용되며, 데이터를 가장 잘 설명하는 선을 찾습니다.
  • 로지스틱 회귀 (Logistic Regression): 이진 분류 문제를 위한 알고리즘으로 로지스틱 함수를 사용하여 확률 값을 예측합니다.
  • 결정 트리 (Decision Tree): 분류 및 회귀 작업을 위해 사용되며, 데이터를 나무 구조로 모델링합니다.
  • LightGBM 및 XGBoost: 경쟁력 있는 성능을 가지는 그래디언트 부스팅 기반의 알고리즘으로, 복잡한 데이터와 대규모 데이터셋에서 사용됩니다.
  • 랜덤 포레스트 (Random Forest): 다수의 결정 트리 모델을 결합하여 예측을 수행하며, 예측 성능을 향상시키는데 사용됩니다.
728x90
반응형
LIST