[ML] 데이터 스케일링(Data Scaling) 종류 비교

1. 스케일링이란?

머신러닝 알고리즘이 변수의 단위와 크기에 영향을 받지 않도록 조정
모델의 학습 속도 향상 및 수렴 속도 개선
특성이 서로 다른 크기를 가질 때, 가중치(weight)의 균형 유지
거리 기반 모델(KNN, SVM 등)에서 거리 계산 시 한 특성이 지나치게 영향을 주는 것을 방지
KNN은 유클리드 거리(Euclidean Distance)를 이용하여 데이터를 분류하는 알고리즘이므로, 변수의 스케일이 다르면 거리에 영향을 미쳐 성능이 저하될 수 있음. 따라서, 모든 변수의 중요도가 동일하도록 만들기 위해 스케일링을 수행해야 함.
SVM은 결정 경계(Decision Boundary)와 데이터 포인트 간 마진(Margin)을 최대로 만드는 알고리즘이므로, 특성의 크기에 따라 마진 계산이 왜곡될 수 있음. 따라서, 모든 특성이 동일한 크기를 갖도록 표준화(Standardization)를 수행하는 것이 중요함.
PCA(주성분 분석)에서 데이터의 분산을 고려할 때 중요
신경망 모델(딥러닝)에서는 스케일이 크면 학습이 불안정할 수 있음

트리 기반 모델 (랜덤 포레스트, XGBoost, LightGBM, 결정 트리)
- 트리는 데이터의 절대적인 크기가 아닌 순위(순서)와 분할(split) 기준을 사용하기 때문에 스케일링이 필요 없음. 트리 모델은 피처의 크기와 관계없이 이분법으로 분리되기 때문에 값에 크게 민감하지 않음. Threshold와 비교했을 때 더 큰 값인지 작은 값이지만 알아내면 되므로 굳이 값을 조정하는 scaling 과정이 필요하지 않음. Gini Index나 Entropy와 같은 불순도 측정 방식도 데이터의 비율을 고려하므로 스케일 조정이 필요 없음.
- 다만, 트리 모델이 거리 기반 모델(KNN, SVM)과 결합되거나, L1/L2 정규화가 적용된 Gradient Boosting 모델을 사용할 경우에는 스케일링이 성능 향상에 도움을 줄 수 있음. 즉, 일반적인 트리 모델에서는 불필요하지만, 특정 경우에는 고려할 수 있음.
  Is Feature Scaling necessary for Tree-Based Models?
  
  How Does Tree-Based Model Work?
  
  Feature Scaling in Tree-Based Model
나이브 베이즈 (Naïve Bayes)
- 확률 기반 계산을 수행하므로 데이터 크기에 영향을 받지 않음
특성이 동일한 범위에 있는 경우
- 이미 모든 특성이 비슷한 크기를 가지고 있다면 스케일링이 필요 없음

Data Scaling: A Simple Journey to More Robust Analysis

As we dive into the vast ocean of data analysis and machine learning, we often encounter the challenge of dealing with variables on…

medium.com

Is It Necessary For Feature Scaling in Tree-Based Models? - NBD Lite #20

Would it be a futile attempt?