[Bias-Variance Trade-off] 19분 예상 도착? 기사님 빨리가주세요!

[Bias-Variance Trade-off] 19분 예상 도착? 기사님 빨리가주세요!

2025. 1. 20. 13:35ㆍData Analysis/모델링

지난 학기 '빅데이터 해석' 강의에서 처음 접했던 개념 중 하나가 바로 Bias-Variance Trade-off였습니다.

이론적으로는 이해가 갔지만, 실제로 데이터 분석에 적용하려니 "왜 Bias와 Variance를 동시에 낮추는 것이 이렇게 어려울까?"라는 의문이 들었습니다.

LG Aimers에서 이 개념을 다시 배우며, 더 깊이 이해하게 된 내용을 정리해보려 합니다.

카카오 T의 도착 시간 예측

1교시 수업인데 8시에 눈을 뜬 글쓴이는 급하게 택시를 잡기 위해 카카오 T를 켰습니다.

"학교까지 19분이나 걸린다고? 예측이 진짜 정확할까?"

Bias-Variance Trade-off는 바로 이런 예측 모델에서 겪는 문제를 설명해주는 개념입니다.

카카오 T는 사용자로부터 출발지와 도착지 같은 정보를 받아, 도착 시간을 예측합니다.

문제 정의

예측 변수(독립 변수): 출발지, 도착지, 시간대, 교통 상황
반응 변수(종속 변수): 실제 도착 시간

초기 시도: 단순 선형 회귀와 Bias 문제

처음에는 "출발 시간이 늦어질수록 도착 시간도 늘어난다."라는 단순한 선형 회귀 모델을 사용해보겠습니다.

하지만 이 모델은 교통 상황 같은 복잡한 변수들을 무시했기 때문에, 예측의 Bias(편향)이 높아졌습니다.

예를 들어, 퇴근 시간대의 혼잡도를 반영하지 못한다면 도착 시간 예측은 정확도가 상당히 떨어질 것입니다.

다음 시도: 딥러닝 모델과 Variance 문제

이 문제를 해결하기 위해 더 복잡한 딥러닝 모델을 도입해볼까요?

이번에는 지나치게 훈련 데이터에 맞춰진 결과로 Variance(분산)이 높아졌습니다.

즉, 특정 시간대나 지역에서는 매우 정확했지만, 새로운 데이터에서는 예측이 불안정해졌습니다.

해결: 그래디언트 부스팅으로 균형 찾기

카카오 T는 이 문제를 해결하기 위해 그래디언트 부스팅(Gradient Boosting)을 도입했습니다.

이 방법은 여러 개의 약한 학습기를 결합하여 Bias와 Variance의 균형을 맞춥니다.

결과적으로, 퇴근 시간대나 주말 같은 다양한 교통 상황에서도 안정적이고 정확한 도착 시간 예측이 가능해졌습니다.

Bias와 Variance는 각각 무엇이고, 왜 Trade-off 관계에 있을까요?

Bias-Variance가 무엇인가요?

MSE (Mean Squared Error)

MSE(Mean Squared Error)는 모델 예측값과 실제값 간의 평균 제곱 오차를 의미합니다.

MSE는 모델 성능을 평가하는 기본 지표로, 이를 줄이는 것이 목표입니다.

하지만 Bias와 Variance가 서로 Trade-off 관계에 있기 때문에 이를 동시에 낮추는 것은 쉽지 않습니다.

Bias(편향)

Bias는 모델의 예측값과 실제값의 차이를 평균적으로 나타내는 지표이며,

모델이 데이터의 근본 패턴을 놓쳐 주요 패턴을 충분히 학습하지 못할 때 발생합니다.

위의 사례에서 단순 선형 회귀 모델은 Bias가 높아 퇴근 시간대 혼잡도를 제대로 반영하지 못했습니다.

만약 데이터가 통근 시간대뿐 아니라 시간대별 혼잡도와 추가적인 비선형적인 관계를 가지고 있다면,

단순한 선형 모델은 데이터의 패턴을 놓치게 되어 Underfitting 상태에 빠집니다.

이런 경우 학습 데이터와 테스트 데이터 모두에서 성능이 낮게 나올 수 있습니다.

따라서, Bias를 줄이기 위해서는 모델 복잡성을 증가시키는 방향으로 모델을 설계하거나,

새로운 feature을 추가하거나 기존 데이터를 변환하여 변수 간 상호작용(term)을 추가하여 더 복잡한 관계를 반영할 수 있습니다.

즉, Bias가 높아지는 이유는 모델의 단순성 때문입니다.

단순한 모델은 복잡한 데이터의 패턴을 설명하지 못하며, 이는 Underfitting으로 이어집니다.

따라서 Bias가 높을수록 일반적으로 예측의 정확도가 떨어지고, 데이터의 전체적인 트렌드를 놓칠 가능성이 커지게 됩니다.

Variance(분산)

Variance는 동일한 입력 데이터에 대해 모델이 예측값을 얼마나 일관되게 출력하는지 나타내는 지표이며,

모델이 훈련 데이터의 노이즈를 과도하게 학습하여, 모든 세부적인 변동성을 학습하게 됩니다.

이는 훈련 데이터에서는 높은 성능을 보이지만, 테스트 데이터에서는 성능이 급격히 떨어지는 과적합(Overfitting)을 유발하게 됩니다.

위의 사례에서 선형 회귀 모델의 Bias 문제를 해결하기 위해 도입한 딥러닝 모델은 세부적인 데이터의 패턴 학습이 가능해졌습니다.

그러나, 그에 따른 Variance가 높아져 특정 시간대나 지역에서는 정확했지만, 새로운 데이터에서는 성능이 떨어질 수 있는 것입니다.

Variance를 줄이기 위해서는 모델 단순화 또는 Regularization을 활용합니다.

Regularization은 모델이 특정 파라미터에 너무 의존하지 않도록 제약을 가하여 모델의 복잡성을 줄이고,

데이터 노이즈에 덜 민감하도록 만들어 Variance를 효과적으로 감소시킵니다.

Bias-Variance Trade-off가 발생하는 이유

[출처] Bias and Variance in Machine Learning – Analytics Vidhya

Bias와 Variance는 모델의 복잡성과 밀접한 관련이 있습니다. 모델이 단순할수록 Bias가 높아지고, 복잡할수록 Variance가 높아집니다. 이는 모델이 단순할 때는 데이터의 패턴을 제대로 학습하지 못하고, 모델이 복잡할 때는 데이터의 노이즈까지 학습하기 때문입니다.

Trade-off는 이 두 가지 특성을 동시에 낮추는 것이 현실적으로 불가능하기 때문에 발생합니다.

따라서, 균형을 찾기 위해 모델 선택, 하이퍼파라미터 튜닝, 교차 검증, 앙상블 기법 등을 사용하여 최적의 모델을 설계해야 하는 것입니다.

Bias와 Variance의 균형: 어떻게 맞출까?

카카오 T의 도착 시간 예측 문제를 다시 떠올려 봅시다.

초기에는 단순한 선형 회귀 모델을 사용해 Bias가 높은 문제를 겪었고,

이후 딥러닝 기반의 복잡한 모델을 도입하면서 Variance가 높아지는 문제를 경험했습니다.

그렇다면 이런 상황에서 Bias와 Variance의 균형을 어떻게 맞출 수 있을까요?

교차 검증(Cross-validation)으로 모델 평가 안정성 확보

교차 검증은 모델의 성능을 안정적으로 평가할 수 있는 도구입니다.

카카오 T의 예측 모델에서, 데이터는 출발지와 도착지, 시간대, 교통 상황 등 다양한 특성을 포함하고 있습니다.

이 데이터를 여러 부분으로 나누어 반복적으로 학습과 평가를 진행하는 것이 교차 검증입니다.

예를 들어, 훈련 데이터를 5개로 나누는 5-fold 교차 검증을 사용하면, 모델은 각 데이터 그룹을 테스트 데이터로 한 번씩 사용하고,

나머지 그룹은 학습에 사용합니다. 이렇게 하면 특정 데이터 그룹에 치우친 모델 학습을 방지하고, Bias와 Variance의 적정 수준을 파악할 수 있습니다.

결과적으로, 교차 검증은 모델이 데이터 전반에 대해 고르게 학습했는지를 확인하는 데 도움을 줍니다.

앙상블 기법으로 모델 성능 향상

카카오 T가 도착 시간 예측 문제를 해결하기 위해 최종적으로 도입한 그래디언트 부스팅은 앙상블 기법의 대표적인 예입니다.

앙상블 기법은 여러 개의 모델을 결합하여 성능을 향상시키는 방법으로, Bias와 Variance를 동시에 조절하는 데 효과적입니다.

여기서 카카오 T는 배깅(Bagging)과 부스팅(Boosting)의 개념을 활용했습니다.

배깅은 여러 데이터 샘플에서 각각 독립적으로 모델을 학습시키고, 최종 결과를 평균내어 Variance를 줄이는 방식입니다.

예를 들어, 랜덤 포레스트는 여러 개의 의사결정나무를 학습시켜 모델의 예측이 특정 데이터에 과도하게 의존하지 않도록 만듭니다.

부스팅은 약한 학습기(Weak Learner)를 순차적으로 학습시키며, 이전 모델이 잘못 예측한 부분을 다음 모델에서 보완하는 방식입니다.

카카오 T의 예측 모델에서 그래디언트 부스팅은 출발지와 도착지의 비선형적 관계나 시간대에 따른 교통 패턴 등을 점진적으로 학습하며 Bias를 줄였습니다. 이는 기존의 딥러닝 모델처럼 Variance가 급격히 증가하지 않으면서도, 더 복잡한 데이터 패턴을 반영할 수 있게 했습니다.

Bias-Variance에 따른 MSE 비교

모델 복잡성에 따라 Bias와 Variance는 다음과 같은 경향을 보입니다:

모델 유형	Bias	Variance	MSE
단순한 모델	높음	낮음	높음
적절히 복잡한 모델	중간	중간	낮음
지나치게 복잡한 모델	낮음	높음	높음

이 표를 보면 적절히 복잡한 모델이 전체 오류를 최소화하는 균형점에 해당한다는 것을 알 수 있습니다.

마무리하며:

처음 Bias-Variance Trade-off를 배웠을 때, "왜 한쪽을 낮추면 다른 쪽이 늘어날까?"라는 질문에 답을 찾기까지 꽤 오랜 시간이 걸렸습니다. 하지만 Bias와 Variance는 단순히 이론이 아니라, 데이터를 다루는 모든 순간에 직면하는 문제라고 생각합니다. 앞으로도 이 개념을 반복적으로 공부하고, 다양한 데이터셋에 적용해 보려고 합니다. 이 개념을 여러 프로젝트에 적용하다보면 모델링의 본질과 데이터의 특성을 이해하는 것이 얼마나 중요한지, "아, 그래서 이렇게 되는 거구나!"라는 순간을 맞이할 수 있을 것이라고 생각합니다.

semlog 더 좋은 데이터분석가가 되기 위해 분석적으로 공부합니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

semlog