주요 용어 이해하기
Generalization
- How well the learned model will behave on unseen data
Cross-validation
- Cross-validation is a model validation technique for assessing how the model will generalize to an independent (test) data set.
Bias and Variance
- Variance는 내가 어떤 입력을 넣었을 때 출력이 얼마나 일관적으로 나오는지를 말한다.
- Variance가 낮다 = 출력이 일관되게 나온다.
- Variance가 높다 = 출력이 많이 다르다.
- Bias는 평균적으로 봤을 때 출력이 true target에 얼마나 가까운지를 말한다.
- Bias가 낮다 = 출력의 평균이 true target에 가깝다.
- Bias가 높다 = 출력의 평균이 true target에서 멀다.
Bias and Variance Tradeoff
- We can derive that what we are minimizing(cost) can be decomposed into three different parts: bias^2, variance, and noise.
- Bias를 minimize하면 Variance가 높아질 가능성이 높음
- Variance를 낮추면 Bias가 높아질 가능성이 높음
Bootstrapping
- Bootstrapping is any test or metric that uses random sampling with replacement.
Bagging vs. Boosting
- Bagging (Bootstrapping aggregating)
- Multiple models are being trained with bootstrapping.
- ex. Base classifiers are fitted on random subset where individual predictions are aggregated (voting or averaging).