[머신러닝] 머신러닝 입문 올인원 :: 1강 회귀_Bias and variance Trade-off

2024. 5. 31. 11:13메타코드/머신러닝


 

 

1강 회귀 :: Bias and variance Trade-off 

 

편형과 분산

문제점과 해결방법에 어떤 것이 있는지 배운다.

 

학습데이터와 평가데이터로 나눌 수 있다. 

평가데이터는 절대로 모델 학습에 사용하면 안된다!!!! -> 과접합이 일어나서?

보통 전체 데이터의 10%~20%를 평가데이터로 사용한다.

랜덤샘플링 과정을 거쳐서 평가데이터를 만든다. 비슷한 분포를 가지게 됨.

 

모델의 복잡도란?

-선형모델이 있을때, 선형모델의 파라미터는 기울기와 절편이라는 2가지의 파라미터가 존재한다.

 이차함수의 형태의 비선형 모델을 만들었다고 가정하면, 이 모델의 파라미터는 3가지가 된다.

 선형모델에서 비선형모델로 넘어갈 수록 파라미터가 증가한다.-> 데이터의 학습을 더 완벽하게 할 수 있게됨.

 모델이 복잡하다 => 파라미터의 수가 많다.

이미지의 점선그래프-> 데이터 선그래프->모델

 

평가데이터셋이 학습데이터셋과 다른 분포를 가질 수도 있음

이런 상황에서 2가지 문제점이 발생함.

1. 데이터가 많은 상황일때(언더피팅)

 - 모델의 복잡도가 낮을경우, 파라미터 수가 적을경우, 학습의 정확도가 굉장히 낮을때

2. 데이터가 적은 상활일때(오버피팅)

 - 평가데이터셋에 대한 정확도와 관련하여 문제 정의. 데이터가 적어서 평가데이터셋이 학습데이터셋과 다른 분포를 가질 때, 학습데이터셋에 완벽히 일치하는 모델을 찾음. 평가데이터와 오차가 커짐. (비선형모델로 정확하게 찾을때, 이런 경우 선형모델이 평가데이터와 오차가 적을 수 있음)

 

편향과 분산은 모두 알고리즘이 가지고 있는 에러의 종류이다.

평균제곱오차. 오차의 제곱의 평균. 

세타는 완벽한 값(최적의)의 파라미터.->랜덤성은 없음.

세타헷->세타를 예측하기 위한 무수한 값

편향->세타헷의 평균과 세타값의 차이->학습데이터에 대한 정확도

분산->각 세타헷에 대한 평균값의 차이 / 분산에러가 작다->여러번세타에 대해 추정해봤을때 차이가 적다

"복잡도"

 

빨간곳->세타

점->세타헷

 

편향은 언더피팅과 분산은 오버피팅과 관련 있음.

 

편향과 분산을 그래프로 표현

x축->모델의 정확도

y축->손실값

 

다음시간에 배울 것.

 

 

편향과 분산부분은 복습이 꼭 필요할 것 같다.

 

 

이미지를 눌러 머신러닝 배우러 가기