목록Computer/AI (22)
선릉역 1번 출구
보호되어 있는 글입니다.
보호되어 있는 글입니다.
보호되어 있는 글입니다.
보호되어 있는 글입니다.
앙상블 학습(ensemble learning): 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘이다. 랜덤 포레스트(random forest)는 앙상블 학습의 대표 주자 중 하나로 안정적인 성능을 낸다. 부트스트랩: 데이터 세트에서 중복을 허용해 데이터를 샘플링하는 방식 ->부트스트랩 샘플에 포함되지 않고 남는 샘플을 OOB(out of bag)샘플이라고 하는데 이 남는 샘플이 검증 세트의 역할을 할 수 있다. 엑스트라 트리(extra trees)는 랜덤 포레스트와 아주 유사하게 동작한다. 그레이디언트 부스팅(gradient boosting)은 깊이가 얕은 결정 트리를 사용해 이전 트리의 오차를 보완하는 방식이다. 히스토그램 기반 그레이디언트 부스팅(histogram-based gradient..
여태까지는 데이터를 train, test로 나누어서 진행을 했다. 하지만 더 정확하게 하기 위해서는 사실 검증 세트라는 한 세트가 더 필요하다. 이유는 간단하다. 우리가 과대/과소 적합을 판단하기 위해서는 테스트 세트를 이용하는데 이 과정을 계속 진행하면 결국 테스트 세트에 잘 맞는 모델이 탄생하는 것이기 때문이다. 그래서 한 세트를 더 만드는 거다. 전체 데이터를 train, test가 아닌 검증 세트를 추가한 3개로 나누었으니 훈련 세트가 줄어들었을 것이다. 보통 훈련 세트의 데이터가 많으면 많을수록 좋은 모델이 탄생하는데 감소한 부분을 메꿔줄만한 방법이 없을까? 바로 교차 검증(cross vaildation)을 사용하면 된다. 교차 검증이란? 교차 검증을 설명하기 전에 먼저 test set가 ove..