Notice
Recent Posts
Recent Comments
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Archives
Today
Total
관리 메뉴

SYDev

[KHUDA 4th] 머신러닝 4주차 기초 세션 (08.16) 본문

KHUDA 4th/머신러닝 기초 세션

[KHUDA 4th] 머신러닝 4주차 기초 세션 (08.16)

시데브 2023. 8. 25. 16:46
4주차 세션 발제 내용중에 이해가 안 됐거나, 따로 정리하고 싶었던 내용들을 정리해봤다. 

 

 

Histogram-based Gradient Boosting

사실 세션 전까지 히스토그램 기반 그래디언트 부스팅이 뭔지 잘 이해가 안 됐었다. 지금도 이해가 된 것은 아니지만 나름 이해한 내용을 바탕으로 대충 정리해봤다.

 

1. 입력 데이터(연속적인 수치 데이터)를 작은 구간(bin)으로 256개 분할하여 범주화한다.

2. 결정 트리를 구축하면서 노드 분할을 수행할 때, 히스토그램 정보를 사용한다. 

3. 경사 하강법을 적용할 때, 히스토그램 정보를 활용해 오차를 최소화한다.

 

+ 256개의 bin 중 하나의 bin은누락된 값을 위해 사용한다. -> 이게 무슨 뜻? -> 255개와 개별적으로 결측치를 가지는 빈 구간을 만든다는 의미!

 

 

OOB가 전체의 약 1/3이 되는 이유

  • bootstrap 샘플을 만들면 이는 원래 표본의 1/3의 비율이 된다. 이를 수식적으로 이해해보자!

 

 


참고자료

 

OOB 관측개체가 전체 관측개체의 약 1/3인 이유

목차 What is the OOB(Out of Bag) observations? OOB(Out of Bag)는 Bagging(Bootstrap Aggregation)에서 등장하는 용어이다. 배깅에서 핵심은 bootstrap 표본을 만들어 트리를 반복 적합하는 것이다. 각각의 배깅된 트리는

psystat.tistory.com