일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- gpt
- LG Aimers 4th
- 회귀
- deep learning
- Machine Learning
- regression
- AI
- OpenAI
- LG
- Classification
- 분류
- PCA
- ChatGPT
- LLM
- 딥러닝
- 지도학습
- 티스토리챌린지
- 머신러닝
- GPT-4
- supervised learning
- LG Aimers
- 오블완
- 해커톤
Archives
- Today
- Total
SYDev
[KHUDA 4th] 머신러닝 4주차 기초 세션 (08.16) 본문
4주차 세션 발제 내용중에 이해가 안 됐거나, 따로 정리하고 싶었던 내용들을 정리해봤다.
Histogram-based Gradient Boosting
사실 세션 전까지 히스토그램 기반 그래디언트 부스팅이 뭔지 잘 이해가 안 됐었다. 지금도 이해가 된 것은 아니지만 나름 이해한 내용을 바탕으로 대충 정리해봤다.
1. 입력 데이터(연속적인 수치 데이터)를 작은 구간(bin)으로 256개 분할하여 범주화한다.
2. 결정 트리를 구축하면서 노드 분할을 수행할 때, 히스토그램 정보를 사용한다.
3. 경사 하강법을 적용할 때, 히스토그램 정보를 활용해 오차를 최소화한다.
+ 256개의 bin 중 하나의 bin은누락된 값을 위해 사용한다. -> 이게 무슨 뜻? -> 255개와 개별적으로 결측치를 가지는 빈 구간을 만든다는 의미!
OOB가 전체의 약 1/3이 되는 이유
- bootstrap 샘플을 만들면 이는 원래 표본의 1/3의 비율이 된다. 이를 수식적으로 이해해보자!
참고자료
'KHUDA 4th > 머신러닝 기초 세션' 카테고리의 다른 글
Chapter 06-3: 주성분 분석 (0) | 2023.08.29 |
---|---|
Chapter 06-1,2: 군집 알고리즘 (0) | 2023.08.28 |
Chapter 05-3: 트리의 앙상블 (0) | 2023.08.22 |
Chapter 05-2: 교차 검증과 그리드 서치 (1) | 2023.08.22 |
Chapter 05-1: 결정 트리 (0) | 2023.08.22 |