일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 지도학습
- Classification
- 오블완
- ChatGPT
- PCA
- 딥러닝
- 회귀
- Machine Learning
- GPT-4
- supervised learning
- LG Aimers
- gpt
- 티스토리챌린지
- regression
- 분류
- 머신러닝
- OpenAI
- LLM
- deep learning
- LG Aimers 4th
- AI
- LG
- 해커톤
- Today
- Total
목록KHUDA 4th/머신러닝 기초 세션 (20)
SYDev
클래스 SGDClassifier를 이용하여 파이썬으로 확률적 경사 하강법 모델을 구현해보자. 손실 함수와 경사 하강법에 대한 자세한 설명은 내용이 길어 따로 포스팅했다! >> https://sypdevlog.tistory.com/116 로지스틱 손실 함수 y를 타깃, a를 로지스틱 함수의 결과값이라고 했을 때, 손실 함수는 다음과 같이 y가 1일 때, y가 0일 때로 구분할 수 있다. SGDClassifier #데이터프레임 넘파이로 변환 import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') fish_input = fish[['Weight', 'Length', 'Diagonal', 'Height', 'Width']].to_numpy(..
손실 함수와 경사 하강법 사이의 관계를 이해하고, 배치 경사 하강법과 확률적 경사 하강법에 대해 알아보자. 손실 함수와 경사 하강법 손실 함수 손실 함수(Loss Function): 지도학습 시에 알고리즘이 예측한 값과 실제 정답의 차이를 비교하기 위한 함수이다. '학습 중에 알고리즘의 예측이 실패하는 정도'를 나타내는 함수로, 알고리즘의 최적화(Optimization)에 목적을 둔다. 알고리즘의 학습을 수식으로 나타내면 다음과 같다. $L$: 손실 함수 $argmin$: 목적 함수를 최소화하는 입력값을 찾는 역할, arguments of minimum $x$: 학습 데이터의 입력값, x로 얻어낸 예측값은 정답과 비교됨 $y$: 학습 데이터의 정답 -> loss를 최소화하는 최적의 파라미터를 찾는 것(최..
로지스틱 회귀 알고리즘을 이용해 다중 분류 문제를 해결해보자. 다중 분류(multi-class classification) 다중 분류: 타깃 데이터에 2개 이상의 클래스가 포함된 분류 문제를 의미한다. 로지스틱 회귀(logistic regression) 로지스틱 회귀: 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1사이의 값으로 예측해주고, 그 확률에 따라 해당 데이터가 속하는 범주를 분류해주는 알고리즘이다. -> 회귀를 사용하긴 하지만 결국엔 분류 알고리즘! 위 그림과 같이 선형 회귀의 경우에는 예측값을 그대로 확률로 사용하기에 무리가 있다. ->> 선형 방정식을 학습한 z값을 구해서, 이를 시그모이드 함수에 대입해 0~1 사이의 확률을 얻는다. 로지스틱 회귀의 hyper parameter..
토의 내용 정리 각 조에서 나온 질문들을 조원들과 상의하면서 답변하는 시간을 가졌다. 나는 2조의 질문에 대한 답변을 작성했고, 나머지는 피드백 정도만! 파란색 글자는 내가 작성한 의견이다. 1조: 특성의 갯수를 계속 늘리고 규제를 적용한다면 모델의 성능은 계속 좋아지는 것인가? 아니면 특성의 갯수에도 적절한 값이 존재할까? 불필요한 특성이 많아질 수록 그것을 처리하기 위해 규제가 세진다면, 필요한 특성들에 대해서도 규제가 과하게 적용되어 악영향을 줄 수 있을 것 같다. (+ 처리할 연산이 많아짐.) -> 라고 생각을 했었지만, 요즘 트렌드는 되는대로 특성을 늘려서 때려박고, 규제를 적용시키는 것이라고 한다! 따라서, 현재까지는 특성의 양이 많아지면서 생기는 문제보다는 성능이 향상되는 이점이 더 많은 것..
개인적으로 공부하면서 작성한 글이기 때문에, 틀린 내용이 있을 수도 있다는 점 유의하기 바란다. MSE 훈련 데이터의 total loss를 의미하는 MSE(training)은 다음과 같이 훈련데이터셋에 대한 모델의 추정값과 참 값의 차이의 제곱으로 나타난다. 이를 기반으로 테스트 데이터셋의 total loss를 다음과 같이 구할 수 있다. (Irreducible Error는 모델에서 조정하지 못하는 값이다.) 결론만 말하자면, 테스트 데이터셋의 total loss는 bias와 variance를 조정해 줄일 수 있다. 또한, 이런 테스트 데이터셋의 total loss가 작을수록 좋은 예측 모델이라고 할 수 있다. Bias, Variance Bias와 Variance 둘 다, 모델의 loss 또는 error..
여러 특성을 사용한 다중 회귀에 대해 학습하고, 복잡한 모델의 과대적합을 막기 위해 릿지와 라쏘 회귀를 이용해보자. 다중 회귀 다중 회귀(multiple regression): 여러 개의 특성을 사용하는 선형 회귀 모델. 특성이 많으면 선형 모델은 강력한 성능을 발휘한다. 특성 공학(feature engineering): 기존의 특성을 사용해 새로운 특성을 만드는 일련의 작업 과정이다. 데이터 준비 import pandas as pd df = pd.read_csv('https://bit.ly/perch_csv_data') #pandas를 사용해 농어 데이터를 데이터프레임에 저장 perch_full = df.to_numpy() #데이터프레임에 저장된 csv 파일을 numpy 배열로 바꾸는 method pr..
k-최근접 이웃의 한계를 인지하고, 선형·다항 회귀 알고리즘으로 문제를 해결하자. k-최근접 이웃의 한계 chapter 03-1에서 다룬 모델로 길이가 50cm인 샘플의 무게를 예측해보자. import numpy as np perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 30.0, 32.8, 34.5, 35.0, 36.5, 36...
k-최근접 이웃 회귀를 이용하여 농어의 무게를 예측하는 모델을 만들어보자. k-최근접 이웃 회귀 지도 학습 알고리즘은 크게 분류와 회귀(regression)로 나뉜다. 회귀분석: 데이터 변수들 간에 함수 관계를 파악하여 통계적 추론을 하는 기술, 다시 말해서 독립변수에 대한 종속변수값의 평균을 구하는 방식 k-최근접 알고리즘은 회귀에도 작동 -> 최근접 샘플 k개의 평균으로 예측 타깃값 결정 농어의 무게를 예측하는 모델 데이터 준비 import numpy as np perch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22...