일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- LLM
- 딥러닝
- supervised learning
- AI
- 오블완
- 분류
- gpt
- LG Aimers 4th
- ChatGPT
- PCA
- LG Aimers
- Classification
- 머신러닝
- 회귀
- LG
- Machine Learning
- OpenAI
- GPT-4
- deep learning
- regression
- 지도학습
- 티스토리챌린지
- 해커톤
- Today
- Total
목록전체 글 (355)
SYDev

검증 세트의 필요성을 이해하여 교차 검증 방법을 학습하고, 그리드 서치와 랜덤 서치를 이용해 최적의 하이퍼파라미터를 찾아보자. 검증 세트 테스트 세트로 일반화 성능을 올바르게 예측하려면 가능한 테스트 세트를 사용하지 말고, 모델을 만들고 마지막에 한 번 사용하는 것이 좋다. 테스트 세트를 사용하지 않고, 훈련 세트를 또 나누어 임시로 사용하는 데이터셋을 검증 세트(validation set)라 부른다. 이렇게 나눈 검증 세트를 이용하여 파라미터를 바꿔가며 최적의 파라미터를 찾은 후, 훈련 세트와 검증 세트를 합쳐 해당 파라미터로 모델을 학습한다. 마지막으로 테스트 세트에서 최종 점수를 평가한다. #와인 데이터셋 넘파이 배열로 변환 import pandas as pd wine = pd.read_csv('h..

결정 트리 알고리즘을 이해하고, 이를 이용해 분류 문제를 해결해보자. 결정 트리 결정 트리(Decision Tree): 분류와 회귀 모두 가능한 지도 학습 모델 중 하나로, 예/아니오 질문을 이어나가며 학습한다. 모델을 설명하기가 쉽다. 각각의 칸을 node라고 부른다. 첫 번째 질문이 존재하는 node는 Root node, 마지막 node는 Terminal node 혹은 Leaf node라 부른다. 결정 트리 알고리즘 작동 과정 깊이가 깊을 수록 정확도는 높아지지만, 지나치면 오버피팅이 될 수 있다. 불순도, 지니 인덱스, 엔트로피, 정보 이득, 불순도 불순도(Impurity): 해당 범주 안에 불순물이 섞여있는 정도 사이킷런이 제공하는 불순도에는 지니 불순도와 엔트로피 불순도가 존재한다. 지니 불순도..

3주차 세션 발표 내용 정리 3주차 세션에서 1조가 발표했던 내용중에 이해가 안 됐거나, 따로 정리하고 싶었던 내용들을 정리해봤다. 퍼셉트론 퍼셉트론: 이진 분류 모델을 학습하기 위한 지도학습 기반의 알고리즘이다. 뇌의 신경 세포 뉴런의 동작 과정과 유사한 형태를 가진다. 뉴런은 수상돌기와 인접한 다수의 뉴런 내 축삭돌기와 시냅스를 통해 신호를 입력받아 신경세포체에 저장하는데, 해당 뉴런이 저장한 신호의 크기가 특정 값 이상이 될 때만 신호가 축삭돌기를 통해 외부로 전달된다. 퍼셉트론은 뉴런이 신호를 입력받듯이 다수의 값 $x$를 입력받고 입력된 값마다 가중치$w$를 곱한다. 여기서 가중치가 클수록 입력값이 중요하다는 것을 의미한다. 입력값 1에 그 값을 곱한 변수인 편향 $b$도 입력된다. 입력값과 가..

FIFO구조를 가지는 자료구조인 queue에 대해 이해하고, 추가적으로 queue와 비슷한 deque을 구현해보자. 큐 큐은 가장 처음에 들어간 데이터가 가장 먼저 나오는 선입선출, FIFO(First-In, First-Out)의 자료구조를 가진다. 큐 자료구조의 ADT void QueueInit(Queue * pq); - 큐의 초기화를 진행한다. - 큐 생성 후 제일 먼저 호출되어야 하는 함수이다. int QIsEmpty(Queue * pq); - 큐가 빈 경우 TRUE(1)를, 그렇지 않은 경우 FALSE(0)을 반환한다. void Enqueue(Queue * pq, Data data) - 큐에 데이터를 저장한다. 매개변수 data로 전달된 값을 저장한다. Data Dequeue(Queue * pq)..

LIFO구조를 가지는 자료구조인 stack에 대해 이해하고, stack을 이용해 계산기를 구현해보자. 스택 스택은 가장 마지막에 들어간 데이터가 가장 먼저 나오는 후입선출, LIFO(Last-In, First-Out)의 자료구조를 가진다. 스택 자료구조의 ADT void StackInit(Stack * pstack); - 스택의 초기화를 진행한다. - 스택 생성 후 제일 먼저 호출되어야 하는 함수이다. int SIsEmpty(Stack * pstack); - 스택이 빈 경우 TRUE(1)를, 그렇지 않은 경우 FALSE(0)을 반환한다. void SPush(Stack * pstack, Data data); - 스택에 데이터를 저장한다. 매개변수 data로 전달된 값을 저장한다. Data SPop(Stac..

클래스 SGDClassifier를 이용하여 파이썬으로 확률적 경사 하강법 모델을 구현해보자. 손실 함수와 경사 하강법에 대한 자세한 설명은 내용이 길어 따로 포스팅했다! >> https://sypdevlog.tistory.com/116 로지스틱 손실 함수 y를 타깃, a를 로지스틱 함수의 결과값이라고 했을 때, 손실 함수는 다음과 같이 y가 1일 때, y가 0일 때로 구분할 수 있다. SGDClassifier #데이터프레임 넘파이로 변환 import pandas as pd fish = pd.read_csv('https://bit.ly/fish_csv_data') fish_input = fish[['Weight', 'Length', 'Diagonal', 'Height', 'Width']].to_numpy(..

손실 함수와 경사 하강법 사이의 관계를 이해하고, 배치 경사 하강법과 확률적 경사 하강법에 대해 알아보자. 손실 함수와 경사 하강법 손실 함수 손실 함수(Loss Function): 지도학습 시에 알고리즘이 예측한 값과 실제 정답의 차이를 비교하기 위한 함수이다. '학습 중에 알고리즘의 예측이 실패하는 정도'를 나타내는 함수로, 알고리즘의 최적화(Optimization)에 목적을 둔다. 알고리즘의 학습을 수식으로 나타내면 다음과 같다. $L$: 손실 함수 $argmin$: 목적 함수를 최소화하는 입력값을 찾는 역할, arguments of minimum $x$: 학습 데이터의 입력값, x로 얻어낸 예측값은 정답과 비교됨 $y$: 학습 데이터의 정답 -> loss를 최소화하는 최적의 파라미터를 찾는 것(최..

로지스틱 회귀 알고리즘을 이용해 다중 분류 문제를 해결해보자. 다중 분류(multi-class classification) 다중 분류: 타깃 데이터에 2개 이상의 클래스가 포함된 분류 문제를 의미한다. 로지스틱 회귀(logistic regression) 로지스틱 회귀: 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1사이의 값으로 예측해주고, 그 확률에 따라 해당 데이터가 속하는 범주를 분류해주는 알고리즘이다. -> 회귀를 사용하긴 하지만 결국엔 분류 알고리즘! 위 그림과 같이 선형 회귀의 경우에는 예측값을 그대로 확률로 사용하기에 무리가 있다. ->> 선형 방정식을 학습한 z값을 구해서, 이를 시그모이드 함수에 대입해 0~1 사이의 확률을 얻는다. 로지스틱 회귀의 hyper parameter..