KHUDA 4th/Computer Vision
[네이버 부스트 코스] 5. Advanced Models(2)
시데브
2023. 10. 30. 18:16
본 게시물은 네이버 부스트 캠프 cv 강의(https://www.boostcourse.org/ai340/joinLectures/369545)를 기반으로 작성된 게시물입니다.
사용자가 control 가능한 Generative Model인
Conditional Generative Model이 무엇인지,model의 사례에
무엇이 있는지 알아보자.
Conditional Generative Model
- 기존의 Generative Model -> 가방의 랜덤한 이미지만 생성할 수 있다.
- Conditional Generative Model -> 주어진 스케치(condition)에 대해서 비슷한 모양의 가방 이미지를 생성할 수 있다.
- ex) 저음질의 audio -> 고음질의 audio, 한자로 이루어진 중국어 문장 -> 영어 문장, title과 subtitle -> 글 생성
Generative Adversarial Network
- Generator -> 이미지의 구별이 더 힘들도록 학습
- Discriminator -> 이미지를 더 잘 판별하도록 학습
- 둘의 학습 상호작용으로 서로의 성능이 더 좋아짐 -> 적재적 학습법(Adversarial training)
GAN vs. Conditional GAN
>> 입력에 conditional input이 주어지는 것 외에는 대동소이함
Conditional GAN and Image Translation
Example: Super Resolution
대표적인 Conditional GAN의 응용사례로, 저해상도 이미지를 고해상도 이미지로 변환해준다.
- Super Resolution GAN: input은 저해상도 image, output은 고해상도 image, real data로 고해상도 image
- GAN을 활용하지 않고도, CNN 등의 network와 MAE 혹은 MSE Loss만으로도 naive한 regression model을 구현하여 super resolution을 수행할 수 있다.
- MAE와 MSE Loss는 ground truth와 prediction 간의 차의 절댓값 혹은 제곱의 평균을 계산한다
- 이러한 naive regression model을 활용하면, 해상도는 높아지지만 흐릿한 이미지를 얻게 된다.
- 이는 픽셀 자체의 intensity 차를 loss로 설정하기 때문에, generator가 적당한 평균적 픽셀 값으로 이미지를 생성하도록 학습되었기 때문이다.
- 허나 GAN의 경우 discriminator가 그런 트릭으로 생성된 이미지를 대부분 가짜로 판별하기 때문에 이런 문제를 완화한다.
>> MSE Loss 기반의 모델보다, SRGAN이 현실적이고 선명한 이미지를 생성한다.
참고자료
컴퓨터 비전의 모든 것
부스트코스 무료 강의
www.boostcourse.org
728x90
반응형