[Backend Development] AI Model Serving

대딩코딩/웹개발 스터디

[Backend Development] AI Model Serving

시데브 2024. 7. 17. 04:52

AI Model Serving

미리 완성된 AI model을 api request, response 형태를 통해서 사용할 수 있도록 서버를 구축하는 것
크게 Online Serving과 Batch Serving으로 나뉜다.
Serving: 모델을 웹/앱 서비스에 배포하는 과정, 모델을 서비스화하는 관점
Inference: 모델에 데이터가 제공되어 예측하는 경우, 모델을 사용하는 관점

Online Serving

서버가 Request를 받으면, 요청한 내용을 모델이 받아서 반환하는 것을 Response로 전송해주는 형태
ML 모델 서버에 요청할 때, 필요할 시에 데이터 전처리를 따로 진행해야 함 -> 이 경우 전처리 서버 / ML 모델 서버로 나눌 수도 있음

Batch Serving

함수 단위를 주기적으로 실행
Airflow, Cron Job 등으로 Scheduling 작업 수행
실시간 반환이 필요없는 대부분의 방식에서 활용 가능
Online Serving 보다 구현이 수월하고 간단, 한 번에 많은 데이터를 처리하므로 Latency가 문제 X
그러나, 실시가능로 활용이 불가능하고, Colde start 문제(오늘 새로 생긴 컨텐츠는 추천 불가능)가 존재

참고자료

https://velog.io/@simbean/Model-Serving

728x90