메뉴 이미지의 품질 검수를 프롬프트 엔지니어링을 통해 GPT로 자동화한 여정을 소개합니다.
배달의민족의 수많은 음식 메뉴 사진을 사람이 하나하나 검수하던 과정을 어떻게 GPT로 자동화했는지, 그리고 그 과정에서 겪었던 다양한 시행착오와 배움을 공유합니다.
김태정
이미지 검수 방법.
노출 되었을 때, 크리티컬한 문제가 있는지를 구분하여 테스트를 했었다.
프롬프트엔지니어링을 전문적으로 배우진 않았지만 자연스럽게 학습되었다. 가장 도움은 내가 생각한것과 같이 GPT가 이해하고 행동하는지를 확인. 니가 어떤 근거를 가지고 만들었는지를 확인. 원하는 이미지 인풋과 아웃풋 쌍을 만들어 놓고, GPT 한테 오히려 질문을 하면서 찾아나감.
오브젝트 디텍션은...
GPT-4o를 파인튜닝을 한 것은 아니고, Yolo 모델을 활용하여 오브젝트 디텍션을 함.
비용절감을 위한 방법.
출력 자체를 최적화 해야하고, 호출을 감소시키는 것도 방법이다.
이미지 자체에서 GPT를 안 쓰고도 할 수 있는 방법들을 찾아서 특정 모델 또는 Rule 기반으로 검수를 해서 줄임.
텍스트로 답변을 받다가 JSON으로 바꾸면서 비용이 줄어들게 됨.
GPT-4o로 넘어오면서 비용이 많이 줄어듬.
오픈소스 모델은 아직 고민중.
한글과 영어로 인풋을 넣었을 때 차이?
비전 모델은 영어로 작성하는 것이 훨씬 더 효과를 얻을 수 있었는데, 4o를 사용하면서 한글 영어 차이가 크지 않다.
평가 방법.
테스트 셋을 대량으로 확보한 상태에서 과제를 수행하고 있었고, 동일한 테스트셋을 돌려보고 정답률이 더 높은 것을 선택하였다.
사장님들이 이미지 검수하는 동안 ㅍ퍼센트는 어떻게 구현했나?
GPT 테스트 수행시 걸리는 시간에 맞추어서 빈번하게 일어나는 시간대를 100%로 두고, 90%까지는 자동으로 올라가고, 완료되면 100%로 전환됨.
프롬프트 엔지니어링으로만으로 해결되는 문제와 반대의 경우는?
프롬프트엔지니어링만으로 가능한 것은? 이미지 검수 과제만 보면, 테스트셋 기반으로 수행시 이미지 안에 접시가 가운데 있냐, 잘린건 아니냐? -> 이건 GPT가 할 수 없는 영역임. (욜로로 해야지)
GPT의 텍스트 능력은 빠르게 진행중이다. MINI 모델만 보더라도 빠르게 발전 중이긴 하나 비전 영역에 있어서는 머신러닝과 하이브리드 접근이 필요하다.