Reference URL: https://github.com/denlai-mshk/aoai-fwdproxy-funcapp
아래 내용은 위 URL을 참고로 실제 적용하는 방법을 문서화 한 것입니다.
Quota Increase 신청서를 통해서 사용량을 추가 확보하기 위한 우회 방법 중 하나입니다.
구독 1개당 각 LLM 모델(text-embedding-ada-002, gpt-35-turbo, gpt-4)을 리전별로 배포할 수 있습니다.
각 리전에 배포된 모델은 각 모델별 기본 Quota가 할당됩니다.
OpenAI 서비스를 고가용성으로 안전하게 활용 하기 위해서는 다양한 리전별 API를 부하 분산하여 사용할 수 있도록 구성하는 것이 필요합니다.
아래는 하나의 예시를 소개 드리는 것입니다. (임시 방편입니다.)