How to increase Azure OpenAI quotas

아래 내용은 위 URL을 참고로 실제 적용하는 방법을 문서화 한 것입니다.

Quota Increase 신청서를 통해서 사용량을 추가 확보하기 위한 우회 방법 중 하나입니다.

구독 1개당 각 LLM 모델(text-embedding-ada-002, gpt-35-turbo, gpt-4)을 리전별로 배포할 수 있습니다.

각 리전에 배포된 모델은 각 모델별 기본 Quota가 할당됩니다.

OpenAI 서비스를 고가용성으로 안전하게 활용 하기 위해서는 다양한 리전별 API를 부하 분산하여 사용할 수 있도록 구성하는 것이 필요합니다.

아래는 하나의 예시를 소개 드리는 것입니다. (임시 방편입니다.)

TPM을 확장하는 아키텍처

concept1

concept2