AI 서비스 플랫폼
다이퀘스트의 워크센터·DQ Voice·Genwave Studio, 쿼티 등 AI 서비스 플랫폼 전반에 CARO 기술이 적용되어 대규모 트래픽에서도 안정적인 응답성과 일관된 품질을 제공합니다.
- 쿼티(모바일 기반 에이전틱 명함) - 온디맨드 트래픽 대응 오토스케일링
- 워크센터 (AI 고객응대 플랫폼) - 월 100만 건 안정 처리
- DQ Voice (음성합성 플랫폼) - 실시간 TTS 대규모 동시 처리
- Genwave Studio (AI 콘텐츠 스튜디오) - 영상 생성 GPU 자원 최적화
적용 플랫폼
쿼티
워크센터
DQ Voice
Genwave Studio
DELMA 추론 서버
LOUIS 추론 서버
이종 GPU 최적화
고가의 동일 GPU 확보 없이 성능이 다른 GPU를 혼합·통합하여 최대 30%+ 처리량 향상을 달성합니다.
GPU 장애 발생 시 즉시 대체 GPU로 이관하여 무중단 서비스를 유지합니다.
- 이종 GPU 환경 실시간 프로파일링 & 최적 배치 자동 결정
- 피드백 루프 기반 리매핑으로 처리량 30%+ 향상 달성
- GPU 장애 시 즉시 대체 GPU 이관 — 무중단 서비스
- NVLink 고속 인터커넥트 기반 GPU 간 병목 최소화
GPU 최적화 성과
처리량 30%+ 향상
메모리 효율 극대화
GPU 장애 자동 복구
이종 환경 중립 제어
서버리스 & 비용 절감
트래픽이 없을 때 컨테이너를 완전히 종료하는 scale-to-zero 아키텍처로 유휴 비용을 제거합니다.
Knative 기반으로 특정 클라우드 벤더에 종속되지 않으며, API 코드 수정 없이 서버리스 전환이 가능합니다.
- Knative 기반 scale-to-zero - 유휴 비용 제로화
- AWS·GCP·Azure 특정 벤더 비종속 쿠버네티스 네이티브
- HPA + VPA 하이브리드 오토스케일링으로 SLA 자동 준수
- Prometheus 기반 DB·메시지큐까지 통합 스케일링
비용 절감 구조
유휴 비용 Zero (scale-to-zero)
피크 자동 확장
SLA 자동 준수
멀티 클라우드 지원