아마존, 감정을 감지하는 실시간 AI 음성 모델 ‘노바 소닉’ 출시

아마존은 실시간 AI 음성 모델 ‘노바 소닉(Nova Sonic)’을 출시하며 음성 인식과 생성 기술을 통합한 새로운 음성 상호작용 방식을 선보였다.

노바 소닉은 사용자의 음성 톤을 감지하고, 그에 맞춰 스타일과 감정에 적합한 반응을 보인다. 예를 들어, 고객 서비스 전화를 받은 화난 고객에게는 차분하고 안정적인 목소리로 응답하며, 기쁨이 묻어나는 목소리에는 더 긍정적이고 활기찬 반응을 나타낸다.

아마존에 따르면 이 서비스는 아마존 웹 서비스(AWS)에서 제공하는 관리형 데이터베이스 ‘베드록(Bedrock)’을 통해 제공될 예정이며, 이미 Alexa+ 음성 비서에 이 모델의 일부 구성 요소를 내부적으로 사용하고 있다.

기존의 음성 시스템은 음성 인식, 언어 처리, 텍스트-음성 변환을 각각 별도로 처리했지만, 노바 소닉은 이 세 가지 기능을 하나의 아키텍처로 통합한다.

이 통합 덕분에 대화의 흐름을 자연스럽게 유지하면서 발음, 속도, 의도를 포함한 전체적인 문맥을 보존할 수 있어 더 반응적이고 일관된 상호작용이 가능해졌다. 또한, 대화 중간에 비행기 예약이나 계좌 확인 등의 실시간 작업 처리도 지원한다.

노바 소닉은 실시간 음성 응용 프로그램을 위한 새로운 스트리밍 API를 통해 제공되며, 현재는 영어만 지원되고 다양한 목소리와 억양 옵션을 제공한다. 아마존은 향후 더 많은 언어를 지원할 계획이다.

아마존에 따르면 노바 소닉은 평균 1초 만에 반응하며, 오픈AI의 GPT-4o와 구글의 제미니 Flash 2.0보다 빠르고, 실시간 음성 상호작용에서 GPT-4o보다 거의 80% 더 저렴하다고 밝혔다.