카돔의 위치 기반 음성 클러스터링 기술이 자동차에서 아마존의 알렉사를 사용하여 여러 승객에게 개인화된 결과를 제공하는 데모 영상입니다.

위치 기반 음성 클러스터링으로 음성 어시스턴트를 위한 새로운 기회를 열어주는 Kardome

카돔의 위치 기반 음성 클러스터링 기술이 자동차에서 아마존의 알렉사를 사용하여 여러 승객에게 개인화된 결과를 제공하는 데모 영상입니다.

다니 체르카스키
다니 체르카스키
공동 창립자 CEO
제품 업데이트

목차

카르돔을 이용한 음성 비서 경험을 개인화하는 비디오 데모

음성 애플리케이션에서 딥 러닝과 인공지능(AI) 기술을 구현하는 데 성공한 것은 음성 사용자 인터페이스(VUI)와 음성 비서가 일상 생활에 침투하도록 유도하고 있습니다. 

가상 도우미는 새로운 종류의 경험을 잠금 해제할 수 있는 기회를 창출합니다. 주방에서 자동차, 쇼핑몰, 공항에 이르기까지 음성 지원 장치는 상상할 수 있는 모든 환경에 들어갑니다.

그러나 이러한 환경의 음향 복잡성 중 상당수는 자동 음성 인식(ASR) 성능 향상에 대한 수요를 창출합니다.

현재 ASR은 스피커의 청각 경쟁이 있는 시나리오에서 저조한 성과를 보이고 이해합니다. 

청각 경쟁 과제를 해결하는 광범위한 방법은 음성 소스의 특정 방향을 향해 마이크를 조종 빔 포밍입니다. 

불행히도 실내 또는 폐쇄 된 환경에서 사운드는 시야를 통해뿐만 아니라 환경의 모든 반사 표면에 부딪히고 사운드를 장치로 다시 바운스합니다. 

이 현상은 일반적으로 잔향 또는 다중 경로라고합니다.

Beamforming 기반 음성 소스 분리는 자동차, 사무실, 거실 또는 기타 실내 또는 폐쇄 환경과 같은 반향 환경에서 제대로 수행되지 않습니다. 

카르돔의 기술은 단점을 이점으로 전환하여 이 문제를 해결합니다. 즉, Kardome은 멀티 패스 패턴을 사용하여 음성 소스를 구분합니다. 우리는 단일 방향과 모든 방향을 세 차원으로 경청하여 이 방법을 달성했습니다.

다음 비디오는 자동차에서 아마존의 가상 비서 알렉사를 카르돔의 위치 기반 음성 클러스터링과 비교합니다. 사용 가능한 CPU 전력의 약 20%를 사용하는 ARM Cortex A7에서시스템을 구현했습니다. 

당사는 위치 기반 음성 분리 접근 방식이 Alexa가 개인 계정, 선호도 및 기록을 사용하여 각 사람에게 개별적으로 반응하도록 함으로써 자동차의 여러 승객에게 개인화된 사용자 환경을 제공하는 방법을 보여줍니다. 

우리는 현지화, 소스 분리 및 소음 감소를 위한 Kardome의 알고리즘에 데모를 기반으로 합니다.

두 명의 승객이 알렉사에게 다른 질문을 합니다. Kardome은 각 요청을 특정 사용자에게 속성으로 만들고 Alexa는 그에 따라 반응합니다.

이 특정 데모의 경우 Alexa가 후방 승객의 문의에 스페인어로 응답하도록 구성했으며 운전자의 쿼리는 Alexa가 영어로 응답했습니다. 그것은 카르돔의 독특한 응용 프로그램의 예로 언어 개인화를 사용합니다. 

동영상 보기:

카르돔의 VUI 기술에 대해 자세히 알아보기: 데모 북