카돔 모빌리티, AI 기반 기술로 자동차 OEM의 차세대 음성 인터페이스 개발 지원
음성 어시스턴트의 적응을 늦추는 가장 큰 장벽은 불충분한 음성 인식 정확도입니다. 또한 최상의 음성 사용자 경험을 제공하기 위해서는 언어 지원 범위, 사용자의 기대치, 보안, 비용, 배포 및 통합의 복잡성 등의 문제도 해결해야 합니다. 카돔은 이러한 여러 과제를 해결하기 위해 기존 차량 내 음성 인식 시스템을 획기적으로 개선하는 모빌리티 부문용 소프트웨어 솔루션을 개발했습니다.
자연어 처리와 머신 러닝을 통합하여 더욱 원활하고 직관적인 차량 내 음성 상호 작용 환경을 구현함으로써 음성 어시스턴트는 최신 자동차 기술의 핵심적인 부분이 되었습니다.
하지만 많은 장점에도 불구하고 몇 가지 해결해야 할 과제가 남아 있습니다. 음성 어시스턴트의 적응을 늦추는 주요 장벽은 불충분한 음성 인식 정확도이며, 이는 시끄럽고 혼잡한 차량 환경에서 특히 문제가 될 수 있습니다. 또한 최상의 음성 사용자 경험을 제공하려면 언어 지원 범위, 사용자의 기대치, 보안, 비용, 배포 및 통합의 복잡성 등의 문제도 해결해야 합니다.
이러한 장애물은 일반적으로 작고 시끄러운 공간에 사람들이 많이 모이는 일반적인 자동차 환경에서 더욱 두드러집니다. 충분한 음성 인식 정확도를 보장하려면 차량 내 음성 어시스턴트의 '청각 기능'을 향상시켜야 합니다.
차량 내 음성 비서에 사람 수준의 청각 기능을 제공하는 기술 솔루션이 부족하기 때문에 일부 자동차 제조업체는 각 카시트 가까이에 마이크를 배치했습니다. 이러한 마이크 네트워크는 각 BOM(부품 명세서), 설치 및 유지 관리 비용 측면에서 비용이 많이 듭니다. 따라서 대부분의 차량에서는 오버헤드 컴파트먼트에 있는 단일 마이크 어레이를 사용하는 동안 음성 어시스턴트에 대한 액세스가 운전자로 제한됩니다.
카돔은 이러한 여러 문제를 해결하기 위해 기존 차량 내 음성 인식 시스템을 획기적으로 개선하는 모빌리티 부문을 위한 소프트웨어 솔루션을 개발했습니다.
카돔 모빌리티 는 오버헤드 컴파트먼트의 단일 마이크 어레이로 3개 좌석 열에 걸쳐 최대 6개의 스피커를 캡처할 수 있는 유일한 소프트웨어 솔루션입니다. 원하는 음성을 분리하고 배경 소음과 에코를 줄이며 음성 생체 인식으로 말하는 사람을 식별할 수 있습니다.
차량 내 음성 기술을 위한 효과적인 음성 캡처의 과제 살펴보기
차량의 음향 복잡성
자동차는 종종 시끄러운 환경입니다. 저속과 매끄러운 노면에서는 엔진 소리가 소음을 지배하지만 고속에서는 풍절음이 더 두드러집니다. 시내 주행 시 가장 큰 소음은 타이어와 노면 사이의 마찰로 인한 노면 소음입니다. 전기차는 엔진 소음이 적지만 도로 소음과 바람 소음은 여전히 음성 인식 시스템에 상당한 문제를 야기합니다.
게다가 공유 모빌리티와 자율 주행의 추세에 따라 자동차에는 여러 사람이 탑승하는 경우가 많습니다. 따라서 대화 소음, 스피커 간 간섭, 스피커 장치에서 발생하는 소음도 문제가 됩니다.
제조업체는 최상의 음성 사용자 경험을 제공하기 위해 차량 내 배경 소음과 여러 사람이 대화하는 문제를 해결해야 합니다. Voice.bot의 차량용 음성 어시스턴트 소비자 채택 보고서에 따르면 운전자의 60%가 음성 어시스턴트 품질이 의사 결정 과정에서 중요한 요소라고 답했으며, 13%는 중요한 요소라고 답했습니다.
또한, 운전자와 조수석 승객뿐만 아니라 차량에 탑승한 모든 승객이 완벽한 음성 지원을 기대합니다. 자율 주행 차량의 사용이 증가함에 따라 운전자와 동승자의 정확한 음성 상호 작용에 대한 요구는 더욱 중요해질 것입니다.
복잡한 통합 및 비용
빔포밍에 의존하는 OEM은 안정적인 음성 사용자 인터페이스를 구현하기 위해 차량의 루프 라이너에 승객당 하나씩 마이크 어레이를 배치해야 합니다. 각 마이크 어레이는 빔포밍 알고리즘을 사용하여 주행 소음과 간섭 스피커를 완화하면서 대상 스피커로 사운드 캡처를 유도합니다 .
신뢰성 향상을 위해 여러 대의 마이크를 배치하는 것은 상당한 비용이 듭니다. 마이크 네트워크를 각 차량의 실내에 맞게 맞춤화해야 하므로 BOM 설치 및 유지보수 비용이 많이 들고 설계 비용도 많이 듭니다.
또한 여러 개의 마이크 어레이를 배치하면 디자인 제약이 발생하고 차량의 미관이 손상됩니다. 예를 들어, 유리 상단이 있는 차량은 좌석 위에 마이크를 설치할 수 없습니다.
자동차 제조업체가 오버헤드 컴파트먼트에 단일 마이크 어레이만 사용하지 않고 빔포밍을 사용하여 차량의 모든 좌석으로 음성 캡처를 유도하는 이유는 무엇일까요? 답은 간단합니다. 효과가 없기 때문입니다.
빔포밍은 "도착 방향"이라고 하는 일련의 1차원 파라미터를 사용하여 사운드스케이프를 모델링합니다. 그러나 차량과 같은 밀폐된 환경에서는 음파가 직접 경로를 따라 이동하다가 차량의 창문과 패널에서 반사되어 결국 수백 개의 다른 방향에서 마이크 어레이에 도달하게 됩니다.
빔포밍은 하나의 경로에만 집중할 수 있기 때문에 실제 사운드 환경을 잘못 표현할 수 있습니다. 따라서 빔포밍 기술은 스피커가 마이크에서 50cm 이상 떨어져 있으면 음성을 효과적으로 캡처하지 못합니다.
카르돔의 혁신
카르돔의 혁신에는 스팟 포밍이 포함됩니다. 이 독자적인 다차원 사운드스케이프 분석 방법은 환경의 각 음원과 마이크 어레이 사이의 상대적 위치를 추출하여 공간의 에코와 같은 공간적 단서를 해독합니다.
스팟 포밍은 사운드스케이프에서 각 음원이 생성하는 전체 반사 패턴을 유추할 수 있는 기술입니다. 이 기술은 음원(말하는 사람)이 아무런 조치를 취하지 않고도 이를 수행합니다. 환경 지오메트리와 소스와 장치 사이의 상대적 위치가 반사 패턴을 정의합니다. 결과적으로 스팟 포밍은 공간 내 위치에 따라 스피커를 분류할 수 있는 위치 기반 기술입니다.
스팟 포밍은 빔포밍의 고유한 모델링 결함을 극복하고 밀폐된 환경에서 다차원 사운드스케이프를 정확하게 디코딩합니다. 카돔의 솔루션은 오버헤드 컴파트먼트에 있는 단일 마이크 어레이가 차량의 각 탑승자를 향해 음향 줌을 생성할 수 있기 때문에 자동차에서 실용적인 이점을 제공합니다.
카돔 모빌리티
스팟 포밍 프레임워크를 기반으로 카돔은 자동차 산업을 위한 완벽한 에지 오디오 스택인 카돔 모빌리티를 개발했습니다.
카돔 모빌리티에는 다음과 같은 기능이 포함되어 있습니다:
- 스팟 포밍 기반 오디오 프런트 엔드(AFE): 스팟 포밍의 3D 모델은 잔향을 사용하여 여러 위치에서 소리(음성)를 분리합니다. AFE에는 다중 채널 음향 반향 제거, 소음 감소, 소스(스피커) 분리, 차량 내에서 음성이 어디에서 나오는지 식별하는 기능이 포함되어 있습니다.
- 웨이크 워드: "Alexa" 또는 "Hey Siri"와 같은 특정 트리거 단어를 들을 때만 청취를 시작하도록 설계된 독점적인 Edge 인식 모델입니다.
- 음성 생체 인식: 개인의 음성을 기반으로 사용자를 식별/인증하기 위한 독점적인 엣지 모델입니다.
카르돔 모빌리티 소프트웨어 패키지는 스팟 포밍을 사용하는 포괄적인 음성 스택입니다. 독점적인 음성 생체인식 및 웨이크 워드 AI 모델이 그 위에 사용되며 스팟 포밍 프레임워크에서 작동하도록 설계 및 학습됩니다.
카르돔의 공간 청각 소프트웨어는 가장 까다로운 음향 환경에서도 기계가 화자의 음성, 위치, 음성 콘텐츠를 정확하게 인식할 수 있도록 지원합니다. 음성 AI 모듈을 AFE 훈련 프로세스에 통합하는 Kardome의 접근 방식은 AFE와 음성 AI를 독립적으로 개발하는 단편적인 시스템과 비교했을 때 뛰어난 성능을 제공합니다.
카돔 모빌리티는 다음과 같은 차량 내 사용 사례를 지원합니다:
- 커뮤니케이션
- 핸즈프리 전화
- 차량 내 통신, 안내 방송 모드 전용
- 음성 인공 지능(AI)
- 깨우기 단어 인식
- 음성 식별
- 자동 음성 인식: 타사 ASR 엔진과의 인터페이스를 통해.
AFE 모듈은 음성 AI 모듈과 핸즈프리 전화(HFT)와 같은 통신 모듈에 입력을 제공하는 두 가지 방식으로 작동합니다. 음성 AI에서 AFE는 대상 화자를 분리하여 음성 인식률을 개선하고, 두 번째 레짐은 출력에서 음성 품질을 최적화합니다. 시스템은 두 시나리오 모두에서 성능을 극대화하기 위해 이러한 매개변수를 자동으로 전환합니다.
아래는 8개의 MEMS 마이크로 구성된 마이크 어레이를 활용하는 AFE 모듈의 블록 다이어그램입니다. 이러한 시스템에는 머리 위 공간에 있는 단일 마이크 어레이를 사용하여 3개 좌석 열에 걸쳐 최대 6개의 사운드 캡처 지점이 있습니다.
이 연구에서 음성 AI 애플리케이션과 HFT를 위한 AFE의 성능을 요약했습니다( https://bit.ly/speechrecognitionstudy).
하드웨어와의 원활한 통합
카돔 모빌리티는 인포테인먼트 시스템 펌웨어에 통합된 소프트웨어 솔루션입니다.
OEM은 기본 애플리케이션 프로세서(AP)에서 리눅스 라이브러리 또는 안드로이드 애플리케이션으로 소프트웨어를 구현할 수 있습니다. 또는 퀄컴의 헥사곤 DSP나 삼성의 하이파이 DSP와 같이 AP 실리콘에 통합된 전용 DSP를 사용하거나 외부 전용 칩을 사용하여 Kardome Mobility를 구현할 수도 있습니다. 이 경우 Kardome Mobility 소프트웨어는 음향 에코 캔슬레이터 구현을 위해 오디오 출력 레퍼런스 신호에 액세스할 수 있어야 합니다.
카돔 모빌리티는 4개 이상의 마이크로 구성된 모든 마이크 어레이에서 작동할 수 있습니다. 사용되는 마이크 소자는 일반적으로 간단한 MEMS 마이크입니다. Kardome Mobility의 일반적인 마이크 어레이는 전체 크기가 20 x 50 x 5mm인 8개의 MEMS 마이크로 구성됩니다. 또한 앞서 언급했듯이 OEM은 일반적으로 이러한 마이크 어레이를 오버헤드 컴파트먼트에 배치하고 A2B 오디오 버스를 사용하여 중앙 인포테인먼트 시스템과 인터페이스하는 것을 선호합니다.
결론: 카돔 모빌리티의 차량 내 음성 기술 혁명
카돔 모빌리티는 차량 내 음성 기술의 혁신을 선도하고 있습니다. 이 회사의 스팟 형성 음성 AI 기술은 기존 음성 시스템의 한계를 없애고 각 승객에게 개인화된 음성 인터페이스를 제공합니다. 카르돔의 혁신적인 접근 방식은 정밀하고 정확한 음성 인식을 보장하여 진정으로 연결된 개인화된 주행 경험을 위한 기반을 마련합니다.
카돔 모빌리티에 대해 자세히 알아보기: https://bit.ly/Kardome-Mobility