AR 글래스에서 오디오 프런트엔드의 중요한 역할
음성 제어는 증강 현실(AR) 안경의 핵심 기능으로, 사용자가 핸즈프리로 디지털 세상과 상호 작용할 수 있게 해줍니다. 그러나 사용되는 오디오 기술의 성능이 사용 편의성과 광범위한 채택에 매우 중요합니다.
음성 제어는 AR 글래스의 핵심 기능으로, 사용자가 핸즈프리로 디지털 세상과 소통할 수 있게 해줍니다.
음성 제어 AR 글래스의 예로는 비상 대응 훈련 및 기업용 실시간 혼합 현실 협업 플랫폼으로 제작된 Magic Leap 2와 의료, 제조 및 물류창고 부문을 위한 Vuzix가 있습니다. Apple의 AR 안경은 몇 년 동안 출시되지 않을 예정이지만 눈, 손, 음성으로 제어할 수 있는 혼합 현실 헤드셋인 Vision Pro를 출시했습니다.
이러한 기업들은 이미 AR 글래스에 음성 인식 기능을 통합했지만, 사용 편의성과 광범위한 채택을 위해서는 사용되는 오디오 기술의 성능이 매우 중요합니다.
스마트 AR 글래스의 오디오 프론트 엔드는 사용자의 음성을 캡처하고 처리합니다. 주변 소음을 걸러내고 음성 ID 또는 통신 모듈로 신호를 전송합니다. 정확한 음성 제어를 통해 사용자는 핸즈프리로 안경을 조작하고 전화 통화 및 비디오 녹화를 할 수 있습니다.
빔포밍 - AR 글래스에서 음성 사용 시 제한 요소
지금까지 AR 안경과 기타 음성 사용자 인터페이스는 주변 소음을 줄이고 화자의 음성을 분리하기 위해 빔포밍 기반 기술을 활용했습니다. 빔포머는 신호가 마이크 어레이에 도달하는 방향에 따라 신호를 분리합니다. 빔포밍 솔루션은 Qualcomm, NXP, MediaTek, DSP 등 다양한 공급업체에서 제공합니다.
하지만 빔포밍에는 몇 가지 본질적인 한계가 있습니다. 첫째, AR 안경의 경우 프레임의 너비 또는 길이에 의해 제한되는 어레이 조리개(어레이 간격)에 마이크가 가까이 배치될수록 성능이 저하됩니다. 일반적으로 빔포밍은 왜곡을 추가하지 않고 어레이에 있는 N개의 마이크에 대해 ~N^2dB의 노이즈 감소 효과를 제공할 수 있습니다.
빔포밍의 또 다른 한계는 에코를 효과적으로 처리하지 못하거나 소음과 원하는 음성이 같은 방향에서 나오는 상황을 처리하지 못한다는 점입니다. 또한 Qualcomm의 Fluence와 같은 일부 솔루션은 지원할 수 있는 마이크 수에 제한이 있으며, 이 경우 최대 3개까지만 지원합니다.
카르돔 공간 청각
AR 글래스용 소프트웨어
이러한 과제를 염두에 두고 카르돔은 반향을 활용하여 여러 위치에서 소리(음성)를 분리하는 3D 신경망 기반 모델을 사용하여 고유한 스팟 형성 기술을 개발했습니다.
카돔의 공간 청각 소프트웨어는 특허받은 스팟포머를 기반으로 한 종합적인 음성 스택입니다. 이 소프트웨어는 빔포밍 기반 솔루션에 비해 뛰어난 노이즈 감소, 소스 분리 및 오디오 확대/축소 기능, 음성 인식 정확도 향상, 웨이크업 워드 기능, 매우 정확한 생체 인식 기능을 제공하며, 이 모든 기능을 연결 없이 안경의 프로세서에서 직접 수행할 수 있습니다. 이러한 기능을 통해 AR 글래스는 향상된 음성 사용자 경험과 기능을 제공할 수 있는 잠재력을 발휘합니다.
음성 AI- 빔포밍에서 벗어나기
카르돔의 AI 기반 접근 방식은 시시각각 변화하고 시끄럽고 울림이 있는 환경에서 음성 인식 성능을 향상시킵니다. Kardome의 음성 AI는 "스팟 포밍"이라고 하는 모든 환경 소음원의 음향 프로파일을 지속적으로 분석하고 이에 적응함으로써 이를 수행합니다.
스팟 포밍은 원하는 음원 주위에 가상의 버블을 생성하는 것으로 생각할 수 있습니다. Kardome의 공간 청각 소프트웨어는 직접 및 여러 경로에서 소리를 캡처하여 공간에서 원하는 소스의 위치에 오디오 포커스를 맞출 수 있습니다.
결과적으로 출력 신호 대 잡음비(SNR)가 크게 증가합니다. Kardome은 눈에 띄는 왜곡을 추가하지 않고도 성능을 획기적으로 개선하고 간섭 신호를 최대 ~35𝑑𝐵까지 감쇠합니다.
또한 Kardome의 AI 기반 스팟 포밍 기술은 10𝑑𝐵 미만의 SNR에서 음성 인식 성능을 크게 향상시킵니다. 시끄러운 환경에서 Kardome을 적용하면 SNR ≅-15 𝑑𝐵의 까다로운 시나리오에서도 ASR이 작동하지 않는 것과 원활한 사용자 경험을 제공하는 것의 차이를 만들 수 있다는 점을 언급할 필요가 있습니다.
AR 글래스용 카르돔 음성 AI(
)의 3가지 이점
음성 커뮤니케이션
AR 글래스는 여러 음성 사용 사례를 동시에 지원해야 합니다: 전화를 걸기 위한 핸즈프리 전화, 음성 인식 엔진과 대화하여 AR 안경의 인터페이스와 상호 작용하기 위한 음성 인식, 불필요한 목소리와 소음을 제거하면서 동영상을 녹화하는 것 등이 있습니다.
경험상 사람의 귀는 음성 왜곡이 더 심해지더라도 더 나은 소음 감소를 선호합니다. 반면, ASR은 일반적으로 배경 소음이 일부 남아 있더라도 왜곡 없는 음성을 선호합니다.
각각에 맞게 최적화하려면 오디오 프런트 엔드에서 서로 다른 시스템 설정이 필요하며, 특히 장치가 항상 청취 중인 경우 동시에 작동할 수 있어야 합니다.
Kardome은 간섭 신호를 최대 35𝑑𝐵까지 완화하여 기기의 사용자 인터페이스를 방해하는 원치 않는 소음과 음성 문제를 해결합니다. 음성 분리, 에코 제거, 노이즈 감소 등 Kardome의 핵심 기술을 통해 어떤 까다로운 음향 환경에서도 AR 글래스에서 왜곡 없는 음성 인식을 구현할 수 있습니다.
보안
음성 기술을 사용하는 모든 장치는 인터페이스에 대한 원치 않는 액세스를 방지해야 합니다. 이를 달성하기 위한 두 가지 보완적인 방법이 있습니다. 첫 번째는 외부 음성을 감쇠시켜 AR 글래스를 사용하지 않는 사람은 유효한 오디오 소스가 될 수 없도록 하는 것입니다. 두 번째는 음성 생체 인식을 사용하여 인증된 사용자를 정확하게 식별하는 것입니다.
그러나 첫 번째 경우 외부 소음이 어느 방향에서든 발생할 수 있으므로 빔포밍으로 외부 소음을 줄이는 것은 어렵습니다. 두 번째 경우에는 음성 생체 인식이 화자를 정확하게 식별해야 하며 몇 초 내에 이 작업을 수행해야 합니다.
Kardome의 기술은 시끄러운 환경에서도 말하는 사람을 매우 정확하게 식별하는 음성 생체인식 기술을 제공합니다. 최근 연구에 따르면 카르돔의 공간 음성 생체인식은 어떤 음향 환경에서도 1초 정도의 짧은 발화에 대해 95%의 정확도를 제공합니다.
비디오 녹화
AR 글래스의 또 다른 용도는 원격 지원, 교육 등을 위해 사용자가 보는 것을 비디오로 녹화하여 공유하는 것입니다. 예를 들어 사용자가 특정 영역에 집중하고 있을 때(예: 문제를 진단하려고 할 때) 오디오가 기계든 사람이 말하든 사용자가 보고 있는 곳에 초점을 맞추는 것이 유용합니다. 이 기능을 오디오 줌이라고 하며 오디오 프런트 엔드가 안경의 초점과 안경에서 발생하는 소음을 동기화해야 합니다.
오디오 줌은 단일 스피커와 같이 선명한 음원이 있을 때 가장 잘 작동합니다. 여러 사람이 말하면 하나의 음성을 분리하기 어려울 수 있습니다. 이 시나리오에서는 음성 처리에 누수가 발생할 수 있습니다.
카돔의 오디오 줌은 특허받은 공간 청각 기술을 사용하여 원하는 화자의 목소리에 초점을 맞추고 배경 소음과 다른 사람의 말을 제거하여 비디오 녹화와 함께 선명한 오디오를 제공합니다.
결론
전반적으로 스마트 AR 안경의 오디오 프런트 엔드는 음성 사용자가 긍정적이고 생산적인 경험을 할 수 있도록 하는 데 중요한 역할을 합니다. 오디오 프런트 엔드는 음성을 오류 없이 처리하고, 중요하지 않은 소리는 감쇠시키고, 중요한 소리에 집중함으로써 스마트 AR 글래스의 기능, 보안, 사용자 친화성을 향상시킬 수 있습니다.
카르돔의 공간 청각 기술은 제조업체가 직면한 기술적 과제를 극복하여 AR 글래스에서 더 나은 오디오 경험을 제공하고 사용자 인터페이스, 녹음, 보안 및 음성 통신에 여러 가지 이점을 제공합니다.
AR 글래스가 점점 더 많은 사용 사례를 처리함에 따라 강력한 오디오 프런트 엔드에 대한 필요성이 증가할 것입니다. 카르돔의 공간 청각 기술은 이러한 요구를 충족할 수 있는 최적의 위치에 있습니다.