음성으로 기계와 원활하게 소통하는 데 방해가 되는 요소는 무엇일까요?

원활한 음성 대화 환경을 향한 여정의 주요 장애물

음성으로 기계와 원활하게 소통하는 데 방해가 되는 요소는 무엇일까요?

오하드 셰멘 아리엘리
오하드 셰멘 아리엘리
부사장 비즈니스 개발
기술

목차

인간-기계 통신의 미래에 대해 많은 글이 쓰여졌습니다. 그의 저서 "특이점이 가깝다"에서 레이 커즈와일은 다음 논리적 단계는 인간에게 손 제어에서 음성 제어, 마음 제어로 이동하여 우리의 마음에서 기계와 직접 의사 소통할 수 있는 능력을 제공하는 것이라고 주장합니다.

그러나 우리가 마음 통제 의사 소통의 원하는 단계에 도달하기 전에, 그것은 소리로 유령, 인간이 먼저 이전 단계와 관련된 해결해야 할 몇 가지 사소한 장애물이있다 ― 음성 제어.

대부분의 기술과 마찬가지로 혁신은 수요에서 싹트며 특정 기술의 채택이 상대적으로 높을 때 마지막 증가합니다. 예를 들어, 혁신적인 기술로 끊임없이 파열되고 있는 자동차 산업을 예로 들자면, 인간이 여전히 말을 한 지점에서 다른 지점으로 가져가기 위해 수단으로 말들을 사용하고 있다면 오늘날 테슬라가 존재했다고 가정해 보시겠습니까? 그렇지 않다고 가정하면, 상대적으로 낮은 채택률을 초래하는 나쁜 담당자로 고통받는 음성 제어에도 동일하게 적용됩니다.

음성 기술에 대한 "유리 천장"이 있습니다.

그렇다면 음성 제어 통신을 더 일반적으로 사용하지 못하게 하는 것은 무엇일까요? 제한된 시나리오에서만 음성 비서를 사용하고 동일한 특정 목적을 위해 음성 도우미를 정기적으로 사용하지 않는 이유는 무엇입니까?(예: 시간 동안 인포테인먼트 시스템을 요청하거나 누군가에게 전화하는 것)? 채택률을 늦추고 음성으로 더 광범위한 의사 소통에 도달하지 못하게 하는 음성 제어 기술 위에 "유리 천장"을 두는 것은 무엇입니까?

그 질문에 대한 대답은 간단합니다 — 신뢰. 신뢰에는 몇 가지 징후가 있지만, 가장 중요한 것은 무엇이라고 믿는지에 초점을 맞출 것입니다 - 그들은 단순히 우리를 잘 듣지 못합니다. 음성 사용자 인터페이스에 말하는 전반적인 경험은 일반적인 음향 조건에서 그렇게하려고 할 때 다소 실망스럽지만 음성 사용자 인터페이스를 신뢰하여 "작업을 수행"할 수 있고 예상대로 행동할 수 있는 지점에 도달하지 못했습니다.

다음은 빠른 질문입니다 - 당신은 당신이 창문을 열고 자동차를 운전하는 동안 또는 라디오가있는 동안 누군가에게 전화 알렉사 또는 Siri에게 물어 볼 것인가? 이렇게 하기 전에 직관적으로 조용한 환경을 유지하기 위해 노력할 것이고, 그 다음에만 음성 도우미를 다룰 수 있습니다. 이제 이것은 "마찰"이며 마찰은 신뢰에 영향을 미치고 신뢰는 수요에 영향을 미칩니다.

음성 명령 솔루션의 광범위한 채택률을 달성하기 위해 인간은 모든 종류의 환경에서 음성 사용자 인터페이스와 편안하게 통신할 수 있어야 하며 기계가 말한 대로 정확하게 수행될 것이라고 확신할 수 있어야 합니다. 이것은 전제 조건보다 더 이상 입니다.

당신은 더 구체적으로 할 수 있습니까?

음성 인식 프로세스에서 가장 초기적이고 중요한 구성 요소 중 하나는 자동 음성 인식(ASR) 엔진에 고품질 신호를 전달하는 "오디오 프런트엔드"입니다. 현재 ASR은 스피커의 음성 신호를 텍스트로 적절하게 변환하는 능력은 음성이 캡처된 공간의 음향 조건에 큰 영향을 받습니다. 인터럽싱 주변 환경과 간섭 하는 음성 신호가 낮을수록 변환 결과가 향상됩니다.

오늘날 대부분의 기업들은 환경 소음과 경쟁 스피커에 의해 원하는 음성이 손상된 일반적인 조건에서 ASR에 고품질 음성 신호를 제공하지 못하는 동일한 오래된 오디오 프런트 엔드 Beamforming 인프라를 사용하여 이 장애물을 해결하기 위해 노력하고 있습니다.

인간과 같은 예...

인간은 시끄러운 커피숍에서 대화를 나눌 수 있으며, 배경 소음과 여러 개의 경쟁 스피커로 구성된 복잡한 음향 장면을 각각 하나의 연설로 구성된 여러 단순화된 스피커로 클러스터할 수 있습니다. 클러스터링 시, 우리의 뇌는 장면 중 하나에 초점을 맞추고 다른 사람을 무시할 수 있습니다. 오디오 프런트 엔드 기술은 유사한 방식으로 수행해야하며, 음성 신호의 획득 혼합물을 개별 음성 구성 요소에 클러스터링하고 ASR에 각각의 개별 음성 구성 요소에 별도로 집중할 수 있는 기능을 제공해야 한다.

이러한 클러스터링 기능은 음향 시나리오를 정확하게 모델링하는 데 부족하여 예상까지 수행할 수 없는 단순화된 빔포머와 비교하여 보다 정교한 소스 분리 알고리즘을 적용하여 달성할 수 있습니다.

음성 인식 프로세스 다이어그램


우리가 "돌파구"를 찾고 인류를 원활한 음성 명령 시대로 이끄는 데 머무르는 것은 당연한 일입니다 (C'mon guys, 상상력을 사용하여 피자를 주문하고 싶지 않습니까...?), 이 도전을 이기기 위해서는 수십 년 된 기술을 사용하여이 도전을 극복 할 것으로 기대할 수 없기 때문에 심오한 변화가 필요합니다.

나를 잘못하지 마십시오, 그것은 STI, NLP 등과 같은 전체 음성 인식 프로세스의 다른 구성 요소가 성공적이고 원활한 인간과 같은 경험에 중요하지 않다는 것이 아니라, 오히려 다른 모든 것을 의존하는 가장 기본적인 기초로 보려고노력합니다. 간단하게 말해서, 기초가 약하면 다른 모든 것이 무너질 것입니다.

요약하려면

스피커를 둘러싼 음향 조건을 무시하는 원활한 음성 제어 경험을 촉진하는 것이 오늘날 음성 기술 기업의 주요 초점이 되어야 합니다.

일단 달성되면, 인류는 음성 제어 응용 프로그램에서 기하급수적 인 초안을 경험하고 제공하는 놀라운 가치 제안의 혜택을 누릴 것입니다 아마도 다음 도전을 향해 길을 이끌 것입니다, 당신이 무슨 뜻인지 알고 있다면 ...