2020년의 음성 인식 기술 과제와 미래의 가능성

2020년 음성 인식 업계는 많은 도전에 직면했습니다. 2021년과 그 이후에는 모든 분야에서 더 나은 VUI를 기대합니다.

전 세계적으로 우리 모두에게 가장 어려운 한 해였습니다. COVID-19는 우리의 삶을 뒤흔들었고, 우리가 일하고, 소통하고, 사교하는 방식을 근본적으로 변화시켰습니다. 이러한 변화로 인해 이상적인 환경이 아닌 환경에서 명확하고 이해할 수 있는 음성 인식을 제공할 수 있는 음성 기술 서비스에 대한 수요가 급격히 증가했습니다. 전염병에 계속 어려움을 겪고 있는 가운데, 우리는 또한 업무, 교육 및 사회적 요구를 충족시키기 위해 최적의 음성 기술을 달성하기 위해 고군분투하고 있습니다.

이 문서에서는 음성 인식 장치에 대한 수요 증가가 이미 존재했던 음성 기술 과제와 이러한 문제를 극복하는 데 필요한 사항을 강조한 방법을 살펴봅니다. 또한 2021년 이후 음성 기술의 발전 가능성을 모색하고 있습니다.

배경 소음이 있는 오디오 / 화상 회의

유행병과 계속 된 홈 주문에 체류 음성 사용자 인터페이스 (VUI) 장치와 소비자직면 이미 기존의 어려움을 고조.

자녀가 별도의 오디오 컨퍼런스 장치를 사용하여 배우고자하는 동안 줌 통화에서 집에서 일하는 부모는 2020 년 최고의 음성 기술 도전으로 많은 사람들이 지명 할 수 있습니다.

같은 가정이든 주변 환경이든 여러 스피커와 소음의 배경 Din은 비디오 또는 오디오 회의 중에 의사 소통을 하거나 자동차, 휴대 전화 또는 디지털 음성 비서와 이야기하는 동안 통신하는 기능을 방해합니다.

신뢰할 수 있는 음성 사용자 상호 작용 환경을 제공하기 위해서는 정확한 음성 인식 및 음성 향상 기술이 필요합니다. 음성 지원 장치를 만들고 기존 기술을 보완하는 VUI 기술을 통합하는 회사는 음성 기술을 사용하는 모든 산업에서 이점을 얻을 수 있습니다.

음성 인식 및 음성 도우미 장치

전염병이 큰 혼란을 일으킨 후 음성 비서의 채택이 급증했지만, 특히 스마트 폰의 디지털 비서에게 는 사용자 불만이 항상 문제가되었습니다. 프라이스워터하우스쿠퍼(PricewaterhouseCooper)가 실시한 연구에서 설문조사에 참여한 응답자의 62%가 이해력, 신뢰성 및 정확성 부족으로 좌절감을 표시했습니다.

그러나, 아이들은 음성 및 음성 인식 기술을 사용할 때 가장 어려움을 겪을 수 있습니다, 특히 가정 학습 환경에서.

음성 인식 장치는 어린이를 염두에 두고 설계되지 않았습니다. 아이들의 목소리, 언어, 종종 불규칙한 행동은 성인보다 훨씬 더 복잡합니다. 구문, 문법 및 발음은 물론, 어린이 음성 패턴, 언어 구조 및 음성 피치(나이가 들면서 극적으로 변경됨)의 변수는 음성 인식 장치에서 고려해야 합니다. 성인은 더 명확하게 말하고 톤과 표현을 변경하여 요청을 수정할 수 있지만, 어린이, 특히 어린 아이들은 디지털 음성 비서로부터 오류 메시지 나 잘못된 응답을받지 못하는 경우가 많습니다.

가정에서 교육하는 동안 배경 소음의 추가 문제와 이러한 문제를 결합, 아이들은 음성 지원 장치와 통신하는 시도를 포기합니다. 더 나쁜 것은 의도된 메시지를 이해하지 못하는 기계에 의해 옳을 때 잘못되었다고 말하는 아이가 자신감을 손상시킬 수 있다는 것입니다. 그 반대는 해로울 수 있습니다. 거짓 긍정을 주는 것은, 아이가 잘못된 대답이 옳다고 말할 때, 사회 정서적 해를 입힐 수 있습니다.

음성 사용자 인터페이스 디자이너의 과제는 아이들이 말하는 방식을 배우고 적응할 수 있는 음성 인식 기술을 개발하는 것입니다.

신뢰 및 개인 정보 보호 문제의 부족

전염병은 2020년에 온라인 쇼핑의 급증을 일으켰으며, 이러한 성장은 앞으로도 계속될 것으로 예상됩니다. 소매업체들은 3월 이후 전자상거래 매출이 30%에서 40% 증가했다. 그러나, 신뢰의 부족은 온라인 쇼핑의 추가 성장에 상당한 억제제. PwC에따르면, 소비자 4명 중 1명은 현재 또는 미래에 음성 비서를 사용하여 쇼핑하는 것을 고려하지 않을 것이라고 말합니다. 그리고 설문 조사에 응한 46%는 음성 비서가 주문을 올바르게 처리하도록 신뢰하지 않는다고 답했습니다. 음성 도우미를 사용하여 온라인으로 지불하는 것을 불신하는 것은 또한 사람들이 이러한 장치를 사용하지 못하게합니다.

개인 정보 보호 문제는 음성 지원 장치를 채택하는 데 결정적인 요소입니다. 일부 교사는 교실에서 VUI 장치를 사용하는 이점을 소중히 여기지만, 많은 학군은 아동 온라인 개인 정보 보호법 준수에 대한 우려로 음성 기술을 구현하지 않습니다.

개인 정보 보호 문제는 또한 다른 분야에서 음성 기술에 직면, 은행 및 금융에서 데이터를 안전하게 유지 하거나 단순히 듣기 위한 것 하지 귀에서 특정 정보를 유지.

음성 기술 회사는 이러한 시장에서 더 발전하기 위해 이러한 우려를 해결해야합니다. 음성을 정밀하게 획득하고 음성 인식 시스템에서 처리되는 정보의 흐름을 완화하는 VUI 설계가 도움이 될 수 있습니다.

터치리스 스크린

코로나바이러스는 스크린을 포함하여 일상 생활에서 우리가 만지는 것들에 대한 인식에 실질적으로 영향을 미쳤습니다. 식료품점에서 은행 ATM 및 공항 키오스크, 엘리베이터 버튼에 이르기까지 위생이 최전선에 서게 됩니다.

이러한 영역 중 일부는 음성 제어 기술을구현하지만 많은 사람들이 시대를 따라 잡을 필요가 있습니다. 그리고 이미 음성 인식 및 제어를 사용하는 사람들은 시끄러운 환경에서 제한된 기능을 가질 수 있습니다.

"미래는 분명하고 간단합니다. 더 이상 버튼이 없습니다. 리모컨, 키보드, 라이트 스위치, 터치 스크린, 모든 기록이 될 것입니다.

VUI는 음성-텍스트 기술의 신뢰성저하, 발음 된 지침을 디코딩할 책임이 있는 구성 요소의 신뢰성저하로 인해 피해를 입은 것입니다. 배경 소음을 줄이고 동시에 대중에게 대화형 화면을 제공하는 모든 산업에 명확한 음성 인식이 필요한 음성 향상 기술이 필요합니다.

음성 인식 기술의 미래

음성 향상 기술은 특히 이 전염병 동안 Zoom과 같은 플랫폼을 사용하거나 디지털 비서에게 지시하거나 온라인 음성 전사 서비스를 사용하는 데 매우 중요하지만 음성 인식이 이미 큰 개선을 겪고 있는 다른 많은 영역이 있습니다.

인간 중심의 접근 방식

음성 사용자 인터페이스 및 음성 인식 기능에서 많은 문제를 해결할 수 있는 것은 기술을 설계하여 인간 중심이 되는 것입니다.

최고 수준에서 인터페이스는 덜 엄격하거나 덜 '기계 중심'이되어야하며, 대신 인간은 엄격한 흔들리지 않는 언어 법을 사용하지 않고 기계와 자연스럽게 상호 작용할 수 있습니다.

이 인간 중심의 접근 방식은 음성 인식 장치와 상호 작용하는 아이들의 문제를 해결할 수 있습니다. 또한 Google과 Amazon과 같은 기업들은 사람들의 감정을 분별하기 위해 더 깊은 대화 기술과 기술을 개발하고 있습니다. 이러한 유형의 기술은 음성 인식에서 예기치 않은 변수의 문제를 해결할 수도 있습니다.

더 이상 버튼 없음

카르돔의 공동 창립자이자 연구 개발 이사인 알론 슬라팍(Alon Slapak)은 "미래는 분명하고 간단합니다. "주변에 더 이상 버튼이 없습니다. 리모컨, 키보드, 라이트 스위치, 터치 스크린, 모든 기록이 될 것입니다. 스마트 폰을보고 불과 10 년 전에 사용했던 버튼과 키보드를 기억하십시오. 당신의 손길은 사랑하는 사람들에게 수여될 것입니다."

스위치, 줄기, 버튼 및 터치 스크린을 제거하는 것은 현대 MEMS 마이크보다 생산비용이 더 비싸며 많은 민간 및 공공 비즈니스 부문에 유익한 영향을 미칠 수 있는 음성 기술의 비용 효율적인 발전입니다.

기계 학습 및 인공 지능

머신 러닝, 인공 지능(AI), AI를 공급하는 데이터는 음성 인식의 개선을 유도하는 중요한 요소입니다.

머신 러닝은 음성 기술의 lynchpin이며 AI를 제공하고 AI를 더 스마트하게 사용하는 기계를 제공하는 끊임없이 성장하는 데이터입니다. AI 인 보이스는 경험에서 배우고, 트렌드를 파악하고, 해답을 제공하기 위해 만들어졌습니다.

최근 보이스 토크 에피소드에서 타다 랩스의CEO 인 레슬리 파운드 (Leslie Pound)는 "실제 쿼리 데이터에 연결된 음성"이 음성 기술의 미래라고 예측했습니다.

"데이터에 더 많은 연결을 볼 수 있습니다," 파운드는 말했다. "데이터는 매년 두 배로 증가하고 있습니다. 데이터는 우리의 조명, 우리의 전화, 우리의 자동차에서 오고있다. 우리는 데이터와 데이터베이스의 전체 인프라를 가지고 있으며, 우리는 사람들이 그 인프라와 점점 더 통합 볼 수 있습니다."

연사 검증을 포함한 개별화된 경험

또한 음성 인식 장치와의 보다 개인화된 상호 작용도 볼 수 있습니다. 이미 Google Home과 같은 디지털 음성 비서를 사용자 지정하여 음성에만 응답하고 뉴스, 날씨, 일정 및 설정된 음성 활성화를 기반으로 엄선된 팟캐스트와 같은 사전 수정된 항목 목록을 읽을 수 있습니다.

아마존의 알렉사는 가정에서 모든 사람에 대 한 응답을 개인화할 수 있습니다. Alexa의 음성 인식 기능은 시간이 지남에 따라 더욱 스마트해짐에 따라 개인화된 답변의 정확성을 보다 정확하게 만듭니다.

불과 3년 만에 10,000명에서 100,000명 이상으로 증가한 음성 인식 기술이 증가하는 것은 개인화 가능성을 계속 확대해 나갈 것입니다.

사전 음성 도우미

음성 인식 및 개인화의 다음 연령은 음성 비서가 원하는 것을 예측할 수 있는 능력입니다. 알렉사의 수석 과학자인 로히트 프라사드(Rohit Prasad)의 알렉사 대화 데모에서 알렉사는 저녁의 모든 부분에 대한 새로운 요청을 기다리기보다는 밤을 계획하는 데 도움을 주었습니다. 사용자는 영화 티켓을 예약하도록 요청하는 등 대화를 시작해야 합니다. 알렉사는 저녁 식사 예약을 예약하거나 Uber에 전화할 것인지 묻는 질문을 통해 인계를 받습니다.

사용자와 사전에 소통할 수 있는 이 기능은 음성 인식 장치가 사용자의 일상 생활에서 방대한 양의 데이터를 듣고 기록할 수 있는 하드웨어와 소프트웨어가 필요합니다. 또한 주당 수십억 개의 사용자 상호 작용을 통해 학습하는 Alexa는 일반적으로 함께 사용되는 기술을 알고 있으므로 권장 사항에 따라 기술을 지능적으로 예측하고 패키지할 수 있습니다.

옴니젠드 음성 인식 통합

미래는 이미 여기에 있는 것처럼 보이지만 스마트 TV, 시계, 스피커, 자동차 음성 비서 등음성 지원 스마트 장치의 성장은 계속되고 있습니다.

자동차 산업은 음성 인식 장치의 추가 통합을 위해 잘 익고 있습니다. 스마트 스피커, 음성 비서 및 음성 제어 탐색은 모두 보다 쉽고 안전한 주행 경험을 제공합니다. Capgemini 연구소는 2022년까지 자동차에서 음성 비서의 소비자 사용이 95%에 이를 것으로 예상하고 있습니다.

스마트 카 어시스턴트가 각 스피커(운전자 또는 승객)와 차량의 위치를 식별하고 개인화된 응답을 제공하는 동안 음성을 사용하여 창문을 열고, 자동차를 시작하고, 에어컨을 켤 수 있는 날이 곧 올 것입니다.

이러한 기술은 카르돔에서 진행되고 있다. 이스라엘 텔아비브에 있는 르노-닛산-미쓰비시의(RNM) 혁신 연구소는 현재 자동차 애플리케이션을 위한 카르돔의 스마트 오디오 솔루션을 평가하고 있습니다.

왼쪽부터 르노-닛산-미쓰비시 이노베이션 랩 TLV의 알릭 고렌슈테인 데이터 및 AI 리드, 카르돔 디렉터 R&D 알론 슬라팍, CEO 다니 체르카스스키. VUI 기술 회사는 르노-닛산-미쓰비시의 혁신 연구소를 통해 스마트 오디오 솔루션을 테스트하고 있습니다.

가상 도우미와 함께 작동하는 음성 지원 스마트 TV는 세련된 마이크 어레이의 도움으로 더 많이 재생됩니다.

게임 산업은 음성 기술 통합에 대한 익은입니다. Adobe의 설문 조사에따르면 스마트 스피커 소유자의 63%가 거실에 1개를 보유하고 있습니다. 이러한 사용은 게임 산업과 음성 기술 세계가 친구와 가족을 위한 음성 지원 경험을 구축할 수 있는 중요한 기회를 제공합니다. 이미 회사는 음성 제어 테이블 탑 게임을 제공하고 있습니다. 넷플릭스는 도피오 게임즈와 협력하여인기 공상 과학 시리즈인 3%를 기반으로 멀티플레이어 음성 제어 게임 '3% 챌린지'를 개발했다. HBO, 레고, 프레첼 랩 및 기타 회사들도 음성 제어 게임을 개발했습니다.

타다 연구소의 파운드는 음성 인식 기술의 확장을 다음과 같은 몇 가지 주요 영역으로 확대합니다.

회의의 음성
실제 데이터에 연결된 음성
비즈니스 인텔리전스를 위한 음성
건설의 목소리

음성 인식을 보다 광범위하게 통합할 것으로 예상되는 다른 분야는 헬스케어 및 금융 산업입니다.

요약에서

2020년은 음성 인식 기술 산업이 많은 분야에서 VUI를 신속하게 해결하고 개선하도록 추진했습니다. 그러나 많은 영역은 여전히 개선이 필요합니다. 배경 소음, 다중 스피커 환경, 음성 명령을 지능적으로 전사하는 등의 문제로 많은 장치 및 사용자의 음성 상호 작용 환경이 약화됩니다. 올해 VUI 개발자들이 직면한 과제는 음성 기술의 미래에 영감을 줄 뿐입니다.

Kardome이 음성 상호 작용 경험을 개선하는 방법에 대해 알아보십시오. 데모 예약

2020년의 음성 인식 기술 과제와 미래의 가능성

목차

배경 소음이 있는 오디오 / 화상 회의

음성 인식 및 음성 도우미 장치

신뢰 및 개인 정보 보호 문제의 부족

터치리스 스크린