현재 음성 인식 기술의 문제점
기술

현재 음성 인식 기술의 문제점

신뢰를 얻고 소비자와 기업의 음성 기술 채택을 지속적으로 가속화하려면 ASR 시스템 엔지니어와 음성 지원 디바이스 제조업체가 가능한 최고의 ASR 성능을 제공해야 합니다.

다니 체르카시키 박사
다니 체르카시키 박사
공동 창립자 CEO

목차

자동 음성 인식 (ASR) 엔진은 삼십 년 이상 사용되어 왔습니다. 이 기술은 어설프고 비용이 많이 들고 느린 받아쓰기 응용 프로그램에서 자동차, 가정, 교실 및 직장에서 인공 지능 기반 음성 인식 장치로 빠르게 발전했습니다.

소비자와 기업의 음성 인식 채택이 폭발적으로 증가한 것은 애플이 2011년 Siri 지원 아이폰 4S를 출시했을 때 발생했다. 당시 세계 음성 및 음성 기술 시장은 6 억 달러로 추산되었습니다. 시장은 2021 년에 8.3 억 달러에 달했으며 예측가들은 2027 년까지 놀라운 $ 22.2 billion에 도달 할 것으로 기대합니다.

음성 및 음성 기술 산업의 세 배의 성장에 대한 예측에도 불구하고, 음성 인식 성능 저하의 문제, 즉 시끄러운 환경에서, 간섭하는 신호 속에서 수행 할 수 없으며 누가 말하고 있는지 정확하게 식별 할 수없는 시스템은 이러한 기하 급수적 인 성장을 늦출 수 있습니다.

ASR 기술에 대한 소비자의 불만

2020년 전 세계 설문 조사에서 사용자의 73%는 정확도 가 음성 기술 채택을 저해하는 가장 큰 요인이라고 답했습니다.

악센트 및 방언 관련 문제는 사용자가 직면하는 두 번째로 실망스러운 문제입니다. 최종 사용자의 기대와 사용 및 통합의 복잡성 또한 음성 기술 채택의 장벽을 이끌고 있습니다. 

PwC 연구의 다음 인용문은 음성 인식 장치에 대한 현재의 좌절감과 중요한 장애물 인 신뢰의 예입니다.

"조수는 내 질문에 반쯤 대답 할 수는 없지만 돈과 관련된 것을 돕기 위해 그것을 신뢰해야합니까?"

—여성, 26세, PwC

Voicebot.ai 의 최근 연구에 따르면 지난 2 년 동안 스마트 스피커 사용이 급격히 감소한 것으로 나타났습니다. 대신 소비자들은 스마트폰 가상 비서를 더 많이 사용하고 있다. 

이것은 부분적으로 스마트 스피커의 음성 인식 기능에 대한 고객의 불만에 기인 할 수 있습니까? 스마트 폰이 사용자를 더 쉽게 이해할 수 있다는 것은 전화를 더 가까이 들거나 사용자의 목소리를 음성 인식 시스템에 더 가깝게 만드는 이어버드를 사용하는 사용자 때문일 수 있습니다.

음성 인식 성능이 떨어지면 소비자가 좌절합니다. ASR 시스템은 배경 소음, 여러 사람이 말하는 것, 신호 중단 및 거리로 인해 사람의 말을 정확하게 처리하고 이해하지 못합니다.

이상적인 ASR 시스템은 조용하거나 혼란스러운 환경에서 정확한 음성 인식을 제공합니다. 추가적으로, 완전한 음성 인식 장치는 음성 명령에 대한 정확하고 개인화된 응답을 제공하기 위해 누가 말하고 있는지, 그리고 그들이 어디에 위치하는지를 알 것이다.

신뢰를 얻고 소비자와 기업의 음성 기술 채택을 지속적으로 가속화하려면 ASR 시스템 엔지니어와 음성 지원 디바이스 제조업체가 가능한 최고의 ASR 성능을 제공해야 합니다.

ASR 기술적 과제 해결

음성 지원 장치는 홈 오토메이션에서 보조 및인지 지원에 이르기까지 우리 삶의 여러 측면에 혁명을 일으킬 수있는 잠재력을 가지고 있습니다.

많은 기업들이 고객 경험을 개선하고 브랜드 참여를 높이기 위해 음성 인터페이스를 배포합니다. 음성 인터페이스는 또한 고객 서비스 및 지원 또는 음성 인식 및 음성 합성이보다 정확하고 사용하기 쉬워짐에 따라 건강 및 금융 부문의 합리화와 같은 다른 목적으로 점점 더 많이 사용될 수 있습니다. 

IT 업계에서 음성은 새로운 것이 아닙니다. 그러나 음성 지원 스마트 폰의 인기와 가용성이 증가함에 따라보다 자연스러운 인간 - 기계 상호 작용에 대한 수요가 증가함에 따라 많은 소프트웨어 회사에서 최우선 과제가되었습니다.

음성 인식과 관련된 기술적 과제는 수년 동안 많은 회사에서 잘 알려져 있으며 해결되었습니다. 음성 지원 장치 시장은 이러한 문제를 해결하는 한 계속 성장할 것입니다.

연구에 따르면 Kardome은 까다로운 사운드 스케이프에서 95 %의 음성 인식 정확도를 제공합니다.

동반 된 연구에 따르면 Kardome의 음성 사용자 인터페이스 기술은 가장 시끄러운 사운드 스케이프에서 전통적인 음성 인식 알고리즘보다 성능이 뛰어납니다.

이 연구는 가장 조용한 것부터 시끄러운 것까지 다양한 환경에서 ASR 성능을 연구하여 Wake Word False Rejection Rate (FRR) 및 RAR (Response Accuracy Rates)을 측정합니다. 

우리는 팬, 에어컨 또는 어린이 놀이를 포함한 배경 소음이있는 전형적인 시끄러운 거실 환경에 배치 된 스마트 스피커를 사용하여 FRR과 RAR을 테스트했습니다. 또한 시끄러운 스마트 TV 옆에 놓인 스마트 스피커로 테스트를 실시했습니다.

연구 자료 다운로드 

이 독서를 즐겼습니까?

받은 편지함으로 바로 전송되는 최신 비디오 비즈니스 뉴스, 전략 및 인사이트를 최신 상태로 유지하세요!

지금 시작하기

사용자
목소리 제공

카돔의 VUI 기술은 모든 음성 지원 플랫폼 또는 스마트 기기와 통합할 수 있습니다.

다중 스피커 격리

배경 소음 제거

정확한 음성 인식