'음성검색'에 해당되는 글 3건

  1. 2012.03.19 Siri 일본어버전 vs NTT도코모의 Shabette Concier (1)
  2. 2008.12.02 휴대폰에서 음성인식으로 메일 전송은 물론 web 검색까지!
  3. 2008.11.17 구글, 아이폰 사용자들을 설레게 한다.

Siri 일본어버전 vs NTT도코모의 Shabette Concier

최근 아이폰4S의 음성인식기능 Siri가 일본어 지원을 공식 발표하면서, 일본은 물론 Siri를 기다리는 모든 사람들의 관심도가 더욱 높아진 것 같다. 이것은 단순히 Siri의 기능제공여부를 떠나서 해당 국가 언어의 인식율이 어느 정도일까에 대한 호기심 때문이 아닐까 생각된다.

그런데 일본 제1 이동통신사업자인 NTT도코모에서도 Siri 일본어 버전이 발표되기 전인 지난 2/27 안드로이드 기반의 자체 음성인식 기능앱 'Shabette Concier(샤베떼 콘쉐르)'를 발표하고, 3/1 구글 플레이(구 안드로이드 마켓)에 정식 출시하며, 일본 내 음성인식 서비스의 한판 승부를 예고했다. 아래는 Siri 일본어버전과 NTT도코모의 'Shabette Concier'의 비교 영상.



이 영상에 대해 일본 내에서는 NTT도코모 쪽이 좀 더 좋다는 의견들도 많은듯 하고 애플이 일본어 인식에 대해서 영어와 같은 수준으로 개선되어야 한다는 댓글이 달리기도 했는데, 실제로 지난 3/15 라이브도어에서도 Siri와 'Shabette Concier'의 간단한 비교 실험 결과로서 사용자의 음성명령에 대한 내용 이해 능력과 정확한 답변을 제공하는 능력은 'Shabette Concier'가 좀 더 우수하고 일본 현지에 최적화되어 있음을 기사화하기도 했다.

사실 단순하게 생각해 보더라도 아직 현실적으로 기계적인 통/번역 기술이 완벽하지 않은 상황에서 Siri가 다양한 국가의 언어에 100% 만족스럽게 기능 수행을 할 것이라는 기대를 한다는 것이 무리일 수도 있어 보이지만, 아무튼 역시 모든 서비스는 현지 커스터마이징이 필요하다는 것을 재입증한 사례가 아닐까 싶다.

여기서 NTT도코모의 'Shabette Concier'에 대해 공개된 내용을 좀 더 살펴보면, 이 기능은 일본 국산 음성인식엔진 'ATR-Trek'을 탑재하여 수십만 단어에 대한 인식율이 90% 이상이라고 하는데 인식율만 놓고 보면 일반적으로 음성인식 업계에서 이야기하는 높은 수준에 올라있는 것은 맞지만 그렇다고 아주 높다고도 볼 수 없어서 지속적인 인식율 고도화가 진행되고 있을 것으로 짐작된다.

사용자의 음성명령 만으로 다양한 정보 서비스와 스마트폰 내부 기능을 직관적으로 이용할 수 있도록 되어 있는데 사용자에 의해 음성으로 입력된 내용을 주요 콘텐츠 공급자가 제공하는 양질의 콘텐츠 중에서 사용자의 '의도'에 맞게 분석하여 질문에 맞는 답변을 화면에 표시해 주는 서비스로, 현재 맛집/레시피, 교통환승, 지도, 날씨, Shop, 병원, 이미지/동영상/음악, 뉴스, 게임컨텐츠, 앱, 책/만화컨텐츠 등의 정보 서비스와 전화, 이메일, 카메라, 메모, 스케줄, 알람, 타이머, 음악플레이어 등의 기능 연계가 가능한 상황이다.

<활용사례1. 정보 컨텐츠 검색 - 근처 레스토랑 찾기>




<활용사례2. 스마트폰 기능수행 - 음성명령으로 OOO에게 전화걸기>



'Shabette Concier'는 특히 사용자의 음성명령 인식에 필요한 복잡한 처리들을 스마트폰 단이 아닌 셀룰러 네트워크를 통해 NTT도코모의 네트워크 클라우드 단에서 처리하고, 이를 통해 사용자들이 사용하는 다양한 단말 기종에 종속적이지 않으면서도 정확하고 빠르게 음성 인식을 수행하여 사용자들의 요구에 부응하고 있다는 점을 부각시키고 있다.

이러한 'Shabette Concier' 서비스는 지난 2011년 11월 테스트 버전으로 제공하기 시작한 '통역전화' 서비스에 이어 자사 네트워크 클라우드를 기술을 활용한 또 하나의 서비스로, 사용자들의 높아진 요구에 맞추어 보다 사용 편의성을 높인 자연어 처리 인터페이스로 진화시켜 나감과 동시에 올 해 안에 자사 자체 서비스들과의 연계도 계획하고 있다고 한다.

하지만 현재의 'Shabette Concier' 서비스에 아쉬운 점도 눈에 띈다. 그것은 Siri와 같은 서비스 시스템 에이전트가 아닌 앱 형태로 제공되고 있다는 점이다.

Siri의 음성인식 기능은 일본어 인풋 메서드와 유사한 형식으로 시스템에 존재하여 예를들어, '메모' 또는 '메일' 등에서 일본어 소프트웨어 키보드를 표시하고 스페이스바 좌측에 있는 마이크 버튼을 누르면 Siri 음성인식 기능을 이용하여 바로 문자 입력이 가능하고 'Safari'나 '캘린더' 등 문자 입력이 가능한 앱 또한 Siri를 활용하여 문자를 입력할 수 있다.

또한 사파리 브라우저에서 특정 웹사이트에 접근할 때 Siri의 기능을 이용하여 음성입력 결과에 맞는 내용을 연결해 주는 'Siri 런쳐'와 같은 Siri 지원 웹 서비스가 등장한 것을 보더라도 'Shabette Concier'가 앱 형태로 제공되는 것이 현재로서는 상대적으로 확장에 한계를 갖고 있어 보이기도 하다. 그럼에도 불구하고 수년전부터 꾸준히 네트워크 클라우드 기술 구축 및 이를 활용한 서비스를 순차적으로 선보이는 NTT도코모의 행보는 분명 의미있는 결실을 맺을 수 있으리란 기대를 갖게 해준다.

아래는 'Shabette Concier' 서비스의 공식 TVCM에 앞서서 유튜브에 공개한 선행광고 동영상인데, 개인적으로는 서비스 기업이라면 미래를 위해 음성인식과 통/번역 솔루션의 확보는 매우 중요하다고 생각하고 있고 그 중에서도 모바일 메신저 등 커뮤니케이션 서비스를 운영하는 기업이라면 더더욱 관심을 갖고 들여다 봐야 할 기술이 아닐까 싶다.



그나저나 향후 이러한 음성명령 기반 세상이 일반화되면 무의식 중에 정보 접근성이 높아지게 될 텐데, 이동통신사가 LTE 환경에서도 데이타무제한 요금제를 선보이지 않는다면 과거 WAP 시절때처럼 사용자가 현재 사용한 데이타통화량을 실시간으로 표시해달라는 소비자 요구에 직면하게 되지 않을까 하는 걱정도 앞선다는..


Trackback 0 Comment 1
  1. 최초의인디언 2013.02.07 18:09 address edit & del reply

    근데 앱 미설치 이용자에게는 해당되지 않는답니다

휴대폰에서 음성인식으로 메일 전송은 물론 web 검색까지!

지난달 15일부터 구글이 음성인식 기술을 활용한 아이폰용 검색 어플리케이션을 배포한다는 소식을 접할 수 있었는데, 음성인식 분야에서는 이미 많이 알려져 있는 미국 Nuance Communications사에서 본격적으로 휴대폰용 음성인식 기술을 공개해서 관심이 집중되고 있다.

Nuance Communications사가 자랑하는 문자입력 시스템 'XT9' 과 음성인식으로 단말 내외의 기능이나 컨텐츠를 검색하는 솔루션 'T9Nav'이 바로 그것인데..

사실 휴대폰 단말이 점점 고기능화됨에 따라 수반되는 단점들이 있는데, 그것은 각 기능들에서 발생할 수 있는 오류나 잔고장의 가능성 및 다양한 기능들을 사용하기 편리하게 단말 내에 배치시킨다고 해도 사용자가 빠르고 쉽게 원하는 기능으로 접근하기 어렵다는 부분일 것이다.

위와 같은 단점 외에도, 실제로 다양해 지는 휴대폰 기능은 점차 음성통화만의 영역을 벗어나 운전중에 활용할 수 있는 네비게이션 또는 휴식을 도와주는 헬스케어 기기로의 진화도 점차 현실화 되어가기 때문에 음성인식 기술의 가치가 높아지고 있다고 보여진다.

Nuance Communications사는, 음성이나 영상인식 기술을 기반으로 한 서비스를 제공하는 기업으로 의료용 진료카드나 전자 처방전, 기업대상 콜센터 음성 솔루션 및 다양한 패키지 제품 등 음성인식을 활용한 제품들을 개발해 오고 있는데, 작년 8월 문자입력 시스템 'T9', 'XT9'을 개발한 Tegic Communications이라는 업체를 인수하면서, 자사 기술과 접목시켜서 휴대폰용 UI 개발 분야에 적극 참여하게 되었다.

이러한 성과물로 휴대폰용 음성 인터페이스 솔루션인 VSuite와, 단말 내 각종 기능이나 전화번호부, 네트워크상의 컨텐츠 등을 검색할 수 있는 'T9Nav' 까지 검토중에 있다. 이러한 문자입력 시스템 'T9', 'XT9'과 음성인식 기능솔루션 'T9Nav', 3가지 제품을 적절히 활용함으로써 만들어 낼 수 있는 실 예를 살펴보면 이렇다.

휴대폰 단말에 있는 음성인식 버튼을 누르고, 'XX에게 메일전송'이라고 말하면, XX의 메일 주소가 입력된 상태의 메일 작성 화면이 나온다. 만약 해당 휴대폰이 터치스크린 단말이라면, 화면에 XT9 가상 키보드가 함께 나오고, 쉬운 조작으로 메일 내용을 작성할 수 있다.

[목소리로 메일 작성화면을 구동시키는 모습]


또한 위에서 언급한 것처럼 Nuance Communications사는, 네트워크상의 컨텐츠까지 검색할 수 있도록 T9Nav를 활용한 음성인식 기능 제공을 검토중에 있는데, 예를 들어 휴대폰에서 '롤링스톤스 음악검색'이라고 말하면, 자동으로 Web에 접속하여 컨텐츠를 검색해서 스트리밍 재생까지 이어지는 사용행위를 연상해 볼 수 있다.
 
실제로 Nuance Communications사의 대외섭외를 담당하는 마이클위야즈는, '에펠탑의 높이는', '치즈 버거의 칼로리는', '샌프란시스코의 맛있는 초밥집은', '도쿄에서 뉴욕까지의 거리는'이라는 질문들에 대한 음성인식 Web검색 결과를 데모로 시연하기도 했다.

[목소리로 Web컨텐츠를 검색하는 모습]


이러한 음성인식은 해당 단말의 CPU 성능과 배터리가 장애물로 인식되어 왔으나, Nuance Communications사의 음성인식은 서버상에서도 실행할 수 있다는 점을 강점으로 어필하고 있는데, 이것은 최근 무선인터넷 망이 3G로 확산되면서 네트워크 속도가 빨라지는 등 환경진화와 맞물리면서 단말을 향해 내뱉은 말을 빠르게 Web을 경유하여 서버로 보내서 처리할 수 있고, 서버상의 풍부한 DB를 검색한 후 다시 그 결과를 단말로 뿌려줄 수 있는 등 경쟁력 있는 요인으로 부각되고 있다.

Nuance Communications사의 T9Nav와 XT9는 영어 뿐만아니라 일본어에도 적용시키고 있는데, 이미 일본 단말 제조사 2개사와 라이센스 계약을 맺었다고 한다. 워낙 단말 라인업이 다양하고, 그 안에서 다양한 기능들로 경쟁하고 있는 일본이기에 이러한 음성인식 기능이 탑재된 단말이 출시될 날도 머지않아 보인다.

지금까지 모바일 서비스 환경 활성화에 있어서 걸림돌로 인식되어 온 요인 중 하나였던 '입력수단'의 불편함이 이제는 음성인식 기술로 인해 어느 정도 해소될 것으로 보여지는 만큼, 점차 고속화되는 네트웍크망과 진화되는 단말기, 그리고 저렴한 요금제 등이 우리 생활속에 깊이 파고들게 되면, 결국 향후 경쟁력은 '서비스' 그 자체에 있다고 생각된다.

이러한 환경과 기술 진화에 빠르게 대응하는 서비스 업체만이 도태되지 않고, 시장을 선점할 수 있지 않을까...

Trackback 0 Comment 0

구글, 아이폰 사용자들을 설레게 한다.

지난 11일 구글은, 보다 최적화된 아이폰용 검색 서비스를 발표했다.

PC와 유사한 결과물을 보여주던 기존 검색 결과에서, 아이폰에 맞춰 좀 더 사용성을 높여주는 방식으로 개선한 것이다.

웹문서, 이미지, 지역, 뉴스 검색 결과 직링크를 최단에 배치하고, 검색결과에서 원하는 장소로의 전화 연결기능 및 길찾기를 바로 수행할 수 있도록 편의성을 강화했다.

또한 검색 결과를 화면에서 깔끔하게 보여지도록 가로 스크롤이 발생하지 않게 출력 사이즈를 조절했다.

현재는 미국 내에서만 이용할 수 있지만, 곧 다른 나라에서도 이용 할 수 있도록 확대해 나갈 계획이라고 한다.

구글은 맵 서비스를 중심으로, 적극적으로 아이폰 환경에 최적화해 나가는 모습을 보여주고 있는 것이다.

아래 동영상을 보면 이번 개선에서 어떤 부분을 중시했는지 확인할 수 있다.

 

그런데 이번에는 음성검색으로 또 한번 아이폰 사용자들을 설레게 하고 있다.

기존에 많은 기업들이 음성인식에 수많은 인력과 비용을 투자해 오고 있지만, 지역과 시대에 따라 변화하는 언어를 시스템이 인식할 수 있도록 하는데 적지 않은 어려움을 겪어 온 것이 사실이다. 구글 또한 수년전부터 음성 검색을 위해 많은 노력을 기울여 왔는데 이제 본격적인 시장 공략을 선언한 셈이다.

아이폰에서 가고자 하는 목적지나 질문을 말하면 몇 초 내에 응답이 오는 무료 프로그램 다운로드를 11/15 부터 시작한 것이다.

사용자의 목소리를 녹음하면 데이타 접속으로 구글 서버에 업로드되고, 서버에서 데이타를 분석 및 처리 후, 결과물을 뿌려주는 방식이다. 물론 검색 결과는 아직 완벽하다고 할 수 없겠지만, 해당 프로그램이 다양한 검색 기법을 처리해 나가는 과정에서 보다 완벽한 서비스로 거듭날 수 있을 것으로 기대된다.

 
음성검색의 완성도가 높아지면 높아질 수록, 화면에서 뿌려주어야 할 정보량을 최소화 할 수 있기 때문에 편리하게 이용해야 하는 사용자나 적정수준의 데이타만으로 망운용을 할 수 있는 통신사 입장 모두에게 도움이 되는 기술이라고 할 수 있다.

사실 개인적으로 PC와는 달리 모바일 환경에서 꼭 필요한 것은, 정보량의 많고 적음이 아니라 얼마나 쉽고 빠르게 사용자가 원하는 결과물을 제시해 줄 수 있는가.. 라고 생각하는데, 이런 측면에서 볼 때 구글이 보여주는 행보는 풀숲을 헤쳐야 하는 어려움이 있지만 지름길을 가고 있다는 느낌을 받게 해 준다.

Trackback 0 Comment 0
prev 1 next