2. 개요
2
인공지능의 발전 + 음성 활용에 대해 조망하다
- 지능체가 되고 있는 기기와의 음성 소통이 감정이 오가는 사람간의 대화까지 갈 수 있다는 전제
- 그러나 보통 사람들은 음성인식을 완성된 기술로 보기도 하지만 실상 넘어야 할 점이 존재
- ‘단 하나의’ 보다는 ‘또 하나의’ 친근한 인터페이스로 ‘시작’되고 있는 단계
역삼 - Maru180
3. 일반인들은 음성인식을 완성된 기술로 착각
- 대화를 이해하는 수준은 아직 멀고, 패턴 매칭 + 자연어 처리가 아직까지 기술 수준
3
① 음성인식은 완성된 기술이 아닌 시작된 기술
딕테이션 기계 대화형 비서
음성처리의
클라우드 화
감정대화,
pro-active
올웨이즈온
3m 원거리
패턴매칭 200단어 연결단어 100만 단어
서강대 김지환 교수, 음성인식 시스템 구현 기술 개요 및 상용 시스템 적용 기술 분석, P. 3
무선인터넷 빠방
4. 대화체를 분석할 정도의 인식률 및 변수처리의 제한
- 문어체 형태의 끊어말하기 행태를 Read speech인데, 현재 인공지능에게 말거는 행태가 이에 해당
- 뉴스의 브로드캐스트 스피치나 대화 스피치까지 도달하기 위한 기술 미비
๏ 환하게 -> 화나게, 따뜻한 -> 따땃 등의 연음, 구음동화의 발음 이슈나 단어의 생략 등에 대한 대처가 어려움
- 알파고의 한 수 10^360 vs 1초의 음성 입력 변수 10^211200 -> 아직 후자를 연산할 컴퓨팅이 안됨
4
② 음성인식의 난제 - 대화체 음성인식과 예측의 어려움
에러레잍 10%이하가
상용화 가능 시점
SKT 김영준, 음성 인터페이스의 개발 및 진화 방안, P. 7 서강대 김지환 교수, 음성인식 시스템 구현 기술 개요 및 상용 시스템 적용 기술 분석, P. 4
5. 소리를 인식할 공간이 디바이스의 스펙을 확정한다.
- 스피커형 디바이스, 2~3m 반경의 음성처리가 공통된 목표 (TV와 쇼파 평균 거리)
- 아마존, 8개 방향 마이크를 가지고 거실의 중앙을 장악하려 함 -> 미국식 주택 구조
- 누구, 2개의 마이크와 거리 측정과 에코 제거를 위해 벽면에 위치 기대 -> 한국식 아파트 구조
- 전처리 과정을 통해 누구의, 어떻게 명령과 대화를 구분할지, 주변 소음을 제어할지를 잘하는 것이 핵심
5
③ 음성인식은 공간의 문제
SKT 김영준, 음성 인터페이스의 개발 및 진화 방안, P. 19
누구, 4만대의 사용단말을 통해 공간정보를 수집 중
6. 인공지능 스피커, 인터페이스의 성공은 연계되는 서비스 컨텐츠의 성공과 직결된다.
- 멜론 없는 누구, 쇼핑 안되는 에코는 존재 가치가 없음
- 음성형태의 SNS 지향하는 ‘이어링’ 서비스, 27초의 짧은 컨텐츠를 주고 받음
๏ 한계점은 팟캐스트와 유사하게 컨텐츠 소비 중심, 사용자가 음성으로 컨텐츠 생산하는 것이 어색해 하는 것이 난제
6
④ 음성 기반의 서비스와 컨텐츠를 고민
음성 기반 컨텐츠 쉐어 서비스, 이어링
멜론
스마트홈
B TV
7. 음성 기반 인터랙션을 적용할 수 있는 서비스의 범위가 생각보다 넓다.
- Voice Fingerprinting & Forensic Science
구강, 성대, 비강 등의 구조가 사람마다 달라서, 목소리에 나타나는 특징(액센트, 호흡 등)이 다르다.
범죄 수사에 있어서 용의자 범위 축소 및 골든타임 확보에 도움을 줄 수 있다.
- Voice Recognition & Smart Healthcare
특정 질병과 목소리는 밀접한 관계가 있다. 예를 들어, 천식 혼자의 목소리 패턴은 일반인과 다르다.
- Voice Profiling & Digital Interviewing
목소리에서 특정 직업이나 재능과 연관된 signal을 포착할 수 있다.
- Voice Profiling & Call Center
목소리로 포착할 수 있는 개인별 성향을 기반으로, 고객-직원 매칭 혹은 직원의 부서 배치 등에 성향
별 매칭을 할 수 있다.
7
⑤ Voice UX의 시작이 될 만한 특정 도메인