노재근(jack.roh) / kakao corp.(음성처리파트)
---
AI 시대가 이제 막 열렸습니다. 걸음마를 막 떼고 있는 AI 시대에 기본이 될 기반 기술인 음성 인식과 음성 합성에 대해 간단히 알아보는 세션을 갖고자 합니다. 먼저 음성 인식을 어떻게 해야 하는지 기본적인 원리를 알아보고, 현재 카카오가 가지고 있는 음성인식 및 합성 기술과 사용 중인 서비스에 대해서 알아보겠습니다. 음성인식이 왜 이렇게 어려운지, 어떻게 하면 잘되는지, 우리는 어떤 구조를 가지고 있는지, 음성인식 / 합성 쪽에서 앞으로 무엇을 하려고 하는지 등에 대해서 소개드리겠습니다. 음성인식에 대해서 전혀 모르시더라도 이해하기 쉽게 재미있는 예를 들어서 설명해 보겠습니다. 음성인식 분야에서 일하시는 분들은 우리가 어떻게 하는지 보시고, 좋은 아이디어들 얻어 갈 수 있는 시간이 되시도록 알차게 준비했습니다. 많이 오셔서 많이 얻어가시는 시간 되시길 바랍니다.
1. 카카오미니는 음성인식을 어떻게 할까?
음성합성은 어떻게 할까?
앞으로 음성기술이 어떻게 발전할까?
노재근(jack.roh)
kakao corp.(음성처리파트)
2. INDEX
➤ Hey Kakao!
➤ Short history about speech recognition technology at Kakao
➤ Why is that so difficult?
➤ Where are we?
➤ Dive in to Kakao Speech Tech
➤ Echo cancellation
➤ Combi wake up
➤ Far-field, noisy audio
➤ Training
➤ Speaker Verification
➤ TTS
➤ Services that using Kakao Speech Engine
➤ Wrap up
➤ Q&A
5. ➤ A.I. speaker
➤ What is A.I.?
➤ How does people imagine
➤ What will be the future fundamental technology?
➤ Speech Recognition and Speech Synthesis!
Hey Kakao!
6. Short history about speech recognition technology at Kakao
➤ Kakao Speech Engine
➤ 2010. 6 국내 최초 음성검색 서비스 출시
➤ 2012. 12 음성인식 전문 기업 Dialoid 인수
➤ 2013. LG유플러스, KT에 음성인식 솔루션 제공
➤ 2013. DNN기반 음성인식기 구현
➤ 2014. 2 음성인식 Newtone API 공개
➤ 2014. 6 음성합성 Newtone talk API 공개
➤ 2015 ~ 2017 카카오맵, 카카오내비, 카카오T, 멜론, 치즈,
카카오버스, 카카오 지하철, 브런치 앱 등에 음성엔진 적용
➤ 2017. 1 Newtone API 하루 2만건 무료 파격 제공
➤ 2017. 7 현대차 제네시스 G70에 카카오 음성인식엔진 탑재
➤ 2017. 11 카카오미니 공식 출시
➤ 2018 카카오 내비와 현대/기아차에 카카오 i 엔진으로 변경중
7. Why is that so difficult?
➤ How human interaction used by Speech?
➤ Sight & Hearing
➤ Context awareness
➤ Assumption : know vocabulary and its pronunciation
➤ 바베큐
➤ 바비큐
➤ 버니케어
➤ 아뎅큐
➤ 화네큐
➤ 아니큐
➤ 안힉혀
➤ 바늘키워
➤ 다내끼여
➤ 화낼티여
➤ 화낼끼여
➤ ..
➤ ..
13. Combi wake up (2)
➤ Cloud-based wake up verification
➤ Why?
➤ How?
14. Far-field, noisy audio
➤ Record near field data to far distance with mouth simulator
➤ Room Impulse Response (RIR)
➤ Convolution with various RIR
➤ Adding various noisy data
➤ 2,000 (RIR) * 300 (noisy) = 600,000
➤ 600,000 * randomized current training set
h[n] =
I−1
∑
i=0
rgi
di
δ[n − [
di fi
c0
]]
15. Training
➤ PM : pronunciation model = G2P
➤ AM : Acoustic Model
➤ LM : Language Model
argwmaxP(W|O) = argwmax
P(O|W)P(W)
P(O)
Decoding AM LM
16. Training (2)
➤ AM
➤ 불특정 다수 화자의 다양한 발음 특성을 학습하는 과정
➤ 동일 문장을 발음해도 화자나 환경 등에 따라 음성 신호가 다름
➤ 1초 음성이 가질수 있는 경우의 수
➤ 다양한 화자, 환경, 어휘의 데이터를 반영해야 함
➤ 초기 학습 모델은 실제 서비스 환경을 모두 반영하는데 부족
➤ 서비스가 사용되는 환경의 데이터가 학습에 반영되어야 함
➤ 카카오 음향모델 학습 데이터는 약 2만시간
216,000×2×8
= 2256,000
≈ 1076,800
17. Training (3)
➤ LM
➤ N-gram
➤ 10 TB Data
➤ Everyday LM was built (8 hours) using spark parallel computing
18. Speaker Verification
➤ 학습에는 수 ~ 수십 초 정도의 짧은 정보를 이용
➤ 화자를 구별하면 개인화 된 서비스 가능
➤ 음악 / 뉴스 추천
➤ 카톡 메세지 수/발신
➤ 결재, 보안 - 주문하기, 송금하기
➤ Challenging Point
➤ 감기 등으로 목소리가 변하는 경우
➤ 주변 잡음이 심한경우
➤ TV 나 다른 사람들의 목소리가 있는 경우
특징추출
화자정보
화자모델
학습
특징추출 화자인식
화자모델
등록과정
인식과정
음성신호
음성신호
19. • 실제 음성을 이어 붙이는 기술
• 고품질/고비용
• 스타일 변경 어려움
편집 합성 기술
Text를 분석하여 음성으로 변환하는 기술
음성 합성 기술이란?
• 파라미터에서 음성을 합성해내는
기술
• 소용량 DB / 연속성 / 안정적
• 스타일 변경 쉬움
통계적 파라미터 합성
TTS
➤ Unit Selection, HTS
https://speech-api.kakao.com
20. TTS(2)
➤ DNN
➤ Seq2seq 기반 end-to-end
학습하여 더욱 자연스러운
합성음 생성
➤ Generative 고품질 음성
합성 모델링
➤ 소용량 음성DB로 저비용
음성 합성
https://speech-api.kakao.com
딥러닝을 이용한 합성 기술 개발
Input:text
query
Text Encoder
(Convnet, RNN)
Attention
Decoder
(RNN)
{key, value}
Spectrogram
Spectrogram Inversion
Tacotron
(Seq2seq + Attention)
Mixture of Distribution
Predicted Sample
…
Conv
Previous
Samples
DilatedLayer
DilatedLayer
DilatedLayer
DilatedLayer
DilatedLayer
Wavenet
22. Wrap up
➤ Speech Technology is essential in A.I. era!
➤ Speech Recognition is improved a lot!
➤ Kakao is leading in this field!
➤ Recent technology in this field is also followed!
➤ E2E ASR, DNN based TTS, Transfer learning (style transfer)
➤ A.I. is up coming!
➤ A.I. speaker, smart home, smart car, smart robot?
➤ Expect great things, and attempt great things!