SlideShare una empresa de Scribd logo
1 de 56
Descargar para leer sin conexión
erbio
VoIP2Day 2015 Pablo Gil Robiou
Tendencias y aplicaciones prácticas
sobre tecnologías del habla
[NLP]
Procesamiento de
Lenguaje Natural
Antes
Poco
Avance
Expectativas
Frustradas
Poca
Precisión
Tecnología
No embebida
Pocas
Aplicaciones
https://youtu.be/CA4h59JbsD8
Antes
Últimos 18 meses
Gran
Avance
Expectativas
Altas
Mejor
Precisión
Tecnología
embebida
Algunas
Aplicaciones
https://youtu.be/3JsN56-6wjQ
Últimos 18 meses
Presente y Futuro
Avance
Vertiginoso
Explosión
Big Data
Nuevos
Dispositivos
Interacción
Rápida
Democratización y
Uso Masivo
Círculo VirtuosoMejora Continua
Círculo Virtuoso Lenguaje Natural
Adopción y
uso
Más datos
Mejor
rendimiento
Redes
Neuronales
BI
Data Mining
A continuación mostramos el Portfolio de Soluciones sobre Lenguaje Natural
Soluciones Empáticas
Contenido propuesto
Síntesis
de Voz
Reconocimiento
de Voz
Portales
de Voz
Contact Centers Biometría
Vocal
[TTS]
Síntesis de voz
Wolfgang von
Kempelen
Speaking Machine
Sir Charles
Wheatstone
Improved Replica
Alexander Graham Bell
Experiments and
Research  Telephone
Bell Telephone
Laboratory –
Homer Dudley
The Vocoder  The
Voder - Electric
1769
Síntesis de Voz [Historia]
1 2 3 4
1837 1876 1937
DEC based on Dennis
Klatt’s work
DECtalk  Stephen
Hawking
HMM-based Speech
Synthesis System (HTS)
Flexibility, quality,
naturalness
Yamaha – Vocaloid
UTAU (2008)
Singer voices and
music synthesizer
Deep Learning-based
Speech Synthesis
Conditional
distribution of acoustic
features given
linguistic features
1984
Síntesis de Voz [Historia]
5 6 7 8
1999 2004 2006
Casos Prácticos
Síntesis de Voz
Megafonía
Aeropuertos,mediosdetransporte,ascensores,sistemas
de gestión deturnos…
Ayuda en la navegación
SistemasGPS paralaconducción
Telefonía
SistemasdeIVRconrequerimiento y entrega de
información
Wearables, Connected-Home
Smartwatches,googleglass,smart-tv,etc.
Asistentes
GoogleNow,Siri,Cortana…
Ayuda en la lectura
E-books parainvidentes
Aprendizajenuevos idiomas
Retos
Síntesis de Voz
Diferentesestadosde ánimo (espectogramas)
Fuente: TUB emotional database
Síntesis de Voz Ajustes y mejoras [TTS]
SSML
TTS soporta las etiquetas
definidas dentro del estándar
SSML (Speech Synthesis
Markup Language) a través de
las cuales podemos indicar al
motor la forma como
queremos sintetizar una
palabra o conjunto deellas.
Etiqueta Descripción
Reproducciónde ficheros(PCM–lineal 16bits)
Selecciónde aspectossemánticos
language
voice
prosody
say-as
break
audio
emphasis
age, gender, name
Pitch, range, rate, volume
date, time,digits, telephone
Selección del idiomade síntesis
Selección del tipode locutor
Selección de laintensidadde lavoz
Selección de aspectosprosódicos
Gestiónde pausas



<código>
VerbioPrompt(Por favor, tras oír la señal, diga dígito a dígito , la siguiente
secuencia: <prosody rate="x-slow">${DIGITS:0:1}<break
time="500ms">${DIGITS:1:1}<break time="500ms">${DIGITS:2:1}<break
time="500ms">${DIGITS:3:1} </prosody>.,${TTS},${SPK},v)
Retos
Síntesis de Voz
Tener cada uno su propia voz sintética (hoy en día posible pero a un coste elevado)
Contemplar riesgos potenciales para evitar fraude y suplantación de identidad
Generar una voz sintéticapersonal y multiidioma
Contemplar diferencias fonéticas y prosódicas (como la entonación) entre idiomas
Expresar diferentes estados de ánimo con resultado realista, bien alterando la prosodia mediante
procesado digital de la señal (DSP) o mediante uso de diferentes unidades fonéticas.
[ASR]
Reconocimiento
de voz
Info gramatical
Contienen información
acercadelasestructuras
gramaticalesmásprobables
en el entorno detrabajo.
Info estadística
Contienen información de
probabilidadesdequeuna
palabraprecedao sucedaa
otra palabra.
Info contextual
Complementan al oído paraque
el motor dereconocimiento
determinecuál hasido la
locución pronunciada.
Los modelos lingüísticos son el cerebro del motor de reconocimiento. Ejercen un papel clave en la gestión de la decisión a tomar ante
ambigüedades acústicas, pues contienen información lingüística contextual para el entorno de trabajo.
El modelo lingüístico
01 02 03
Reconocimiento de VozFundamentos tecnológicos [ASR]
Los modelos acústicos son el oído del motor de reconocimiento.
Están basados en modelar los semi-fonemas del idioma de trabajoa partir de técnicas de procesado de la señal, principalmente en el dominio
espectral, que extraen sus particularidades únicas.
Cada semi-fonema es un modelo matemáticoque representa las característicasacústicasúnicas del fonema en cuestión en presencia de otro
fonema concreto anterior o posterior.
El modelo acústico
al restaurante
correr
comer
coser Ayer fuí a comer al restaurante
Gramáticas deterministas (ABNF, XML)
Modelos Estadísticosdel Lenguaje (SLM)
A%
Ayer fuí a
Distintos Tipos
Reconocimiento de Voz
Reconocimiento discreto
Capazdereconocer palabraso frasescortasdichastal y
como seespera,sin incluirdiscurso anterior o posterior.
Reconocimiento continuo
Capazdereconocer palabrasy expresionesen cualquier
punto dela conversación,no afectandoal reconocimiento
lo quesediceanteso despuésdelaexpresión.
Reconocimiento de lenguaje natural
Basado en transcripción,quea su vezsefundamentasobre
modelos estadísticosdel lenguaje,quetomanen cuentala
distribucióndeprobabilidades sobresecuenciasde
palabras.
Ejemplo
Comercial,marketing,técnico,recursos humanos…
Ejemplo
consultarel estadodemi cuenta,realizar una
transferencia,revisarunafactura,darmedebaja…
Ejemplo
Mi queja con el servicio vieneporquellevodos semanas
esperando a quemellegueel pedido.Medijeron que
tardaríaunasemanaen llegar,pero yahan pasadodos y
estoy muy disgustadaporquenadieseha puesto en
contactoconmigotodavía…
Casos Prácticos
Reconocimiento de Voz
Transcripción y Dictado
Informes,Actas,Eventos,Noticiarios,Aparicionespúblicas
y actosdeprensa… Cualquierescenarioen el quese
requierapasar del canal habladoal escrito
Ayuda en la navegación
SistemasGPS paralaconducción
Móvilesconectadosmediantebluetooth
Telefonía
SistemasdeIVRconrequerimiento y entrega de
información
Asistentes
GoogleNow,Siri,Cortana…
Aplicaciones móviles paraejecutar acciones
transaccionales
Ayuda
AprendizajeNuevos idiomas
Accesibilidady ayudaparadiscapacitados
Wearables, Connected-Home
Smartwatches,googleglass,smart-tv,etc.
Retos
Reconocimiento de Voz
Igualar efectividad en Reconocimiento Independiente del Locutor que en Reconocimiento
Dependiente del Locutor
Igualar efectividad en Reconocimiento Independiente del Contexto que en Reconocimiento
Dependiente del Contexto
Nivelar avances para distintos Idiomas
Nivelar mejoras para diferentes canales
Mejorar el reconocimiento con ruido y para personas con diferentes características prosódicas (como
el acento)
[ASR/TTS]
Portales de Voz
Portales de Voz Estrategias de diálogo [ASR/TTS]
Se anuncianlasrespuestasposibles
a cada pregunta,loque implica
lentitudenlastransacciones
Flujo Secuencial
La máquinaconduce el diálogo:el
usuarionopuede tomarlainiciativa
enningúnmomento
Rigidezante casosde error,
llevandoalafrustracióndel usuario
Portales de Voz Estrategias de diálogo [ASR/TTS]
Las preguntaspuedensermás
abiertas,permitiendointroducir
más de undato porpregunta
Diálogo Acotado
El diálogose adaptaala experiencia
del usuario
Estrategiasde confirmaciones
implícitasypromptsdinámicos
Se podrántratar losdatos
agrupados(másde undato enla
respuesta) ydesordenados,e
inclusopermitiráal usuariocorregir
informaciónanteriormente
entregada,condiálogoadaptativo
enfunciónde lascircunstancias
Portales de Voz Estrategias de diálogo [Verbio ASR/TTS]
Apoyadoporreconocimientoybasado
enpatronesestadísticos,formula
preguntasabiertasytomadecisiones
dinámicamente enfunciónde la
respuesta
Diálogo Libre
Algoritmode decisióncomplejo
Se persigue agilizaraúnmásel
procesoparatodoslosusuarios,sin
penalizaralosesporádicosrespectoa
la estrategiaguiada
Sistemaexpertoque interacciona
con el usuariode formasimilara
comolo haría unhumano
Pregunta abierta
Desplegar un servicio telefónico automatizadodel
tipo “say anything”, donde el usuario podrá
responder abiertamente y con lenguaje naturala la
pregunta inicial “¿En qué puedo ayudarle?”.
Más de 60 operativas
El sistema deberá comprender el motivo por el cual
llama el usuario y etiquetar dicha llamada con la
categoría correcta entre las más de 60 existentes.
Recuperación de metadatos
No se trata de implementar un servicio de Call
Steering (redirección de llamadas). El sistema deberá
tener la capacidadde obtener información relevante
para la operativa seleccionada, con objeto de no
repreguntarlaposteriormente al usuario.
Redirección a IVR
Cuando el sistema haya comprendido el motivo de la
llamada, y tras haber extraído la información
disponible, redirigirá al usuario hacia la rama del IVR
correspondiente.
Experiencia conversacional
Se persigue ofrecer al usuario una experiencia
conversacional soportada en el estado del artedel
NLP (Lenguaje Natural), no sólo en la pregunta
abierta sino también en la automatizaciónde la
operativa posterior.
Servicio altamente autoatendido
Se busca la reducción de los costes de atención
telefónica, y se persigue que el portal de voz tenga la
capacidad de resolver la operativa demandada por el
usuario sin ser necesaria la intervención de un
agente.
Portales de Voz Lenguaje Natural [ASR/TTS]
? [A]
Los portales de Voz del pasado han hecho un uso deficiente de la tecnología,
buscando principalmentereducir costes
IVRs al servicio de las empresas
Portales de Voz - Pasado
Objetivo 1 - Disminuir necesidad de Agentes (Costes)
Objetivo 2 – Generar Ingresos para sufragar Costes (902)
Objetivo 3 – Disuadir al cliente de llevar a cabo ciertas operativas
Los portales de Voz del presentebuscan potenciar una imagen positiva de la empresa
o, al menos, no potenciar una imagen negativa
IVRs al servicio de las empresas y sus clientes
Portales de Voz - Presente
Objetivo 1 – Automatizar con calidad
Objetivo 2 – Conseguir promotores y prescriptores
Objetivo 3 – Optimización y mejora continua
Los portales de Voz del futuro serán sistemas expertos capaces de ejecutar
transacciones y solucionar incidencias de forma (casi) tan eficiente como un humano
IVRs al servicio de sus clientes
Portales de Voz - Futuro
Objetivo 1 – Parte del Plan de Marketing. Orientación al cliente
Objetivo 2 – Transacciones rápidas, sencillas, cómodas y resolutivas
Objetivo 3 – Política de 0 clientes insatisfechos. Seguimiento
[Speech & Text Analytics]
Contact
Centers
Contact Centers Multicanalidad [Speech Analytics]
Móvil App./SMS
Teléfono E-mail
WEB/Chat/IM
Redes SocialesFax/Carta
Los Contact Centers buscan la excelencia a través de métricas tales como el
Nivel de Servicio y Encuestas de Calidad (NPS)
Pasado, presente y futuro
Contact Centers
Pasado – Atender/Emitir llamadas por canal telefónico
Productividad
Presente – Atender/Emitir eventos por múltiples canales de contacto
Experiencia de Usuario (Calidad, Satisfacción, FCR, Tº resolución…)
Futuro – Convergencia y Seguimiento, Deslocalización y Cloud
Experiencia multicanal y personalizada para cada cliente
Para mejorarla calidad hay que empezarplanificándola,asegurando que los
procesos la cumplen y monitorizando queel resultado final es el esperado
El grado en el que un conjunto de características inherentes cumple con los requisitos
¿Qué es calidad?
Planificar la calidad (Diseño de procesos, argumentario, objeciones…)
Aseguramiento de la calidad (checklists, auditorías…)
Control de Calidad (encuestas de satisfacción, mistery shopping…)
Speech Analytics
Un vistazo sobre el resultado de recopilar información, clasificarla, medirla y cruzarla
Idea
Partiendo de:
- audios pregrabados para su posterior procesado
- conversaciones telefónicas en tiempo real
(pinchadas o intervenidas)
Voz del Cliente
Quality Assurance
Cumplimiento Normativa
• Cruce de lainformaciónunidimensional recabadaen:
– Voz del Cliente
– Quality Assurance
– Cumplimientodela Normativa
• Conlas diferentescategoríasidentificadascomomotivosde la
llamada,paraconocerenqué medidase venimpactadoslos
diferentesKPIsdefinidosyacordadosconel cliente(FCR,
Transfer,ScriptCompliance, CrossSelling…),connavegación
enprofundidadyfiltrosde servicio, agente, supervisor,destino
y llamante.
Solución
Caso práctico [Verbio SA]
Análisis multidimensional
Text Analytics se usa también para generar modelos lingüísticos y estadísticos
usando técnicas de aprendizajeautomático con el fin de relacionar la información
para aportar conocimiento con fines predictivos o resolutivos
Procesamiento del Lenguaje Natural  Predecir y Solucionar Problemas de Negocio
Text Analytics
Categorización, clustering, taxonomías
Extracción de datos de negocio, resúmenes
Sentiment Analysis
Procesamiento del Lenguaje Natural  Predecir y Solucionar Problemas de Negocio
Text Analytics
CRM Analytics - Transcripción
Social Media Analytics + Sentiment Analysis
Intención de Compra, Predicción de rotación de clientes, Riesgo para
la Reputación…
[Speaker Recognition]
Biometría Vocal
Para generarla huella vocal se usará entrenamiento implícito o explícito
La huella vocal es tan fiable como la huella dactilar o el escáner de iris
Sistemas de Biometría
Verificación – Autenticación, Firma Vocal, Prueba de Vida
Identificación y Clustering – Lucha contra el Fraude
Indexación – Separación de locutores por marcas de tiempo
¿Cómo evitar que nos engañen? Previendo las técnicas y poniendo los medios
Defensas antispoofing
Sistemas de Biometría
Anti Reproducción
Anti Repetición
Desafío dinámico
Retos
Biometría de Voz
Extender su uso para evitar fraude (cualquier sistema con un elemento de seguridad puede ser
sustituido por la voz)
Obtener validez legal al nivel del certificado electrónico para la firma digital de documentos
Integración multidispositivo para acceso a diferentes servicios – IoT
Mitigar la alta dependencia del canal, las condiciones de ruido y de la prosodia
[Aplicaciones Prácticas sobre Tecnologías del Habla]
Complementos
Asistentes Virtuales
Pasado: Asistentes Virtuales para Empresas
Ikea
Vueling
Eroski
Presente: Asistentes Virtuales para Móvil, PC
Google Now
Cortana
Siri
Futuro: Asistentes en Hogar, Wearables y en IoT
Amazon Echo
Ubi + Samsung SmartThings
Traducción Simultánea
Pasado: Traducción de Texto On-line
Google Translator
Presente:
Traducción de Texto y Voz en tiempo Real p2p
Skype Translator
Traducción de Mensajes (Realidad Aumentada) en tiempo Real
Google Translate(Móvil)
Futuro:
Traducción de Imágenes/Voz automática Mass-media
Wearables
Pasado:
Pulsómetro, GPS, Podómetro, GoPro, cascos BT, alarmas
Presente:
Smartwatches, Google Glass, Cámaras, eHealh, VR
Futuro:
Microchip interno, Casco Inflable, Smart Clothing, lentillas AR
Retos
Unique ID:
Utilizar mecanismos biométricos combinados
Lenguaje Verbal + No Verbal:
Analizar las emociones mediante la voz y signos del cuerpo
Predicción:
Alertas automáticas que nos avisen de:
Oportunidades
Riesgos
Futurosproblemas
¡Gracias!

Más contenido relacionado

Similar a Lenguaje Natural: Tendencias y aplicaciones

Validador reconocimiento de voz.
Validador reconocimiento de voz.Validador reconocimiento de voz.
Validador reconocimiento de voz.DannaTovar2
 
Potencial de las tecnologías de la lengua en la sociedad actual - Montse Cua...
 Potencial de las tecnologías de la lengua en la sociedad actual - Montse Cua... Potencial de las tecnologías de la lengua en la sociedad actual - Montse Cua...
Potencial de las tecnologías de la lengua en la sociedad actual - Montse Cua...Donostia Tech Week
 
Voice Processing Technologies
Voice Processing TechnologiesVoice Processing Technologies
Voice Processing TechnologiesMartin Propato
 
Evitando fraudes telefónicos los cinco puntos
Evitando fraudes telefónicos los cinco puntosEvitando fraudes telefónicos los cinco puntos
Evitando fraudes telefónicos los cinco puntosPaloSanto Solutions
 
Kymatic presentación corporativa
Kymatic presentación corporativaKymatic presentación corporativa
Kymatic presentación corporativakymatic
 
Escuchando la voz del cliente con Speech Analytics
Escuchando la voz del cliente con Speech AnalyticsEscuchando la voz del cliente con Speech Analytics
Escuchando la voz del cliente con Speech AnalyticsMundo Contact
 
II JORNADA LOGISTICA DEL FRÍO PONENCIA JOSÉ FANEGO
II JORNADA LOGISTICA DEL FRÍO  PONENCIA JOSÉ FANEGOII JORNADA LOGISTICA DEL FRÍO  PONENCIA JOSÉ FANEGO
II JORNADA LOGISTICA DEL FRÍO PONENCIA JOSÉ FANEGOInstituto Logístico Tajamar
 
Siemens en Entel Summit 2010
Siemens en  Entel Summit 2010Siemens en  Entel Summit 2010
Siemens en Entel Summit 2010Entel
 
Auronix desayuno-distribuible
Auronix desayuno-distribuibleAuronix desayuno-distribuible
Auronix desayuno-distribuibleMartha Cepeda
 
Vendedor aumentado v 1.0
Vendedor aumentado v 1.0Vendedor aumentado v 1.0
Vendedor aumentado v 1.0Nunkyworld
 
Chatbots y la revolución de la interacción hombre-máquina en la era de la int...
Chatbots y la revolución de la interacción hombre-máquina en la era de la int...Chatbots y la revolución de la interacción hombre-máquina en la era de la int...
Chatbots y la revolución de la interacción hombre-máquina en la era de la int...KevinAcevedo28
 
Presentación SlS International
Presentación SlS InternationalPresentación SlS International
Presentación SlS Internationalpedroxpineda
 
EDWIN HERNANDEZ, PhD - Presentacion HONDURAS GLOBAL Telecomunicaciones
EDWIN HERNANDEZ, PhD - Presentacion HONDURAS GLOBAL TelecomunicacionesEDWIN HERNANDEZ, PhD - Presentacion HONDURAS GLOBAL Telecomunicaciones
EDWIN HERNANDEZ, PhD - Presentacion HONDURAS GLOBAL TelecomunicacionesDr. Edwin Hernandez
 
INTELIGENCIA ARTIFICIAL FUNCIONALES.pptx
INTELIGENCIA ARTIFICIAL FUNCIONALES.pptxINTELIGENCIA ARTIFICIAL FUNCIONALES.pptx
INTELIGENCIA ARTIFICIAL FUNCIONALES.pptxDanielaBuendia6
 
Logos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to TextLogos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to TextEQ SOFT EIRL
 

Similar a Lenguaje Natural: Tendencias y aplicaciones (20)

Validador reconocimiento de voz.
Validador reconocimiento de voz.Validador reconocimiento de voz.
Validador reconocimiento de voz.
 
El reconocimiento de voz
El reconocimiento de vozEl reconocimiento de voz
El reconocimiento de voz
 
Potencial de las tecnologías de la lengua en la sociedad actual - Montse Cua...
 Potencial de las tecnologías de la lengua en la sociedad actual - Montse Cua... Potencial de las tecnologías de la lengua en la sociedad actual - Montse Cua...
Potencial de las tecnologías de la lengua en la sociedad actual - Montse Cua...
 
El reconocimiento de voz
El reconocimiento de vozEl reconocimiento de voz
El reconocimiento de voz
 
Voice Processing Technologies
Voice Processing TechnologiesVoice Processing Technologies
Voice Processing Technologies
 
2011-T2 Verbio
2011-T2 Verbio2011-T2 Verbio
2011-T2 Verbio
 
Evitando fraudes telefónicos los cinco puntos
Evitando fraudes telefónicos los cinco puntosEvitando fraudes telefónicos los cinco puntos
Evitando fraudes telefónicos los cinco puntos
 
Kymatic presentación corporativa
Kymatic presentación corporativaKymatic presentación corporativa
Kymatic presentación corporativa
 
IVR - Digite 1
IVR - Digite 1IVR - Digite 1
IVR - Digite 1
 
Escuchando la voz del cliente con Speech Analytics
Escuchando la voz del cliente con Speech AnalyticsEscuchando la voz del cliente con Speech Analytics
Escuchando la voz del cliente con Speech Analytics
 
II JORNADA LOGISTICA DEL FRÍO PONENCIA JOSÉ FANEGO
II JORNADA LOGISTICA DEL FRÍO  PONENCIA JOSÉ FANEGOII JORNADA LOGISTICA DEL FRÍO  PONENCIA JOSÉ FANEGO
II JORNADA LOGISTICA DEL FRÍO PONENCIA JOSÉ FANEGO
 
Siemens en Entel Summit 2010
Siemens en  Entel Summit 2010Siemens en  Entel Summit 2010
Siemens en Entel Summit 2010
 
Auronix desayuno-distribuible
Auronix desayuno-distribuibleAuronix desayuno-distribuible
Auronix desayuno-distribuible
 
Vendedor aumentado v 1.0
Vendedor aumentado v 1.0Vendedor aumentado v 1.0
Vendedor aumentado v 1.0
 
Chatbots y la revolución de la interacción hombre-máquina en la era de la int...
Chatbots y la revolución de la interacción hombre-máquina en la era de la int...Chatbots y la revolución de la interacción hombre-máquina en la era de la int...
Chatbots y la revolución de la interacción hombre-máquina en la era de la int...
 
Presentación SlS International
Presentación SlS InternationalPresentación SlS International
Presentación SlS International
 
EDWIN HERNANDEZ, PhD - Presentacion HONDURAS GLOBAL Telecomunicaciones
EDWIN HERNANDEZ, PhD - Presentacion HONDURAS GLOBAL TelecomunicacionesEDWIN HERNANDEZ, PhD - Presentacion HONDURAS GLOBAL Telecomunicaciones
EDWIN HERNANDEZ, PhD - Presentacion HONDURAS GLOBAL Telecomunicaciones
 
INTELIGENCIA ARTIFICIAL FUNCIONALES.pptx
INTELIGENCIA ARTIFICIAL FUNCIONALES.pptxINTELIGENCIA ARTIFICIAL FUNCIONALES.pptx
INTELIGENCIA ARTIFICIAL FUNCIONALES.pptx
 
Jornadas 10 lenguajenatural_lenguajenatural
Jornadas 10 lenguajenatural_lenguajenaturalJornadas 10 lenguajenatural_lenguajenatural
Jornadas 10 lenguajenatural_lenguajenatural
 
Logos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to TextLogos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to Text
 

Último

Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 

Último (13)

Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 

Lenguaje Natural: Tendencias y aplicaciones

  • 1. erbio VoIP2Day 2015 Pablo Gil Robiou Tendencias y aplicaciones prácticas sobre tecnologías del habla
  • 7. Presente y Futuro Avance Vertiginoso Explosión Big Data Nuevos Dispositivos Interacción Rápida Democratización y Uso Masivo
  • 9. Círculo Virtuoso Lenguaje Natural Adopción y uso Más datos Mejor rendimiento Redes Neuronales BI Data Mining
  • 10. A continuación mostramos el Portfolio de Soluciones sobre Lenguaje Natural Soluciones Empáticas
  • 11. Contenido propuesto Síntesis de Voz Reconocimiento de Voz Portales de Voz Contact Centers Biometría Vocal
  • 13. Wolfgang von Kempelen Speaking Machine Sir Charles Wheatstone Improved Replica Alexander Graham Bell Experiments and Research  Telephone Bell Telephone Laboratory – Homer Dudley The Vocoder  The Voder - Electric 1769 Síntesis de Voz [Historia] 1 2 3 4 1837 1876 1937
  • 14. DEC based on Dennis Klatt’s work DECtalk  Stephen Hawking HMM-based Speech Synthesis System (HTS) Flexibility, quality, naturalness Yamaha – Vocaloid UTAU (2008) Singer voices and music synthesizer Deep Learning-based Speech Synthesis Conditional distribution of acoustic features given linguistic features 1984 Síntesis de Voz [Historia] 5 6 7 8 1999 2004 2006
  • 15. Casos Prácticos Síntesis de Voz Megafonía Aeropuertos,mediosdetransporte,ascensores,sistemas de gestión deturnos… Ayuda en la navegación SistemasGPS paralaconducción Telefonía SistemasdeIVRconrequerimiento y entrega de información Wearables, Connected-Home Smartwatches,googleglass,smart-tv,etc. Asistentes GoogleNow,Siri,Cortana… Ayuda en la lectura E-books parainvidentes Aprendizajenuevos idiomas
  • 16. Retos Síntesis de Voz Diferentesestadosde ánimo (espectogramas) Fuente: TUB emotional database
  • 17. Síntesis de Voz Ajustes y mejoras [TTS] SSML TTS soporta las etiquetas definidas dentro del estándar SSML (Speech Synthesis Markup Language) a través de las cuales podemos indicar al motor la forma como queremos sintetizar una palabra o conjunto deellas. Etiqueta Descripción Reproducciónde ficheros(PCM–lineal 16bits) Selecciónde aspectossemánticos language voice prosody say-as break audio emphasis age, gender, name Pitch, range, rate, volume date, time,digits, telephone Selección del idiomade síntesis Selección del tipode locutor Selección de laintensidadde lavoz Selección de aspectosprosódicos Gestiónde pausas    <código> VerbioPrompt(Por favor, tras oír la señal, diga dígito a dígito , la siguiente secuencia: <prosody rate="x-slow">${DIGITS:0:1}<break time="500ms">${DIGITS:1:1}<break time="500ms">${DIGITS:2:1}<break time="500ms">${DIGITS:3:1} </prosody>.,${TTS},${SPK},v)
  • 18. Retos Síntesis de Voz Tener cada uno su propia voz sintética (hoy en día posible pero a un coste elevado) Contemplar riesgos potenciales para evitar fraude y suplantación de identidad Generar una voz sintéticapersonal y multiidioma Contemplar diferencias fonéticas y prosódicas (como la entonación) entre idiomas Expresar diferentes estados de ánimo con resultado realista, bien alterando la prosodia mediante procesado digital de la señal (DSP) o mediante uso de diferentes unidades fonéticas.
  • 20. Info gramatical Contienen información acercadelasestructuras gramaticalesmásprobables en el entorno detrabajo. Info estadística Contienen información de probabilidadesdequeuna palabraprecedao sucedaa otra palabra. Info contextual Complementan al oído paraque el motor dereconocimiento determinecuál hasido la locución pronunciada. Los modelos lingüísticos son el cerebro del motor de reconocimiento. Ejercen un papel clave en la gestión de la decisión a tomar ante ambigüedades acústicas, pues contienen información lingüística contextual para el entorno de trabajo. El modelo lingüístico 01 02 03 Reconocimiento de VozFundamentos tecnológicos [ASR] Los modelos acústicos son el oído del motor de reconocimiento. Están basados en modelar los semi-fonemas del idioma de trabajoa partir de técnicas de procesado de la señal, principalmente en el dominio espectral, que extraen sus particularidades únicas. Cada semi-fonema es un modelo matemáticoque representa las característicasacústicasúnicas del fonema en cuestión en presencia de otro fonema concreto anterior o posterior. El modelo acústico al restaurante correr comer coser Ayer fuí a comer al restaurante Gramáticas deterministas (ABNF, XML) Modelos Estadísticosdel Lenguaje (SLM) A% Ayer fuí a
  • 21. Distintos Tipos Reconocimiento de Voz Reconocimiento discreto Capazdereconocer palabraso frasescortasdichastal y como seespera,sin incluirdiscurso anterior o posterior. Reconocimiento continuo Capazdereconocer palabrasy expresionesen cualquier punto dela conversación,no afectandoal reconocimiento lo quesediceanteso despuésdelaexpresión. Reconocimiento de lenguaje natural Basado en transcripción,quea su vezsefundamentasobre modelos estadísticosdel lenguaje,quetomanen cuentala distribucióndeprobabilidades sobresecuenciasde palabras. Ejemplo Comercial,marketing,técnico,recursos humanos… Ejemplo consultarel estadodemi cuenta,realizar una transferencia,revisarunafactura,darmedebaja… Ejemplo Mi queja con el servicio vieneporquellevodos semanas esperando a quemellegueel pedido.Medijeron que tardaríaunasemanaen llegar,pero yahan pasadodos y estoy muy disgustadaporquenadieseha puesto en contactoconmigotodavía…
  • 22. Casos Prácticos Reconocimiento de Voz Transcripción y Dictado Informes,Actas,Eventos,Noticiarios,Aparicionespúblicas y actosdeprensa… Cualquierescenarioen el quese requierapasar del canal habladoal escrito Ayuda en la navegación SistemasGPS paralaconducción Móvilesconectadosmediantebluetooth Telefonía SistemasdeIVRconrequerimiento y entrega de información Asistentes GoogleNow,Siri,Cortana… Aplicaciones móviles paraejecutar acciones transaccionales Ayuda AprendizajeNuevos idiomas Accesibilidady ayudaparadiscapacitados Wearables, Connected-Home Smartwatches,googleglass,smart-tv,etc.
  • 23. Retos Reconocimiento de Voz Igualar efectividad en Reconocimiento Independiente del Locutor que en Reconocimiento Dependiente del Locutor Igualar efectividad en Reconocimiento Independiente del Contexto que en Reconocimiento Dependiente del Contexto Nivelar avances para distintos Idiomas Nivelar mejoras para diferentes canales Mejorar el reconocimiento con ruido y para personas con diferentes características prosódicas (como el acento)
  • 25. Portales de Voz Estrategias de diálogo [ASR/TTS] Se anuncianlasrespuestasposibles a cada pregunta,loque implica lentitudenlastransacciones Flujo Secuencial La máquinaconduce el diálogo:el usuarionopuede tomarlainiciativa enningúnmomento Rigidezante casosde error, llevandoalafrustracióndel usuario
  • 26. Portales de Voz Estrategias de diálogo [ASR/TTS] Las preguntaspuedensermás abiertas,permitiendointroducir más de undato porpregunta Diálogo Acotado El diálogose adaptaala experiencia del usuario Estrategiasde confirmaciones implícitasypromptsdinámicos Se podrántratar losdatos agrupados(másde undato enla respuesta) ydesordenados,e inclusopermitiráal usuariocorregir informaciónanteriormente entregada,condiálogoadaptativo enfunciónde lascircunstancias
  • 27. Portales de Voz Estrategias de diálogo [Verbio ASR/TTS] Apoyadoporreconocimientoybasado enpatronesestadísticos,formula preguntasabiertasytomadecisiones dinámicamente enfunciónde la respuesta Diálogo Libre Algoritmode decisióncomplejo Se persigue agilizaraúnmásel procesoparatodoslosusuarios,sin penalizaralosesporádicosrespectoa la estrategiaguiada Sistemaexpertoque interacciona con el usuariode formasimilara comolo haría unhumano
  • 28. Pregunta abierta Desplegar un servicio telefónico automatizadodel tipo “say anything”, donde el usuario podrá responder abiertamente y con lenguaje naturala la pregunta inicial “¿En qué puedo ayudarle?”. Más de 60 operativas El sistema deberá comprender el motivo por el cual llama el usuario y etiquetar dicha llamada con la categoría correcta entre las más de 60 existentes. Recuperación de metadatos No se trata de implementar un servicio de Call Steering (redirección de llamadas). El sistema deberá tener la capacidadde obtener información relevante para la operativa seleccionada, con objeto de no repreguntarlaposteriormente al usuario. Redirección a IVR Cuando el sistema haya comprendido el motivo de la llamada, y tras haber extraído la información disponible, redirigirá al usuario hacia la rama del IVR correspondiente. Experiencia conversacional Se persigue ofrecer al usuario una experiencia conversacional soportada en el estado del artedel NLP (Lenguaje Natural), no sólo en la pregunta abierta sino también en la automatizaciónde la operativa posterior. Servicio altamente autoatendido Se busca la reducción de los costes de atención telefónica, y se persigue que el portal de voz tenga la capacidad de resolver la operativa demandada por el usuario sin ser necesaria la intervención de un agente. Portales de Voz Lenguaje Natural [ASR/TTS] ? [A]
  • 29. Los portales de Voz del pasado han hecho un uso deficiente de la tecnología, buscando principalmentereducir costes IVRs al servicio de las empresas Portales de Voz - Pasado Objetivo 1 - Disminuir necesidad de Agentes (Costes) Objetivo 2 – Generar Ingresos para sufragar Costes (902) Objetivo 3 – Disuadir al cliente de llevar a cabo ciertas operativas
  • 30. Los portales de Voz del presentebuscan potenciar una imagen positiva de la empresa o, al menos, no potenciar una imagen negativa IVRs al servicio de las empresas y sus clientes Portales de Voz - Presente Objetivo 1 – Automatizar con calidad Objetivo 2 – Conseguir promotores y prescriptores Objetivo 3 – Optimización y mejora continua
  • 31. Los portales de Voz del futuro serán sistemas expertos capaces de ejecutar transacciones y solucionar incidencias de forma (casi) tan eficiente como un humano IVRs al servicio de sus clientes Portales de Voz - Futuro Objetivo 1 – Parte del Plan de Marketing. Orientación al cliente Objetivo 2 – Transacciones rápidas, sencillas, cómodas y resolutivas Objetivo 3 – Política de 0 clientes insatisfechos. Seguimiento
  • 32. [Speech & Text Analytics] Contact Centers
  • 33. Contact Centers Multicanalidad [Speech Analytics] Móvil App./SMS Teléfono E-mail WEB/Chat/IM Redes SocialesFax/Carta
  • 34. Los Contact Centers buscan la excelencia a través de métricas tales como el Nivel de Servicio y Encuestas de Calidad (NPS) Pasado, presente y futuro Contact Centers Pasado – Atender/Emitir llamadas por canal telefónico Productividad Presente – Atender/Emitir eventos por múltiples canales de contacto Experiencia de Usuario (Calidad, Satisfacción, FCR, Tº resolución…) Futuro – Convergencia y Seguimiento, Deslocalización y Cloud Experiencia multicanal y personalizada para cada cliente
  • 35. Para mejorarla calidad hay que empezarplanificándola,asegurando que los procesos la cumplen y monitorizando queel resultado final es el esperado El grado en el que un conjunto de características inherentes cumple con los requisitos ¿Qué es calidad? Planificar la calidad (Diseño de procesos, argumentario, objeciones…) Aseguramiento de la calidad (checklists, auditorías…) Control de Calidad (encuestas de satisfacción, mistery shopping…)
  • 36. Speech Analytics Un vistazo sobre el resultado de recopilar información, clasificarla, medirla y cruzarla Idea Partiendo de: - audios pregrabados para su posterior procesado - conversaciones telefónicas en tiempo real (pinchadas o intervenidas)
  • 40. • Cruce de lainformaciónunidimensional recabadaen: – Voz del Cliente – Quality Assurance – Cumplimientodela Normativa • Conlas diferentescategoríasidentificadascomomotivosde la llamada,paraconocerenqué medidase venimpactadoslos diferentesKPIsdefinidosyacordadosconel cliente(FCR, Transfer,ScriptCompliance, CrossSelling…),connavegación enprofundidadyfiltrosde servicio, agente, supervisor,destino y llamante. Solución
  • 41. Caso práctico [Verbio SA] Análisis multidimensional
  • 42. Text Analytics se usa también para generar modelos lingüísticos y estadísticos usando técnicas de aprendizajeautomático con el fin de relacionar la información para aportar conocimiento con fines predictivos o resolutivos Procesamiento del Lenguaje Natural  Predecir y Solucionar Problemas de Negocio Text Analytics Categorización, clustering, taxonomías Extracción de datos de negocio, resúmenes Sentiment Analysis
  • 43. Procesamiento del Lenguaje Natural  Predecir y Solucionar Problemas de Negocio Text Analytics CRM Analytics - Transcripción Social Media Analytics + Sentiment Analysis Intención de Compra, Predicción de rotación de clientes, Riesgo para la Reputación…
  • 45. Para generarla huella vocal se usará entrenamiento implícito o explícito La huella vocal es tan fiable como la huella dactilar o el escáner de iris Sistemas de Biometría Verificación – Autenticación, Firma Vocal, Prueba de Vida Identificación y Clustering – Lucha contra el Fraude Indexación – Separación de locutores por marcas de tiempo
  • 46. ¿Cómo evitar que nos engañen? Previendo las técnicas y poniendo los medios Defensas antispoofing Sistemas de Biometría Anti Reproducción Anti Repetición Desafío dinámico
  • 47. Retos Biometría de Voz Extender su uso para evitar fraude (cualquier sistema con un elemento de seguridad puede ser sustituido por la voz) Obtener validez legal al nivel del certificado electrónico para la firma digital de documentos Integración multidispositivo para acceso a diferentes servicios – IoT Mitigar la alta dependencia del canal, las condiciones de ruido y de la prosodia
  • 48. [Aplicaciones Prácticas sobre Tecnologías del Habla] Complementos
  • 49.
  • 50. Asistentes Virtuales Pasado: Asistentes Virtuales para Empresas Ikea Vueling Eroski Presente: Asistentes Virtuales para Móvil, PC Google Now Cortana Siri Futuro: Asistentes en Hogar, Wearables y en IoT Amazon Echo Ubi + Samsung SmartThings
  • 51. Traducción Simultánea Pasado: Traducción de Texto On-line Google Translator Presente: Traducción de Texto y Voz en tiempo Real p2p Skype Translator Traducción de Mensajes (Realidad Aumentada) en tiempo Real Google Translate(Móvil) Futuro: Traducción de Imágenes/Voz automática Mass-media
  • 52.
  • 53. Wearables Pasado: Pulsómetro, GPS, Podómetro, GoPro, cascos BT, alarmas Presente: Smartwatches, Google Glass, Cámaras, eHealh, VR Futuro: Microchip interno, Casco Inflable, Smart Clothing, lentillas AR
  • 54. Retos Unique ID: Utilizar mecanismos biométricos combinados Lenguaje Verbal + No Verbal: Analizar las emociones mediante la voz y signos del cuerpo Predicción: Alertas automáticas que nos avisen de: Oportunidades Riesgos Futurosproblemas
  • 55.