22. Para aprender más
Cool demo:
https://github.com/Azure-Samples/Cognitive-Speech-
TTS/tree/master/PronunciationAssessment/BrowserJS
Documentación:
https://docs.microsoft.com/en-us/azure/cognitive-services/speech-
service/how-to-pronunciation-assessment
Códigos de ejemplo:
https://github.com/Azure-Samples/Cognitive-Speech-
TTS/tree/master/PronunciationAssessment
23. ¡Gracias por tu atención!
About Me:
https://about.me/luis-beltran
Notas do Editor
Practicing pronunciation and getting timely feedback are essential to improving language skills. Assessment is conventionally driven by experienced teachers, which normally takes a lot of time and great effort, and this makes high-quality assessment expensive for students. In this session we will see how we can make use of artificial intelligence to create a technological solution to support students in learning another language in a practical way and with objective feedback in real time.
El servicio Azure Speech de Microsoft proporciona capacidades de voz a texto, texto a voz y traducción de voz a los desarrolladores. En Build 2020, Microsoft anunció varias nuevas capacidades de vista previa, incluida la evaluación de pronunciación que puede evaluar la pronunciación del habla y dar a los oradores comentarios sobre la precisión y fluidez del audio hablado. Microsoft está utilizando este servicio para su característica PowerPoint Presenter Coach.
Para los estudiantes de idiomas, practicar la pronunciación y obtener comentarios oportunos son esenciales para mejorar las habilidades lingüísticas. La evaluación es convencionalmente impulsada por maestros experimentados, lo que generalmente toma mucho tiempo y gran esfuerzo, lo que hace que la evaluación de alta calidad sea costosa para los estudiantes.
¿Cómo resolver este problema?
Pronunciation Assessment, una novedosa capacidad de habla impulsada por IA, puede hacer que la evaluación del lenguaje sea más atractiva y accesible para estudiantes de todos los orígenes.
La evaluación de pronunciación, una característica de Speech en Azure Cognitive Services, proporciona comentarios subjetivos y objetivos a los estudiantes de idiomas con tecnología asistida por ordenador.
Con la evaluación de pronunciación, los estudiantes de idiomas pueden practicar, obtener comentarios instantáneos y mejorar su pronunciación. Los proveedores de soluciones de aprendizaje en línea o los educadores pueden usar la capacidad de evaluar la pronunciación de múltiples hablantes en tiempo real.
La evaluación de pronunciación proporciona varios resultados de evaluación en diferentes granularidades, desde fonemas individuales hasta entrada de texto completo.
A nivel de fonema, proporciona puntajes de precisión de cada fonema, ayudando a los estudiantes a comprender mejor los detalles de pronunciación de su discurso.
A nivel de palabra, puede detectar automáticamente errores y proporcionar una puntuación de precisión simultáneamente, proporcionando información más detallada sobre la omisión, la repetición, las inserciones y la pronunciación incorrecta en el discurso dado.
En el nivel de texto completo, ofrece puntuaciones adicionales de fluidez e integridad: la fluidez indica qué tan cerca coincide el habla con el uso de pausas silenciosas entre palabras por parte de un hablante nativo, y la integridad indica cuántas palabras se pronuncian en el habla para hacer referencia a la entrada de texto.
Luego se proporciona una puntuación general agregada de precisión, fluidez e integridad para indicar la calidad general de pronunciación del discurso dado. Con estas características, los estudiantes pueden conocer fácilmente la debilidad de su discurso y mejorar con los objetivos objetivos.
Puede obtener puntajes de evaluación de pronunciación para:
Texto completo
Palabras
Grupos de sílabas
Fonemas en formato SAPI o IPA
La evaluación de pronunciación puede proporcionar resultados de evaluación a nivel de sílaba. La agrupación en sílabas es más legible y está alineada con los hábitos de habla, ya que una palabra se pronuncia típicamente sílaba por sílaba en lugar de fonema por fonema.
Para la configuración regional en-US, el nombre del fonema se proporciona junto con la partitura, para ayudar a identificar qué fonemas se pronunciaron con precisión o inexactitud. Para otras configuraciones regionales, solo puede obtener la puntuación del fonema.
Con los fonemas hablados, puede obtener puntuaciones de confianza que indican la probabilidad de que los fonemas hablados coincidan con los fonemas esperados.
Cuando se reconoce voz, puede solicitar los resultados de la evaluación de pronunciación como objetos SDK o una cadena JSON.
El alfabeto fonema es IPA.
Las sílabas se devuelven junto a los fonemas para la misma palabra.
Puede utilizar los valores Offset y Duration para alinear sílabas con sus fonemas correspondientes. Por ejemplo, el desplazamiento inicial (11700000) de la segunda sílaba ("loʊ") se alinea con el tercer fonema ("l").
Hay cinco NBestPhonemes correspondientes al número de fonemas hablados solicitados.
Dentro de los fonemas, el fonema hablado más probable era "ə" en lugar del fonema esperado "ɛ". El fonema esperado "ɛ" solo recibió una puntuación de confianza de 47. Otros posibles partidos recibieron puntajes de confianza de 52, 17 y 2.