SlideShare uma empresa Scribd logo
1 de 21
Baixar para ler offline
29 de marzo de 2014
Lingüística de Corpus aplicada
a la corrección automática y
profesional
Stilus es una marca de Daedalus, S. A.
Contenidos
 ¿Qué es la Lingüística de Corpus (LC)?
 Los corpus de la Academia vs. el de Mark Davies
 La LC en el ámbito de la corrección automática y profesional
 « que es gerundio». Algunos casos prácticos
¿Qué es la Lingüística de Corpus (LC)?
LC, ¿disciplina o metodología?
- de corpus. ???
1. Ha de ser representativo
2. Ha de estar almacenado en formato electrónico
3. Sus contenidos deben estar etiquetados según unos
criterios lingüísticos «útiles»
4. Debe poder responder a tareas de recuperación
específicas
¿Qué es la Lingüística de Corpus (LC)?
El corpus en LC…
La Lingüística de Corpus
permite llevar a cabo
investigaciones empíricas en
contextos «reales».
Los corpus de la Academia vs. el de Mark Davies
Corpus RAE
Los corpus de la Academia vs. el de Mark Davies
+
=
CORDE CREA
Los corpus de la Academia vs. el de Mark Davies
Los corpus de la Academia vs. el de Mark Davies
www.corpusdelespanol.org
Pero si los filtros morfológicos de la
Academia no dan de sí, tenemos
otras opciones…
Los corpus de la Academia vs. el de Mark Davies
+ Gran volumen: CDH (+ 350 mill. de palabras);
CORPES XXI (se pretenden: 25 mill./año)
+ Codificación cuidadosa (proceso automático +
validación humana)
+ Filtros de búsqueda: año, país, tipo de texto,
área temática… + combinación de parámetros
+/- Filtros de búsqueda morfológica básica
+ Filtros de búsqueda con desambiguación
morfológica
- Incómodo para análisis morfológicos detallados
+ Brillante y cómoda interfaz de consulta: rasgos
formales, filtros morfológicos avanzados, filtros semánticos
(búsqueda por sinónimos)
+ Posible combinación de parámetros mediante
expresiones regulares
+ Rápida capacidad de respuesta
- Incómodo para análisis diacrónicos o diatópicos (filtro
temporal por siglos / filtro diatópico inexistente)
Corpus del españolCDH / CORPES XXI
La LC en el ámbito de la corrección automática y profesional
¿Para qué podría utilizar la Lingüística de Corpus
un corrector profesional?
La LC en el ámbito de la corrección automática y profesional
¿Por qué me interesa
automatizar procesos de
verificación textual?
Mejora la consistencia de la revisión
Garantiza el cumplimiento de la guía de
estilo / Normalización corporativa
Mejora mi eficiencia y eficacia
Aumenta mi productividad
y mis ingresos
La LC en el ámbito de la corrección automática y profesional
1
• Coleccionar patrones de errores frecuentes
2
• Conocer las capacidades del gestor de búsqueda y reemplazo de mi
editor o procesador de textos
3
• Estudiar la viabilidad de automatización de dichos patrones sobre
corpus
4
• Automatizar el reemplazo de los patrones que considere viables (p. ej.,
con macros sobre Word)
5
• Elegir un software de verificación textual sensible al contexto como
complemento
¿Qué puedo hacer yo como corrector autónomo?
«Lenguando que es gerundio». Algunos casos prácticos
¿Alguna vez has estado tentado
de automatizar la revisión de las
expresiones incorrectas incluidas en
un manual de dudas?
1. Apunta…
«Lenguando que es gerundio». Algunos casos prácticos
2. Observa…
«Lenguando que es gerundio». Algunos casos prácticos
3. ¡Y dispara!
«Lenguando que es gerundio». Algunos casos prácticos
A veces, habrá que sopesar si automatizar merece la pena…
1 excepción de 31 casos
96,78 % de precisión
«Lenguando que es gerundio». Algunos casos prácticos
Y otras veces la automatización no estará a mi alcance…
/*
<test rule="ReglaHaPorA">
<case>Va <error>ha</error> hacer la reforma de su vida.</case>
<case>Se alquila habitación <error>ha</error> estudiantes.</case>
<case>Va a hacer la reforma de su vida.</case>
<case>Se alquila habitación a estudiantes.</case>
<case>Si ha lugar</case>
</test>
*/
RULE(L"ReglaHaPorA")
FORM_I(POS(N), L"ha") AND
UNIVERSAL_TAG(POS(N+1), TagVerbInfinitiveSimple OR_TAG
TagVerbInfinitiveCompound OR_TAG
TagNoun) AND
!FORM_I(POS(N+1), L"lugar")
THEN
SUG_WORD(POS(N),L"a");
ADD_ERROR(Error_Spelling, POS(N), POS(N),
msg(ES, L"Posible confusión al emplear la forma verbal
auxiliar <i>ha</i> en vez de la preposición <i>a</i>.",
A1,
L"ReglaHaPorA");
END_RULE
Aquí entran en juego las
capacidades del verificador
automático que hayas elegido
«Lenguando que es gerundio». Algunos casos prácticos
/*
<test rule="ReglaTratamEnMayúscula#3">
<case>Vimos al <error>Presidente del Gobierno</error></case>
<case>Estuvimos allí durante la visita de la <error>Reina</error></case>
<case>Saludó a <error>Don</error> José Luis Rodríguez Zapatero</case>
<case>Fue en Barcelona con el <error>Papa</error> Benedicto XVI</case>
<case>Visitamos el Reina Sofía el domingo pasado </case>
<case>El Prof. Fernández imparte clase en esa universidad </case>
</test>
*/
RULE(L"ReglaTratamEnMayúscula#3")
EXISTENTIAL_EXTRA_INFO(POS(N), SemIdEntity, SemCOtherEntityTitle) AND
!(FORM(POS(N), L"Reina Sofía") AND
FORM_I(POS(N-1), L"el|al|del")) AND
FIRST_LETTER_UPPERCASE(POS(N)) AND
!EXISTENTIAL_TAG(POS(N), TagNounAbbreviation) AND
!ALL_LETTERS_CONTAINED_IN(POS(N),CAPITALLETTERS) AND
!IS_FIRST_WORD(POS(N))
THEN
SUG_CAPITALIZATION(L"*a?*", GET_FORM(POS(N)));
ADD_ERROR(Error_Typographic, POS(N), POS(N),
msg(ES, L"Las fórmulas de tratamiento, título o cargo deben escribirse
con minúscula.",
Check_OLE10,
C2,
L"ReglaTratamEnMayúscula#3");
END_RULE
«Lenguando que es gerundio». Algunos casos prácticos
/*
<test rule="ReglaNoSolo,Pero">
<case>No solo destruyó nuestra historia, <error>pero</error> también cambió
nuestro nombre</case>
<case>No solo destruyó nuestra historia, sino también cambió nuestro
nombre</case>
<case>Fue a comprar el pan, pero también compró chorizo</case>
</test>
*/
RULE(L"ReglaNoSolo,Pero")
EXISTENTIAL_TAG(POS(N), TagClauseFirstCoordinate) AND
FORM_I(POS_FIRST_CHILD(POS(N)), L"no") AND
FORM_I(POS_SECOND_CHILD(POS(N)), L"solo|sólo") AND
EXISTENTIAL_TAG(POS_THIRD_CHILD(POS(N)), TagPhraseVerb) AND
FORM(POS(N+1), L",") AND
FORM_I(POS(N+2), L"pero")
THEN
SUG_WORD(POS(N+2), L"sino");
ADD_ERROR(Error_Grammatical, POS(N+2), POS(N+2),
msg(ES, L"Posiblemente no haya utilizado la conjunción
adecuada.",
B2,
L"ReglaNoSolo,Pero");
END_RULE
«Lenguando que es gerundio». Algunos casos prácticos
Pero el valor de la «corrección automática avanzada» no solo reside en su capacidad
de verificación sintáctico-semántica, también nos ayuda en la detección masiva
de errores independientes del contexto…
¡Gracias por vuestra atención!
Concepción Polo
Responsable de Lingüística
cpolo@daedalus.es
Daedalus, S. A.
Tel.: +34 913324301
http://www.daedalus.es

Mais conteúdo relacionado

Destaque (8)

David Farías
David FaríasDavid Farías
David Farías
 
Act4...evaluacion
Act4...evaluacionAct4...evaluacion
Act4...evaluacion
 
Eloy alfaro
Eloy alfaroEloy alfaro
Eloy alfaro
 
Capítulo 6 educación y sociedad
Capítulo 6 educación y sociedadCapítulo 6 educación y sociedad
Capítulo 6 educación y sociedad
 
Tutorial Plagio
Tutorial PlagioTutorial Plagio
Tutorial Plagio
 
Ejercicio5.1
Ejercicio5.1Ejercicio5.1
Ejercicio5.1
 
Crees en dios (2)
Crees en dios (2)Crees en dios (2)
Crees en dios (2)
 
Empresa
EmpresaEmpresa
Empresa
 

Semelhante a Stilus lenguando-lc aplicada a la correccion

Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...eMadrid network
 
lenguaje especialidad, corpus, LSP
lenguaje especialidad, corpus, LSPlenguaje especialidad, corpus, LSP
lenguaje especialidad, corpus, LSPChelo Vargas
 
Patricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRicoPatricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRicoPatricia Losada
 
Procesamiento del Lenguaje Natural
Procesamiento del Lenguaje NaturalProcesamiento del Lenguaje Natural
Procesamiento del Lenguaje Naturalmenamigue
 
Teoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formalesTeoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formalesUniversidad del Valle
 
Guia de recursos para educaci on 2016 2017
Guia de recursos para educaci on 2016 2017Guia de recursos para educaci on 2016 2017
Guia de recursos para educaci on 2016 2017Elia Astorga Mendoza
 
Agrovoc cswb training_2
Agrovoc cswb training_2Agrovoc cswb training_2
Agrovoc cswb training_2catecara
 
Agrovoc cswb training_2
Agrovoc cswb training_2Agrovoc cswb training_2
Agrovoc cswb training_2catecara
 
Taller n14 compiladores_10_junio_2021
Taller n14 compiladores_10_junio_2021Taller n14 compiladores_10_junio_2021
Taller n14 compiladores_10_junio_2021Bryan Chasiguano
 
Patricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducciónPatricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducciónPatricia Losada
 
Tutorial sobre estrategias de codificacion para la comprensión de textos
Tutorial sobre estrategias de codificacion para la comprensión de textosTutorial sobre estrategias de codificacion para la comprensión de textos
Tutorial sobre estrategias de codificacion para la comprensión de textosclaudiocastello_1953
 
Diccionario panhispanico de dudas argumento (cumple con su deber)
Diccionario panhispanico de dudas    argumento (cumple con su deber)Diccionario panhispanico de dudas    argumento (cumple con su deber)
Diccionario panhispanico de dudas argumento (cumple con su deber)Dearc
 
Actividad de aprendizaje 8
Actividad de aprendizaje 8Actividad de aprendizaje 8
Actividad de aprendizaje 8AmeLee Camarena
 
Evaluación de la Lectura -Escritura y Cálculo
Evaluación de la Lectura -Escritura y CálculoEvaluación de la Lectura -Escritura y Cálculo
Evaluación de la Lectura -Escritura y CálculoAURA MARTINEZ
 

Semelhante a Stilus lenguando-lc aplicada a la correccion (20)

Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
 
Natural language processing
Natural language processingNatural language processing
Natural language processing
 
lenguaje especialidad, corpus, LSP
lenguaje especialidad, corpus, LSPlenguaje especialidad, corpus, LSP
lenguaje especialidad, corpus, LSP
 
Patricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRicoPatricia Losada, Bloque Nº 2, Producto TeóRico
Patricia Losada, Bloque Nº 2, Producto TeóRico
 
Procesamiento del Lenguaje Natural
Procesamiento del Lenguaje NaturalProcesamiento del Lenguaje Natural
Procesamiento del Lenguaje Natural
 
Teoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formalesTeoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formales
 
Guia de recursos para educaci on 2016 2017
Guia de recursos para educaci on 2016 2017Guia de recursos para educaci on 2016 2017
Guia de recursos para educaci on 2016 2017
 
Agrovoc cswb training_2
Agrovoc cswb training_2Agrovoc cswb training_2
Agrovoc cswb training_2
 
Agrovoc cswb training_2
Agrovoc cswb training_2Agrovoc cswb training_2
Agrovoc cswb training_2
 
Taller n14 compiladores_10_junio_2021
Taller n14 compiladores_10_junio_2021Taller n14 compiladores_10_junio_2021
Taller n14 compiladores_10_junio_2021
 
Patricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducciónPatricia Losada: Corpus y memoria de traducción
Patricia Losada: Corpus y memoria de traducción
 
Tutorial sobre estrategias de codificacion para la comprensión de textos
Tutorial sobre estrategias de codificacion para la comprensión de textosTutorial sobre estrategias de codificacion para la comprensión de textos
Tutorial sobre estrategias de codificacion para la comprensión de textos
 
Tarea 2
Tarea 2Tarea 2
Tarea 2
 
Diccionario panhispanico de dudas argumento (cumple con su deber)
Diccionario panhispanico de dudas    argumento (cumple con su deber)Diccionario panhispanico de dudas    argumento (cumple con su deber)
Diccionario panhispanico de dudas argumento (cumple con su deber)
 
Introducción.docx
Introducción.docxIntroducción.docx
Introducción.docx
 
Programación Funcional en Scala
Programación Funcional en ScalaProgramación Funcional en Scala
Programación Funcional en Scala
 
Actividad de aprendizaje 8
Actividad de aprendizaje 8Actividad de aprendizaje 8
Actividad de aprendizaje 8
 
Apoyo para tesis
Apoyo para tesisApoyo para tesis
Apoyo para tesis
 
Compilador2
Compilador2Compilador2
Compilador2
 
Evaluación de la Lectura -Escritura y Cálculo
Evaluación de la Lectura -Escritura y CálculoEvaluación de la Lectura -Escritura y Cálculo
Evaluación de la Lectura -Escritura y Cálculo
 

Mais de Sngular Meaning

Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep CurtoCustomer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep CurtoSngular Meaning
 
Customer Analytics: de text analytics a Voice of Customer
Customer Analytics: de text analytics a Voice of CustomerCustomer Analytics: de text analytics a Voice of Customer
Customer Analytics: de text analytics a Voice of CustomerSngular Meaning
 
s|ngular Data and Analytics Intro
s|ngular Data and Analytics Intros|ngular Data and Analytics Intro
s|ngular Data and Analytics IntroSngular Meaning
 
Stilus corrector ortografico gramatical de estilo en espanol
Stilus   corrector ortografico gramatical de estilo en espanolStilus   corrector ortografico gramatical de estilo en espanol
Stilus corrector ortografico gramatical de estilo en espanolSngular Meaning
 
Social Media Analytics for Emergency Management - Telefonica Daedalus 2014
Social Media Analytics for Emergency Management -  Telefonica Daedalus 2014Social Media Analytics for Emergency Management -  Telefonica Daedalus 2014
Social Media Analytics for Emergency Management - Telefonica Daedalus 2014Sngular Meaning
 
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014Sngular Meaning
 
Tweet alert - semantic analysis in social networks for citizen opinion mining
Tweet alert - semantic analysis in social networks for citizen opinion miningTweet alert - semantic analysis in social networks for citizen opinion mining
Tweet alert - semantic analysis in social networks for citizen opinion miningSngular Meaning
 
Tecnologías semánticas en sanidad
Tecnologías semánticas en sanidadTecnologías semánticas en sanidad
Tecnologías semánticas en sanidadSngular Meaning
 
Semantic Technologies for Healthcare
Semantic Technologies for HealthcareSemantic Technologies for Healthcare
Semantic Technologies for HealthcareSngular Meaning
 
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014Sngular Meaning
 
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014Stilus en IX Seminario Internacional de Lengua y Periodismo 2014
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014Sngular Meaning
 
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...Sngular Meaning
 
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014Sngular Meaning
 
An Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix WeekendAn Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix WeekendSngular Meaning
 
Real time semantic search engine for social tv streams
Real time semantic search engine for social tv streamsReal time semantic search engine for social tv streams
Real time semantic search engine for social tv streamsSngular Meaning
 
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013Sngular Meaning
 
Textalytics, Meaning as a Service
Textalytics, Meaning as a ServiceTextalytics, Meaning as a Service
Textalytics, Meaning as a ServiceSngular Meaning
 
A Tale of Two (Semantic) APIs - Daedalus - API Days Mediterranea
A Tale of Two (Semantic) APIs - Daedalus - API Days MediterraneaA Tale of Two (Semantic) APIs - Daedalus - API Days Mediterranea
A Tale of Two (Semantic) APIs - Daedalus - API Days MediterraneaSngular Meaning
 
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013Sngular Meaning
 
Language Processing at the Core of the Media & Publishing Industries - Daedal...
Language Processing at the Core of the Media & Publishing Industries - Daedal...Language Processing at the Core of the Media & Publishing Industries - Daedal...
Language Processing at the Core of the Media & Publishing Industries - Daedal...Sngular Meaning
 

Mais de Sngular Meaning (20)

Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep CurtoCustomer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
Customer Analytics; qué se necesita y cómo conseguirlo by Josep Curto
 
Customer Analytics: de text analytics a Voice of Customer
Customer Analytics: de text analytics a Voice of CustomerCustomer Analytics: de text analytics a Voice of Customer
Customer Analytics: de text analytics a Voice of Customer
 
s|ngular Data and Analytics Intro
s|ngular Data and Analytics Intros|ngular Data and Analytics Intro
s|ngular Data and Analytics Intro
 
Stilus corrector ortografico gramatical de estilo en espanol
Stilus   corrector ortografico gramatical de estilo en espanolStilus   corrector ortografico gramatical de estilo en espanol
Stilus corrector ortografico gramatical de estilo en espanol
 
Social Media Analytics for Emergency Management - Telefonica Daedalus 2014
Social Media Analytics for Emergency Management -  Telefonica Daedalus 2014Social Media Analytics for Emergency Management -  Telefonica Daedalus 2014
Social Media Analytics for Emergency Management - Telefonica Daedalus 2014
 
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014
Webinar Herramientas semánticas para sector Salud - Daedalus 4 noviembre 2014
 
Tweet alert - semantic analysis in social networks for citizen opinion mining
Tweet alert - semantic analysis in social networks for citizen opinion miningTweet alert - semantic analysis in social networks for citizen opinion mining
Tweet alert - semantic analysis in social networks for citizen opinion mining
 
Tecnologías semánticas en sanidad
Tecnologías semánticas en sanidadTecnologías semánticas en sanidad
Tecnologías semánticas en sanidad
 
Semantic Technologies for Healthcare
Semantic Technologies for HealthcareSemantic Technologies for Healthcare
Semantic Technologies for Healthcare
 
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014
Tracking Buzz and Sentiment for Second Screens - Daedalus - ACM TVX 2014
 
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014Stilus en IX Seminario Internacional de Lengua y Periodismo 2014
Stilus en IX Seminario Internacional de Lengua y Periodismo 2014
 
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...
Mineria de informacion util en medios sociales - Daedalus - Big Data Week 201...
 
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014
Textalytics - Voice of the Customer - Sentiment Analysis Symposium 2014
 
An Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix WeekendAn Introduction to Textalytics API - Redradix Weekend
An Introduction to Textalytics API - Redradix Weekend
 
Real time semantic search engine for social tv streams
Real time semantic search engine for social tv streamsReal time semantic search engine for social tv streams
Real time semantic search engine for social tv streams
 
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013
Webinar Textalytics Meaning as a Service - Daedalus 8 octubre 2013
 
Textalytics, Meaning as a Service
Textalytics, Meaning as a ServiceTextalytics, Meaning as a Service
Textalytics, Meaning as a Service
 
A Tale of Two (Semantic) APIs - Daedalus - API Days Mediterranea
A Tale of Two (Semantic) APIs - Daedalus - API Days MediterraneaA Tale of Two (Semantic) APIs - Daedalus - API Days Mediterranea
A Tale of Two (Semantic) APIs - Daedalus - API Days Mediterranea
 
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013
Webinar Análisis Semántico de Medios Sociales - Daedalus 21 may 2013
 
Language Processing at the Core of the Media & Publishing Industries - Daedal...
Language Processing at the Core of the Media & Publishing Industries - Daedal...Language Processing at the Core of the Media & Publishing Industries - Daedal...
Language Processing at the Core of the Media & Publishing Industries - Daedal...
 

Último

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 

Último (13)

Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 

Stilus lenguando-lc aplicada a la correccion

  • 1. 29 de marzo de 2014 Lingüística de Corpus aplicada a la corrección automática y profesional Stilus es una marca de Daedalus, S. A.
  • 2. Contenidos  ¿Qué es la Lingüística de Corpus (LC)?  Los corpus de la Academia vs. el de Mark Davies  La LC en el ámbito de la corrección automática y profesional  « que es gerundio». Algunos casos prácticos
  • 3. ¿Qué es la Lingüística de Corpus (LC)? LC, ¿disciplina o metodología? - de corpus. ???
  • 4. 1. Ha de ser representativo 2. Ha de estar almacenado en formato electrónico 3. Sus contenidos deben estar etiquetados según unos criterios lingüísticos «útiles» 4. Debe poder responder a tareas de recuperación específicas ¿Qué es la Lingüística de Corpus (LC)? El corpus en LC… La Lingüística de Corpus permite llevar a cabo investigaciones empíricas en contextos «reales».
  • 5. Los corpus de la Academia vs. el de Mark Davies Corpus RAE
  • 6. Los corpus de la Academia vs. el de Mark Davies + = CORDE CREA
  • 7. Los corpus de la Academia vs. el de Mark Davies
  • 8. Los corpus de la Academia vs. el de Mark Davies www.corpusdelespanol.org Pero si los filtros morfológicos de la Academia no dan de sí, tenemos otras opciones…
  • 9. Los corpus de la Academia vs. el de Mark Davies + Gran volumen: CDH (+ 350 mill. de palabras); CORPES XXI (se pretenden: 25 mill./año) + Codificación cuidadosa (proceso automático + validación humana) + Filtros de búsqueda: año, país, tipo de texto, área temática… + combinación de parámetros +/- Filtros de búsqueda morfológica básica + Filtros de búsqueda con desambiguación morfológica - Incómodo para análisis morfológicos detallados + Brillante y cómoda interfaz de consulta: rasgos formales, filtros morfológicos avanzados, filtros semánticos (búsqueda por sinónimos) + Posible combinación de parámetros mediante expresiones regulares + Rápida capacidad de respuesta - Incómodo para análisis diacrónicos o diatópicos (filtro temporal por siglos / filtro diatópico inexistente) Corpus del españolCDH / CORPES XXI
  • 10. La LC en el ámbito de la corrección automática y profesional ¿Para qué podría utilizar la Lingüística de Corpus un corrector profesional?
  • 11. La LC en el ámbito de la corrección automática y profesional ¿Por qué me interesa automatizar procesos de verificación textual? Mejora la consistencia de la revisión Garantiza el cumplimiento de la guía de estilo / Normalización corporativa Mejora mi eficiencia y eficacia Aumenta mi productividad y mis ingresos
  • 12. La LC en el ámbito de la corrección automática y profesional 1 • Coleccionar patrones de errores frecuentes 2 • Conocer las capacidades del gestor de búsqueda y reemplazo de mi editor o procesador de textos 3 • Estudiar la viabilidad de automatización de dichos patrones sobre corpus 4 • Automatizar el reemplazo de los patrones que considere viables (p. ej., con macros sobre Word) 5 • Elegir un software de verificación textual sensible al contexto como complemento ¿Qué puedo hacer yo como corrector autónomo?
  • 13. «Lenguando que es gerundio». Algunos casos prácticos ¿Alguna vez has estado tentado de automatizar la revisión de las expresiones incorrectas incluidas en un manual de dudas? 1. Apunta…
  • 14. «Lenguando que es gerundio». Algunos casos prácticos 2. Observa…
  • 15. «Lenguando que es gerundio». Algunos casos prácticos 3. ¡Y dispara!
  • 16. «Lenguando que es gerundio». Algunos casos prácticos A veces, habrá que sopesar si automatizar merece la pena… 1 excepción de 31 casos 96,78 % de precisión
  • 17. «Lenguando que es gerundio». Algunos casos prácticos Y otras veces la automatización no estará a mi alcance… /* <test rule="ReglaHaPorA"> <case>Va <error>ha</error> hacer la reforma de su vida.</case> <case>Se alquila habitación <error>ha</error> estudiantes.</case> <case>Va a hacer la reforma de su vida.</case> <case>Se alquila habitación a estudiantes.</case> <case>Si ha lugar</case> </test> */ RULE(L"ReglaHaPorA") FORM_I(POS(N), L"ha") AND UNIVERSAL_TAG(POS(N+1), TagVerbInfinitiveSimple OR_TAG TagVerbInfinitiveCompound OR_TAG TagNoun) AND !FORM_I(POS(N+1), L"lugar") THEN SUG_WORD(POS(N),L"a"); ADD_ERROR(Error_Spelling, POS(N), POS(N), msg(ES, L"Posible confusión al emplear la forma verbal auxiliar <i>ha</i> en vez de la preposición <i>a</i>.", A1, L"ReglaHaPorA"); END_RULE Aquí entran en juego las capacidades del verificador automático que hayas elegido
  • 18. «Lenguando que es gerundio». Algunos casos prácticos /* <test rule="ReglaTratamEnMayúscula#3"> <case>Vimos al <error>Presidente del Gobierno</error></case> <case>Estuvimos allí durante la visita de la <error>Reina</error></case> <case>Saludó a <error>Don</error> José Luis Rodríguez Zapatero</case> <case>Fue en Barcelona con el <error>Papa</error> Benedicto XVI</case> <case>Visitamos el Reina Sofía el domingo pasado </case> <case>El Prof. Fernández imparte clase en esa universidad </case> </test> */ RULE(L"ReglaTratamEnMayúscula#3") EXISTENTIAL_EXTRA_INFO(POS(N), SemIdEntity, SemCOtherEntityTitle) AND !(FORM(POS(N), L"Reina Sofía") AND FORM_I(POS(N-1), L"el|al|del")) AND FIRST_LETTER_UPPERCASE(POS(N)) AND !EXISTENTIAL_TAG(POS(N), TagNounAbbreviation) AND !ALL_LETTERS_CONTAINED_IN(POS(N),CAPITALLETTERS) AND !IS_FIRST_WORD(POS(N)) THEN SUG_CAPITALIZATION(L"*a?*", GET_FORM(POS(N))); ADD_ERROR(Error_Typographic, POS(N), POS(N), msg(ES, L"Las fórmulas de tratamiento, título o cargo deben escribirse con minúscula.", Check_OLE10, C2, L"ReglaTratamEnMayúscula#3"); END_RULE
  • 19. «Lenguando que es gerundio». Algunos casos prácticos /* <test rule="ReglaNoSolo,Pero"> <case>No solo destruyó nuestra historia, <error>pero</error> también cambió nuestro nombre</case> <case>No solo destruyó nuestra historia, sino también cambió nuestro nombre</case> <case>Fue a comprar el pan, pero también compró chorizo</case> </test> */ RULE(L"ReglaNoSolo,Pero") EXISTENTIAL_TAG(POS(N), TagClauseFirstCoordinate) AND FORM_I(POS_FIRST_CHILD(POS(N)), L"no") AND FORM_I(POS_SECOND_CHILD(POS(N)), L"solo|sólo") AND EXISTENTIAL_TAG(POS_THIRD_CHILD(POS(N)), TagPhraseVerb) AND FORM(POS(N+1), L",") AND FORM_I(POS(N+2), L"pero") THEN SUG_WORD(POS(N+2), L"sino"); ADD_ERROR(Error_Grammatical, POS(N+2), POS(N+2), msg(ES, L"Posiblemente no haya utilizado la conjunción adecuada.", B2, L"ReglaNoSolo,Pero"); END_RULE
  • 20. «Lenguando que es gerundio». Algunos casos prácticos Pero el valor de la «corrección automática avanzada» no solo reside en su capacidad de verificación sintáctico-semántica, también nos ayuda en la detección masiva de errores independientes del contexto…
  • 21. ¡Gracias por vuestra atención! Concepción Polo Responsable de Lingüística cpolo@daedalus.es Daedalus, S. A. Tel.: +34 913324301 http://www.daedalus.es