2023-TFG4_NLP_Transformers

Ricardo Lopez-Ruiz
Ricardo Lopez-RuizProfessor em University of Zaragoza
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Modelos de redes neuronales para identificar
entidades en documentos
David Redondo Laencina
Universidad de Zaragoza
13 de septiembre de 2023
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Motivación del trabajo
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Índice
1 Fundamentos teóricos
Aprendizaje automático
Aprendizaje supervisado
Aprendizaje no supervisado
Redes neuronales
Modelos de lenguaje en NLP
2 Identificación de entidades en documentos
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Redes neuronales convolucionales
Transformers
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Índice
3 DocLayNet y LayoutLM: Análisis y explicación
LayoutLMv2
DocLayNet
4 Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje automático
Es el área de la inteligencia artificial que tiene como objetivo que
las máquinas aprendan. Diferenciamos dos ramas:
Aprendizaje supervisado.
Aprendizaje no supervisado.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje supervisado
Los algoritmos son entrenados con datos etiquetados.
Destacamos:
Regresión lineal y gradiente descendente.
Regresión logística.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Aprendizaje no supervisado
Los algoritmos son entrenados con datos sin etiquetar.
Destacamos dos algoritmos:
Algoritmo K-means.
Anomaly detection algorithm.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Redes neuronales
La unidad básica es la neurona, esta se distribuye en layers que
pueden ser:
Input layers
Hidden layers
Output layers
En cada neurona hay una función de activación que procesa la
información.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Redes neuronales
Tipos de redes neuronales:
Feedforward Neural Networks (FNN): La información fluye
de la capa de entrada a la de salida en una única dirección.
Recurrent Neural Networks (RNN): Cada neurona puede
recordar el estado de la información en la neurona anterior.
Convolutional Neural Networks (CNN): Distintas neuronas
procesan la misma información.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Aprendizaje automático
Redes neuronales
Modelos de lenguaje en NLP
Modelos de lenguaje en NLP
Se divide en tres grandes ramas:
Comprensión del lenguaje.
Generación del lenguaje.
Interacción humano máquina.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Definición del problema
El objetivo de este problema es reconocer las distintas entidades de
un documento para así poder estructurarlo y obtener la información
necesaria. Las entidades se eligen en base a dos criterios:
Criterios semánticos y gramaticales.
Criterios estructurales y de localización.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Enfoques tradicionales
Métodos lingüísticos.
Métodos basados en diccionarios y palabras clave.
Modelos ocultos de Markov.
Campo aleatorio condicional.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Redes neuronales convolucionales
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Transformers
Es una arquitectura de red neuronal propuesta en 2017, en la que
se basan:
BERT
GPT
LayoutLM
Los transformers se basan en una estructura de atención, que es un
mecanismo que asigna un peso a cada elemento de la secuencia.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Definición del problema
Enfoques tradicionales
Modelos de redes neuronales
Transformers
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
LayoutLM es una familia de modelos multimodales orientados al
análisis de texto, imagen y layout.
Es capaz de resolver las siguientes tareas:
Question answering
Text classification
Token classification
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Texto: Se usa WordPiece añadiendo los tokens: [CLS], [SEP],
[PAD].
ti = TokEmb(wi )+PosEmb1D(i)+SegEmb(si )
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Imagen: Primero se redimensiona la imagen, después se pasa
por el encoder, se redimensiona el output y se hace una
proyección lineal.
vi = Proj(VisTokEmb(I)i )+PosEmb1D(i)+SegEmb(si )
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
1 Input embedding:
Codifica el texto, la imagen y el layout de formas diferentes:
Layout: Primero se representan las bbox
bbox = (xmin,xmax ,ymin,ymax ,width,height)
y después se codifican las coordenadas en dos layers diferentes:
li = Concat(PosEmb2Dx (xmin,xmax ,width),
PosEmb2Dy (ymin,ymax ,height))
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
2 Encoder:
Primero concatena las diferentes vi y ti obteniendo
X = {v0,...,vWH−1,t0,...,tL−1}
a continuación le suma la codificación de las bbox obteniendo
xi = Xi +li .
El resto del proceso es igual al explicado anteriormente con la
diferencia de que añadimos la información sobre la posición relativa
explícitamente.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
LayoutLMv2
Model FUNSD CORD SROIE Kleister-NDA
LayoutLMBASE 0.7866 0.9472 0.9438 0.8270
LayoutLMLARGE 0.7895 0.9493 0.9524 0.8340
LayoutLMv2BASE 0.8276 0.9495 0.9625 0.8330
LayoutLMv2LARGE 0.8420 0.9621 0.9781 0.8520
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Train: 69375 imágenes con 941123 anotaciones.
Validation: 6489 imágenes con 99816 anotaciones.
Test: 4999 imágenes con 66531 anotaciones.
Compuesto por: informes financieros (32%), manuales (21%),
artículos científicos (17%), leyes y regulaciones (16%), patentes
(8%), y licitaciones del gobierno (6%).
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Preprocesado
Ajuste de las bbox.
Unificación de formula y footnote en text.
Asignación de categorías a las celdas.
Eliminación de imágenes inservibles.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
LayoutLMv2
DocLayNet
DocLayNet
Train Validation Test
Categorías Num. % Num. % Num. %
Leyes y regulaciones 10639 15.45 1143 17.25 774 15.58
Patentes 5526 8.02 483 7.48 442 8.89
Artículos científicos 12225 17.75 944 14.62 941 18.94
Informes financieros 22413 32.54 1731 26.80 1739 35.00
Manuales 14332 20.80 1853 28.69 800 16.10
Licitaciones del gobierno 3746 5.44 333 5.16 273 5.49
Total 68881 6458 4969
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Fine-tuning
1 Tokenización
Nuestra función recibe como inputs la imagen (formato PIL),
texto palabra a palabra, sus respectivas categorías y las
distintas bbox [x1,y1,x2,y2].
Devuelve una lista con un id para cada palabra, una lista que
identifica el tipo de token, la attention mask y la
representación de las bbox, categorías e imagen.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Fine-tuning
2 Argumentos del entrenamiento
Número de epochs.
Tamaño del lote.
Optimizador.
Learning rate.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy:
TP +TN
TP +FP +TN +FN
Precision:
TP
TP +FP
Recall:
TP
TP +FN
F1 Score: F1 = 2
precision∗recall
precision+recall
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy Precision Recall F1
LayoutLMv2 0.7934 0.0542 0.0394 0.0456
Epoch 1 0.9871 0.8939 0.9481 0.9202
Epoch 2 0.9902 0.9476 0.9557 0.9516
Epoch 3 0.9933 0.9553 0.9679 0.9626
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Evaluación del modelo y limitaciones
Accuracy Precision Recall F1
Leyes y regulaciones 0.8444 0.5339 0.4748 0.5026
Patentes 0.7958 0.5643 0.4864 0.5225
Informes financieros 0.7264 0.4560 0.3512 0.3968
Manuales 0.8311 0.4608 0.3391 0.3907
Licitaciones del gobierno 0.8017 0.5831 0.4976 0.5370
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
Desafíos futuros
Continuación del entrenamiento con otro tipo de documentos.
Investigar sobre como optimizar los tiempos de entrenamiento.
Entrenar con los mismos documentos en otra orientación.
Dividir el entrenamiento para exigir menos memoria y
almacenamiento.
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
Fundamentos teóricos
Identificación de entidades en documentos
DocLayNet y LayoutLM: Análisis y explicación
Entrenamiento y conclusiones
Fine-tuning
Evaluación del modelo y limitaciones
Desafíos futuros
¡Gracias!
¡Gracias por su atención!
David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
1 de 33

Recomendados

Unidad 4 clas int datos.pptx por
Unidad 4 clas int datos.pptxUnidad 4 clas int datos.pptx
Unidad 4 clas int datos.pptxfernandalemus15
2 visualizações35 slides
Deep Learning + R by Gabriel Valverde por
Deep Learning + R by Gabriel ValverdeDeep Learning + R by Gabriel Valverde
Deep Learning + R by Gabriel ValverdeVictoria López
2K visualizações57 slides
BASE DE DATOS.pdf por
BASE DE DATOS.pdfBASE DE DATOS.pdf
BASE DE DATOS.pdfSistemadeEstudiosMed
321 visualizações11 slides
Diseno orientado a objetos por
Diseno orientado a objetosDiseno orientado a objetos
Diseno orientado a objetosCecilia Lemus
369 visualizações11 slides
Tema1 (2) por
Tema1 (2)Tema1 (2)
Tema1 (2)Pedro Sánchez
404 visualizações25 slides
CIITEC Fundamentos de Deep Learning.pptx por
CIITEC  Fundamentos de Deep Learning.pptxCIITEC  Fundamentos de Deep Learning.pptx
CIITEC Fundamentos de Deep Learning.pptxicebeam7
197 visualizações54 slides

Mais conteúdo relacionado

Similar a 2023-TFG4_NLP_Transformers

Banco de reactivos total por
Banco de reactivos totalBanco de reactivos total
Banco de reactivos totalJaneth Mtz
1.2K visualizações122 slides
Doo por
DooDoo
Dooyoglentigre
473 visualizações10 slides
Clase No.01.pptx por
Clase No.01.pptxClase No.01.pptx
Clase No.01.pptxJorgeAlbertoCamposRo
5 visualizações38 slides
Bases de Datos Relacionales por
Bases de Datos RelacionalesBases de Datos Relacionales
Bases de Datos RelacionalesArnulfo Gomez
3.7K visualizações72 slides
Analisis y diseño de sistemas por
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemasjoalmerca6
455 visualizações29 slides
Analisis y diseño de sistemas por
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemasjoalmerca6
8.9K visualizações29 slides

Similar a 2023-TFG4_NLP_Transformers(20)

Banco de reactivos total por Janeth Mtz
Banco de reactivos totalBanco de reactivos total
Banco de reactivos total
Janeth Mtz1.2K visualizações
Doo por yoglentigre
DooDoo
Doo
yoglentigre473 visualizações
Bases de Datos Relacionales por Arnulfo Gomez
Bases de Datos RelacionalesBases de Datos Relacionales
Bases de Datos Relacionales
Arnulfo Gomez3.7K visualizações
Analisis y diseño de sistemas por joalmerca6
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemas
joalmerca6455 visualizações
Analisis y diseño de sistemas por joalmerca6
Analisis y diseño de sistemasAnalisis y diseño de sistemas
Analisis y diseño de sistemas
joalmerca68.9K visualizações
Analisis Y Diseño De Sistemas Orientado A Objetos por joalmerca6
Analisis Y Diseño De Sistemas Orientado A ObjetosAnalisis Y Diseño De Sistemas Orientado A Objetos
Analisis Y Diseño De Sistemas Orientado A Objetos
joalmerca618.2K visualizações
Unidad 3 paradigmas de la ingeniería del software por Andhy H Palma
Unidad 3 paradigmas de la ingeniería del softwareUnidad 3 paradigmas de la ingeniería del software
Unidad 3 paradigmas de la ingeniería del software
Andhy H Palma282 visualizações
Analisis orientado a objetos por Messenger Adictos
Analisis orientado a objetosAnalisis orientado a objetos
Analisis orientado a objetos
Messenger Adictos378 visualizações
Analisis Y DiseñO Orientado A Objetos por yoiner santiago
Analisis Y DiseñO Orientado A ObjetosAnalisis Y DiseñO Orientado A Objetos
Analisis Y DiseñO Orientado A Objetos
yoiner santiago51.1K visualizações
Modelo de Datos E-R por Carol Puche
Modelo de Datos E-RModelo de Datos E-R
Modelo de Datos E-R
Carol Puche63 visualizações
Taller campus party .net por campus party
Taller campus party .netTaller campus party .net
Taller campus party .net
campus party486 visualizações
Taller campus party por campus party
Taller campus partyTaller campus party
Taller campus party
campus party268 visualizações
Introduccion SRI por RECUPERACION7
Introduccion SRIIntroduccion SRI
Introduccion SRI
RECUPERACION74.2K visualizações
Intelligent Methods for Information Access in Context: The Role of Topic Desc... por Carlos Lorenzetti
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Carlos Lorenzetti490 visualizações
Recomendaciones prácticas para el diseño de sistemas por Luis Fernando Aguas Bucheli
Recomendaciones prácticas para el diseño de sistemasRecomendaciones prácticas para el diseño de sistemas
Recomendaciones prácticas para el diseño de sistemas
Luis Fernando Aguas Bucheli272 visualizações
Lecture 01 Introduccion.ppt por PatricioAGaldamesS
Lecture 01 Introduccion.pptLecture 01 Introduccion.ppt
Lecture 01 Introduccion.ppt
PatricioAGaldamesS4 visualizações

Mais de Ricardo Lopez-Ruiz

2023-TFG5_Metaheuristicas_para_Turismo por
2023-TFG5_Metaheuristicas_para_Turismo2023-TFG5_Metaheuristicas_para_Turismo
2023-TFG5_Metaheuristicas_para_TurismoRicardo Lopez-Ruiz
11 visualizações44 slides
2023-TFG3_ArbolesDecision_Basket por
2023-TFG3_ArbolesDecision_Basket2023-TFG3_ArbolesDecision_Basket
2023-TFG3_ArbolesDecision_BasketRicardo Lopez-Ruiz
22 visualizações73 slides
2023-TFG2_RedesNeuronalesAplicadas_F1 por
2023-TFG2_RedesNeuronalesAplicadas_F12023-TFG2_RedesNeuronalesAplicadas_F1
2023-TFG2_RedesNeuronalesAplicadas_F1Ricardo Lopez-Ruiz
35 visualizações45 slides
2023-TFG1_MercadosLibres.ppsx por
2023-TFG1_MercadosLibres.ppsx2023-TFG1_MercadosLibres.ppsx
2023-TFG1_MercadosLibres.ppsxRicardo Lopez-Ruiz
8 visualizações27 slides
2022-TFG1_ReglasAsociacion.pdf por
2022-TFG1_ReglasAsociacion.pdf2022-TFG1_ReglasAsociacion.pdf
2022-TFG1_ReglasAsociacion.pdfRicardo Lopez-Ruiz
26 visualizações30 slides
2023-T14-Estudio_Histórico_Pandemias.pdf por
2023-T14-Estudio_Histórico_Pandemias.pdf2023-T14-Estudio_Histórico_Pandemias.pdf
2023-T14-Estudio_Histórico_Pandemias.pdfRicardo Lopez-Ruiz
13 visualizações14 slides

Mais de Ricardo Lopez-Ruiz(20)

2023-TFG5_Metaheuristicas_para_Turismo por Ricardo Lopez-Ruiz
2023-TFG5_Metaheuristicas_para_Turismo2023-TFG5_Metaheuristicas_para_Turismo
2023-TFG5_Metaheuristicas_para_Turismo
Ricardo Lopez-Ruiz11 visualizações
2023-TFG3_ArbolesDecision_Basket por Ricardo Lopez-Ruiz
2023-TFG3_ArbolesDecision_Basket2023-TFG3_ArbolesDecision_Basket
2023-TFG3_ArbolesDecision_Basket
Ricardo Lopez-Ruiz22 visualizações
2023-TFG2_RedesNeuronalesAplicadas_F1 por Ricardo Lopez-Ruiz
2023-TFG2_RedesNeuronalesAplicadas_F12023-TFG2_RedesNeuronalesAplicadas_F1
2023-TFG2_RedesNeuronalesAplicadas_F1
Ricardo Lopez-Ruiz35 visualizações
2023-TFG1_MercadosLibres.ppsx por Ricardo Lopez-Ruiz
2023-TFG1_MercadosLibres.ppsx2023-TFG1_MercadosLibres.ppsx
2023-TFG1_MercadosLibres.ppsx
Ricardo Lopez-Ruiz8 visualizações
2022-TFG1_ReglasAsociacion.pdf por Ricardo Lopez-Ruiz
2022-TFG1_ReglasAsociacion.pdf2022-TFG1_ReglasAsociacion.pdf
2022-TFG1_ReglasAsociacion.pdf
Ricardo Lopez-Ruiz26 visualizações
2023-T14-Estudio_Histórico_Pandemias.pdf por Ricardo Lopez-Ruiz
2023-T14-Estudio_Histórico_Pandemias.pdf2023-T14-Estudio_Histórico_Pandemias.pdf
2023-T14-Estudio_Histórico_Pandemias.pdf
Ricardo Lopez-Ruiz13 visualizações
2023-T13-Henri_Poincaré.ppsx por Ricardo Lopez-Ruiz
2023-T13-Henri_Poincaré.ppsx2023-T13-Henri_Poincaré.ppsx
2023-T13-Henri_Poincaré.ppsx
Ricardo Lopez-Ruiz52 visualizações
2023-T12-Zoel_García_Galdeano.ppsx por Ricardo Lopez-Ruiz
2023-T12-Zoel_García_Galdeano.ppsx2023-T12-Zoel_García_Galdeano.ppsx
2023-T12-Zoel_García_Galdeano.ppsx
Ricardo Lopez-Ruiz6 visualizações
2023-T11-Axioma_de_Elección.ppsx por Ricardo Lopez-Ruiz
2023-T11-Axioma_de_Elección.ppsx2023-T11-Axioma_de_Elección.ppsx
2023-T11-Axioma_de_Elección.ppsx
Ricardo Lopez-Ruiz23 visualizações
2023-T10-Mécanica_Cuántica.ppsx por Ricardo Lopez-Ruiz
2023-T10-Mécanica_Cuántica.ppsx2023-T10-Mécanica_Cuántica.ppsx
2023-T10-Mécanica_Cuántica.ppsx
Ricardo Lopez-Ruiz9 visualizações
2023-T9-Cloud_Computing.pdf por Ricardo Lopez-Ruiz
2023-T9-Cloud_Computing.pdf2023-T9-Cloud_Computing.pdf
2023-T9-Cloud_Computing.pdf
Ricardo Lopez-Ruiz3 visualizações
2023-T8-Problema_Tres_Cubos.ppsx por Ricardo Lopez-Ruiz
2023-T8-Problema_Tres_Cubos.ppsx2023-T8-Problema_Tres_Cubos.ppsx
2023-T8-Problema_Tres_Cubos.ppsx
Ricardo Lopez-Ruiz12 visualizações
2023-T7-Estruct_Propagacion_Coronavirus.pdf por Ricardo Lopez-Ruiz
2023-T7-Estruct_Propagacion_Coronavirus.pdf2023-T7-Estruct_Propagacion_Coronavirus.pdf
2023-T7-Estruct_Propagacion_Coronavirus.pdf
Ricardo Lopez-Ruiz5 visualizações
2023-T5-Vacunas_Estrategias_Vacunación.pdf por Ricardo Lopez-Ruiz
2023-T5-Vacunas_Estrategias_Vacunación.pdf2023-T5-Vacunas_Estrategias_Vacunación.pdf
2023-T5-Vacunas_Estrategias_Vacunación.pdf
Ricardo Lopez-Ruiz9 visualizações
2023-T4-Analisis_Datos.ppsx por Ricardo Lopez-Ruiz
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
Ricardo Lopez-Ruiz7 visualizações
2023-T3-Sucesión_Fibonacci.ppsx por Ricardo Lopez-Ruiz
2023-T3-Sucesión_Fibonacci.ppsx2023-T3-Sucesión_Fibonacci.ppsx
2023-T3-Sucesión_Fibonacci.ppsx
Ricardo Lopez-Ruiz13 visualizações
2023-T2-Leonardo_Torres_Quevedo.ppsx por Ricardo Lopez-Ruiz
2023-T2-Leonardo_Torres_Quevedo.ppsx2023-T2-Leonardo_Torres_Quevedo.ppsx
2023-T2-Leonardo_Torres_Quevedo.ppsx
Ricardo Lopez-Ruiz26 visualizações
2023-T1-Intelig_Artificial_Robotica.pdf por Ricardo Lopez-Ruiz
2023-T1-Intelig_Artificial_Robotica.pdf2023-T1-Intelig_Artificial_Robotica.pdf
2023-T1-Intelig_Artificial_Robotica.pdf
Ricardo Lopez-Ruiz17 visualizações
2022-TFM1-Perceptrón en Java.pdf por Ricardo Lopez-Ruiz
2022-TFM1-Perceptrón en Java.pdf2022-TFM1-Perceptrón en Java.pdf
2022-TFM1-Perceptrón en Java.pdf
Ricardo Lopez-Ruiz67 visualizações

Último

Bienes raices Santiago de Chile por
Bienes raices Santiago de ChileBienes raices Santiago de Chile
Bienes raices Santiago de ChileAlejandra Diaz
6 visualizações6 slides
IM - Operatividad de las Variables.pptx por
IM - Operatividad de las Variables.pptxIM - Operatividad de las Variables.pptx
IM - Operatividad de las Variables.pptxmilennirv2806
5 visualizações20 slides
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdf por
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdfREPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdf
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdfIrapuatoCmovamos
215 visualizações1 slide
Tranferenciaa de conocimiento.pptx por
Tranferenciaa de conocimiento.pptxTranferenciaa de conocimiento.pptx
Tranferenciaa de conocimiento.pptxJosDanielGirnu
6 visualizações8 slides
Tranferenciaa de conocimiento.pptx por
Tranferenciaa de conocimiento.pptxTranferenciaa de conocimiento.pptx
Tranferenciaa de conocimiento.pptxfanorimedinaipuana
10 visualizações8 slides
El uso de las tic en la vida cotidiana.pptx por
El uso de las tic en la vida cotidiana.pptxEl uso de las tic en la vida cotidiana.pptx
El uso de las tic en la vida cotidiana.pptx231471214
6 visualizações5 slides

Último(14)

Bienes raices Santiago de Chile por Alejandra Diaz
Bienes raices Santiago de ChileBienes raices Santiago de Chile
Bienes raices Santiago de Chile
Alejandra Diaz6 visualizações
IM - Operatividad de las Variables.pptx por milennirv2806
IM - Operatividad de las Variables.pptxIM - Operatividad de las Variables.pptx
IM - Operatividad de las Variables.pptx
milennirv28065 visualizações
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdf por IrapuatoCmovamos
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdfREPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdf
REPORTE PERIÓDICO DE PERSONAS DETENIDAS.pdf
IrapuatoCmovamos215 visualizações
Tranferenciaa de conocimiento.pptx por JosDanielGirnu
Tranferenciaa de conocimiento.pptxTranferenciaa de conocimiento.pptx
Tranferenciaa de conocimiento.pptx
JosDanielGirnu6 visualizações
Tranferenciaa de conocimiento.pptx por fanorimedinaipuana
Tranferenciaa de conocimiento.pptxTranferenciaa de conocimiento.pptx
Tranferenciaa de conocimiento.pptx
fanorimedinaipuana10 visualizações
El uso de las tic en la vida cotidiana.pptx por 231471214
El uso de las tic en la vida cotidiana.pptxEl uso de las tic en la vida cotidiana.pptx
El uso de las tic en la vida cotidiana.pptx
2314712146 visualizações
INDICE DE COMPETITIVIDAD URBANA.pdf por IrapuatoCmovamos
INDICE DE COMPETITIVIDAD URBANA.pdfINDICE DE COMPETITIVIDAD URBANA.pdf
INDICE DE COMPETITIVIDAD URBANA.pdf
IrapuatoCmovamos7 visualizações
Tasa de Deserción por MaryAlejandraDiaz
Tasa de DeserciónTasa de Deserción
Tasa de Deserción
MaryAlejandraDiaz10 visualizações
Presentación paso 4 colaborativo por ivonnemaritzacruzrey
Presentación paso 4 colaborativoPresentación paso 4 colaborativo
Presentación paso 4 colaborativo
ivonnemaritzacruzrey7 visualizações
HD-NOVIEMBRE-2023.pdf por IrapuatoCmovamos
HD-NOVIEMBRE-2023.pdfHD-NOVIEMBRE-2023.pdf
HD-NOVIEMBRE-2023.pdf
IrapuatoCmovamos165 visualizações
Tarea 4 Realizar transferencia del conocimiento.pptx por ValeriaMartelomoreno
Tarea 4 Realizar transferencia del conocimiento.pptxTarea 4 Realizar transferencia del conocimiento.pptx
Tarea 4 Realizar transferencia del conocimiento.pptx
ValeriaMartelomoreno18 visualizações
Encuesta de satisfacción comunicaciones 2023. por Universidad del Chocò
Encuesta de satisfacción  comunicaciones 2023.Encuesta de satisfacción  comunicaciones 2023.
Encuesta de satisfacción comunicaciones 2023.
Universidad del Chocò5 visualizações
Epistemologia de la matematicas cuadro sinoptico.pptx por historiamatematicas0
Epistemologia de la matematicas cuadro sinoptico.pptxEpistemologia de la matematicas cuadro sinoptico.pptx
Epistemologia de la matematicas cuadro sinoptico.pptx
historiamatematicas05 visualizações
Discurso descriptivo por AnthonyAguilera11
Discurso descriptivoDiscurso descriptivo
Discurso descriptivo
AnthonyAguilera1147 visualizações

2023-TFG4_NLP_Transformers

  • 1. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Modelos de redes neuronales para identificar entidades en documentos David Redondo Laencina Universidad de Zaragoza 13 de septiembre de 2023 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 2. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Motivación del trabajo David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 3. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Índice 1 Fundamentos teóricos Aprendizaje automático Aprendizaje supervisado Aprendizaje no supervisado Redes neuronales Modelos de lenguaje en NLP 2 Identificación de entidades en documentos Definición del problema Enfoques tradicionales Modelos de redes neuronales Redes neuronales convolucionales Transformers David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 4. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Índice 3 DocLayNet y LayoutLM: Análisis y explicación LayoutLMv2 DocLayNet 4 Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 5. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje automático Es el área de la inteligencia artificial que tiene como objetivo que las máquinas aprendan. Diferenciamos dos ramas: Aprendizaje supervisado. Aprendizaje no supervisado. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 6. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje supervisado Los algoritmos son entrenados con datos etiquetados. Destacamos: Regresión lineal y gradiente descendente. Regresión logística. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 7. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Aprendizaje no supervisado Los algoritmos son entrenados con datos sin etiquetar. Destacamos dos algoritmos: Algoritmo K-means. Anomaly detection algorithm. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 8. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Redes neuronales La unidad básica es la neurona, esta se distribuye en layers que pueden ser: Input layers Hidden layers Output layers En cada neurona hay una función de activación que procesa la información. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 9. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Redes neuronales Tipos de redes neuronales: Feedforward Neural Networks (FNN): La información fluye de la capa de entrada a la de salida en una única dirección. Recurrent Neural Networks (RNN): Cada neurona puede recordar el estado de la información en la neurona anterior. Convolutional Neural Networks (CNN): Distintas neuronas procesan la misma información. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 10. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Aprendizaje automático Redes neuronales Modelos de lenguaje en NLP Modelos de lenguaje en NLP Se divide en tres grandes ramas: Comprensión del lenguaje. Generación del lenguaje. Interacción humano máquina. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 11. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Definición del problema El objetivo de este problema es reconocer las distintas entidades de un documento para así poder estructurarlo y obtener la información necesaria. Las entidades se eligen en base a dos criterios: Criterios semánticos y gramaticales. Criterios estructurales y de localización. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 12. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Enfoques tradicionales Métodos lingüísticos. Métodos basados en diccionarios y palabras clave. Modelos ocultos de Markov. Campo aleatorio condicional. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 13. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Redes neuronales convolucionales David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 14. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Transformers Es una arquitectura de red neuronal propuesta en 2017, en la que se basan: BERT GPT LayoutLM Los transformers se basan en una estructura de atención, que es un mecanismo que asigna un peso a cada elemento de la secuencia. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 15. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Definición del problema Enfoques tradicionales Modelos de redes neuronales Transformers David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 16. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 LayoutLM es una familia de modelos multimodales orientados al análisis de texto, imagen y layout. Es capaz de resolver las siguientes tareas: Question answering Text classification Token classification David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 17. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Texto: Se usa WordPiece añadiendo los tokens: [CLS], [SEP], [PAD]. ti = TokEmb(wi )+PosEmb1D(i)+SegEmb(si ) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 18. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Imagen: Primero se redimensiona la imagen, después se pasa por el encoder, se redimensiona el output y se hace una proyección lineal. vi = Proj(VisTokEmb(I)i )+PosEmb1D(i)+SegEmb(si ) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 19. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 1 Input embedding: Codifica el texto, la imagen y el layout de formas diferentes: Layout: Primero se representan las bbox bbox = (xmin,xmax ,ymin,ymax ,width,height) y después se codifican las coordenadas en dos layers diferentes: li = Concat(PosEmb2Dx (xmin,xmax ,width), PosEmb2Dy (ymin,ymax ,height)) David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 20. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 2 Encoder: Primero concatena las diferentes vi y ti obteniendo X = {v0,...,vWH−1,t0,...,tL−1} a continuación le suma la codificación de las bbox obteniendo xi = Xi +li . El resto del proceso es igual al explicado anteriormente con la diferencia de que añadimos la información sobre la posición relativa explícitamente. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 21. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet LayoutLMv2 Model FUNSD CORD SROIE Kleister-NDA LayoutLMBASE 0.7866 0.9472 0.9438 0.8270 LayoutLMLARGE 0.7895 0.9493 0.9524 0.8340 LayoutLMv2BASE 0.8276 0.9495 0.9625 0.8330 LayoutLMv2LARGE 0.8420 0.9621 0.9781 0.8520 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 22. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Train: 69375 imágenes con 941123 anotaciones. Validation: 6489 imágenes con 99816 anotaciones. Test: 4999 imágenes con 66531 anotaciones. Compuesto por: informes financieros (32%), manuales (21%), artículos científicos (17%), leyes y regulaciones (16%), patentes (8%), y licitaciones del gobierno (6%). David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 23. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 24. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Preprocesado Ajuste de las bbox. Unificación de formula y footnote en text. Asignación de categorías a las celdas. Eliminación de imágenes inservibles. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 25. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones LayoutLMv2 DocLayNet DocLayNet Train Validation Test Categorías Num. % Num. % Num. % Leyes y regulaciones 10639 15.45 1143 17.25 774 15.58 Patentes 5526 8.02 483 7.48 442 8.89 Artículos científicos 12225 17.75 944 14.62 941 18.94 Informes financieros 22413 32.54 1731 26.80 1739 35.00 Manuales 14332 20.80 1853 28.69 800 16.10 Licitaciones del gobierno 3746 5.44 333 5.16 273 5.49 Total 68881 6458 4969 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 26. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Fine-tuning 1 Tokenización Nuestra función recibe como inputs la imagen (formato PIL), texto palabra a palabra, sus respectivas categorías y las distintas bbox [x1,y1,x2,y2]. Devuelve una lista con un id para cada palabra, una lista que identifica el tipo de token, la attention mask y la representación de las bbox, categorías e imagen. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 27. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Fine-tuning 2 Argumentos del entrenamiento Número de epochs. Tamaño del lote. Optimizador. Learning rate. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 28. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy: TP +TN TP +FP +TN +FN Precision: TP TP +FP Recall: TP TP +FN F1 Score: F1 = 2 precision∗recall precision+recall David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 29. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy Precision Recall F1 LayoutLMv2 0.7934 0.0542 0.0394 0.0456 Epoch 1 0.9871 0.8939 0.9481 0.9202 Epoch 2 0.9902 0.9476 0.9557 0.9516 Epoch 3 0.9933 0.9553 0.9679 0.9626 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 30. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 31. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Evaluación del modelo y limitaciones Accuracy Precision Recall F1 Leyes y regulaciones 0.8444 0.5339 0.4748 0.5026 Patentes 0.7958 0.5643 0.4864 0.5225 Informes financieros 0.7264 0.4560 0.3512 0.3968 Manuales 0.8311 0.4608 0.3391 0.3907 Licitaciones del gobierno 0.8017 0.5831 0.4976 0.5370 David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 32. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros Desafíos futuros Continuación del entrenamiento con otro tipo de documentos. Investigar sobre como optimizar los tiempos de entrenamiento. Entrenar con los mismos documentos en otra orientación. Dividir el entrenamiento para exigir menos memoria y almacenamiento. David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos
  • 33. Fundamentos teóricos Identificación de entidades en documentos DocLayNet y LayoutLM: Análisis y explicación Entrenamiento y conclusiones Fine-tuning Evaluación del modelo y limitaciones Desafíos futuros ¡Gracias! ¡Gracias por su atención! David Redondo Laencina Modelos de redes neuronales para identificar entidades en documentos