Presentation given at I Workshop Per-Fide, UMinho, about GuardaLivros, an application being developed to detect and resolve problems in simple-text documents to be automatically processed (e.g., bi-text alignment) [PT].
O documento fornece um guia sobre os formatos de vídeo mais populares na Internet, explicando suas extensões comuns e os programas necessários para reproduzi-los. Os formatos discutidos incluem WMV, ASF, RM, MOV, MPEG, AVI e DivX. Além disso, fornece detalhes adicionais sobre AVI, MPEG, OGM, WMV, RM e outros formatos.
Este documento explica conceitos básicos sobre vídeo digital, incluindo formatos, compressão e codecs. Detalha os principais standards de vídeo analógicos e digitais, a necessidade de compressão para armazenamento e transmissão, e codecs como MPEG-1, MPEG-2, MPEG-4 e DivX. Também aborda software de edição, câmaras digitais e como fazer um filme com uma câmara digital.
O documento discute o conceito de vídeo digital, formatos, codificação e ferramentas. Apresenta os principais formatos como MPEG, AVI, WMV e MOV. Aborda codificação, conversão e equipamentos como câmeras profissionais, domésticas e smartphones. Também menciona editores online e softwares para edição.
Os formatos de vídeo mais comuns incluem AVI, WMV, FLV e MPEG. AVI é um contêiner que pode usar diferentes codecs, enquanto WMV é usado pela Microsoft. FLV é usado principalmente para a web, como no YouTube. MPEG é um grupo de especialistas em vídeo que desenvolveu diferentes padrões, como MPEG-1, 2, 4 e outros.
O documento explica os principais formatos de arquivos de vídeo, como FLV, AVI, WMV, MOV, RMVB, MPEG e MKV. Cada formato possui especificidades como o tipo de codec utilizado e em quais dispositivos são compatíveis, afetando fatores como tamanho e qualidade do arquivo.
O documento descreve o que é multimídia, referindo-se a tecnologias digitais para criar, manipular, armazenar e pesquisar conteúdos visuais, auditivos e de texto. Também discute softwares para conversão de áudio e vídeo como o aTube Catcher, e conceitos como plugins e codecs que compactam arquivos de mídia para reprodução.
O documento apresenta uma avaliação heurística do programa AVI2DVD, identificando problemas como falta de clareza sobre o status das operações, terminologia técnica de difícil compreensão para usuários leigos e interface desorganizada e poluída com muitas opções.
O documento discute os formatos de arquivos de áudio e vídeo mais comuns, incluindo suas principais características e usos. Os formatos de áudio WAV, MP3 e OGG são abordados, com foco na qualidade e compressão de cada um. Vários formatos de vídeo também são explicados, como AVI, WMV, FLV, MOV e MPEG.
O documento fornece um guia sobre os formatos de vídeo mais populares na Internet, explicando suas extensões comuns e os programas necessários para reproduzi-los. Os formatos discutidos incluem WMV, ASF, RM, MOV, MPEG, AVI e DivX. Além disso, fornece detalhes adicionais sobre AVI, MPEG, OGM, WMV, RM e outros formatos.
Este documento explica conceitos básicos sobre vídeo digital, incluindo formatos, compressão e codecs. Detalha os principais standards de vídeo analógicos e digitais, a necessidade de compressão para armazenamento e transmissão, e codecs como MPEG-1, MPEG-2, MPEG-4 e DivX. Também aborda software de edição, câmaras digitais e como fazer um filme com uma câmara digital.
O documento discute o conceito de vídeo digital, formatos, codificação e ferramentas. Apresenta os principais formatos como MPEG, AVI, WMV e MOV. Aborda codificação, conversão e equipamentos como câmeras profissionais, domésticas e smartphones. Também menciona editores online e softwares para edição.
Os formatos de vídeo mais comuns incluem AVI, WMV, FLV e MPEG. AVI é um contêiner que pode usar diferentes codecs, enquanto WMV é usado pela Microsoft. FLV é usado principalmente para a web, como no YouTube. MPEG é um grupo de especialistas em vídeo que desenvolveu diferentes padrões, como MPEG-1, 2, 4 e outros.
O documento explica os principais formatos de arquivos de vídeo, como FLV, AVI, WMV, MOV, RMVB, MPEG e MKV. Cada formato possui especificidades como o tipo de codec utilizado e em quais dispositivos são compatíveis, afetando fatores como tamanho e qualidade do arquivo.
O documento descreve o que é multimídia, referindo-se a tecnologias digitais para criar, manipular, armazenar e pesquisar conteúdos visuais, auditivos e de texto. Também discute softwares para conversão de áudio e vídeo como o aTube Catcher, e conceitos como plugins e codecs que compactam arquivos de mídia para reprodução.
O documento apresenta uma avaliação heurística do programa AVI2DVD, identificando problemas como falta de clareza sobre o status das operações, terminologia técnica de difícil compreensão para usuários leigos e interface desorganizada e poluída com muitas opções.
O documento discute os formatos de arquivos de áudio e vídeo mais comuns, incluindo suas principais características e usos. Os formatos de áudio WAV, MP3 e OGG são abordados, com foco na qualidade e compressão de cada um. Vários formatos de vídeo também são explicados, como AVI, WMV, FLV, MOV e MPEG.
O documento discute diferentes formatos de arquivos de vídeo, incluindo WMV, AVI, FLV, MOV, RMVB, MPEG, e MKV. Cada formato foi desenvolvido para propósitos específicos e utiliza codecs particulares para compressão e descompressão do vídeo.
- Codificação da voz converte sinais analógicos em digitais utilizando principalmente PCM e eliminando frequências fora do intervalo da voz humana entre 300-3400 Hz.
- Codecs compreendem algoritmos de compressão para reduzir a taxa de bits da voz sem comprometer a qualidade, como G.711, G.729 e G.723.1.
- MOS mede a qualidade subjetiva da voz após compressão, variando de 1 a 5, sendo acima de 4 aceitável e abaixo de 3,5 inadequado.
Este documento fornece informações sobre legendagem de vídeos, incluindo os limites e padrões para legendas, a segmentação de texto e síntese, sincronia de legendas com áudio e ferramentas para edição e publicação de vídeos legendados.
Desmistificando os Codecs - Guilherme Albuk - FilmeConGui Albuk
O documento discute codecs de vídeo, abordando conceitos como compressão, containers e tipos de quadros. Explica que codecs são algoritmos de compressão enquanto containers organizam a informação em formatos de arquivo. Detalha como codecs populares como H.264, H.265 e Apple ProRes comprimem vídeo de forma eficiente em diferentes taxas de bits.
O documento compara os codecs G.723.1 e G.729, atualmente utilizado e pretendido para futura migração no Terra Voip. G.723.1 codifica em 30ms com MOS de 3.9 a 5.3kbps, enquanto G.729 codifica em 10ms, oferecendo menor delay e qualidade superior com extensões como G.729b para remover ruídos. O documento recomenda a migração para G.729 devido à sua flexibilidade e melhor qualidade de voz.
Aula sobre Codecs de Vídeo produzida para a disciplina de Animação Digital do curso de Bacharel em Mídias Digitais da Universidade Metodista de São Paulo.
Um codec é um software usado para compactar ou descompactar arquivos de mídia digital como música e vídeo. Programas usam codecs para reproduzir e criar arquivos de mídia digital compactados e para editar e exportar arquivos de áudio após edição. Se o programa ou sistema operacional não tiverem o codec usado para compactar um arquivo, ele não poderá ser reproduzido.
Apresentando conceitos de digitalização multimídiaArlindo Pereira
Digitalização converte dados analógicos em formato digital de forma irreversível. Uma imagem é composta por pixels com resolução e profundidade de cor, enquanto áudio é amostralhado com taxa, resolução e canais. Vídeo combina imagem e áudio com quadros por segundo e taxa de bits total. Compressão é essencial devido ao grande tamanho de arquivos de vídeo sem ela.
O documento discute vários tópicos relacionados a sistemas operacionais, incluindo: 1) o que é multimídia e softwares para conversão de áudio e vídeo; 2) utilitários como antivírus, compactadores e limpadores de disco; 3) programas para gravação de CDs/DVDs e criação de arquivos ISO.
Elasticsearch is an open source, distributed, real-time search and analytics engine. It allows users to store and search large volumes of data in near real-time. The presentation provided an overview of Elasticsearch, including its data model of documents, indexes, and types; how to perform CRUD operations; searching functionality; and common tools that integrate with Elasticsearch like Logstash and Kibana. Advanced features like aggregations, percolations, and scaling were also briefly discussed.
The document describes contributions to building a corpora-flow system, including tools for book cleaning, detecting duplicates and candidate pairs, book synchronization, alignment evaluation, and a corpora-flow system. It outlines challenges in corpora building like format issues and provides examples of book processing problems with solutions. Key steps in the tools involve generating a sections ontology, measuring similarity to find duplicates and pairs, matching section delimiters for synchronization, and comparing alignments.
Slides from a ligthning talk oabout the Perl module Text::Perfide::BookPairs, presented on the I International Per-fide Workshops, at University of MInho, 2011.
Cleaning plain text books with Text::Perfide::BookCleanerandrefsantos
Slides from a presentation about Text::Perfide::BookCleaner given at PtPW2011. T::P::BC is a Perl module created to clean books in plain text format, making them suitable for further automatic text processing activities.
Text::Perfide::BookCleaner, a Perl module to clean and normalize plain text b...andrefsantos
This document presents Text::Perfide::BookCleaner, a Perl module for preprocessing plain text books to clean them and prepare them for tasks like text alignment. The module handles various cleaning tasks through a multi-step pipeline, including removing page numbers, headers, footnotes, and normalizing formatting. It uses declarative objects like ontologies and configuration files to guide the cleaning process. An evaluation was performed comparing alignments with and without the module, and results are presented.
A survey on parallel corpora alignment andrefsantos
This document provides a survey of methods for aligning parallel text corpora. It discusses the historical background of using parallel texts in language processing from the 1950s onward. Key early methods are described, including ones based on sentence length, lexical mapping between words, and identifying cognates. The document also evaluates major efforts to create benchmark datasets and evaluate system performance against gold standard alignments. It surveys the evolution of various alignment techniques and lists some relevant tools and projects in the field.
Bigorna - a toolkit for orthography migration challengesandrefsantos
Paper written by José João Almeida, André Santos and Alberto Simões and submitted, accepted and presented at LREC2010 - http://www.lrec-conf.org/lrec2010/
Slides from a ligthning talk on "Bigorna – a toolkit for orthography migration challenges", at 3T (Time Trial Talks), an event organized by CeSIUM (http://cesium.di.uminho.pt).
This document discusses Mojolicious::Lite, a micro web application framework for Perl. It begins by introducing Mojolicious::Lite and positioning it as a framework for small, single-file web apps as opposed to production or complex applications. It then provides an example of a simple Mojolicious::Lite app and explains key aspects like routes, templates, and starting the app. Finally, it briefly mentions some similar Perl web frameworks and provides additional resources.
O documento discute diferentes formatos de arquivos de vídeo, incluindo WMV, AVI, FLV, MOV, RMVB, MPEG, e MKV. Cada formato foi desenvolvido para propósitos específicos e utiliza codecs particulares para compressão e descompressão do vídeo.
- Codificação da voz converte sinais analógicos em digitais utilizando principalmente PCM e eliminando frequências fora do intervalo da voz humana entre 300-3400 Hz.
- Codecs compreendem algoritmos de compressão para reduzir a taxa de bits da voz sem comprometer a qualidade, como G.711, G.729 e G.723.1.
- MOS mede a qualidade subjetiva da voz após compressão, variando de 1 a 5, sendo acima de 4 aceitável e abaixo de 3,5 inadequado.
Este documento fornece informações sobre legendagem de vídeos, incluindo os limites e padrões para legendas, a segmentação de texto e síntese, sincronia de legendas com áudio e ferramentas para edição e publicação de vídeos legendados.
Desmistificando os Codecs - Guilherme Albuk - FilmeConGui Albuk
O documento discute codecs de vídeo, abordando conceitos como compressão, containers e tipos de quadros. Explica que codecs são algoritmos de compressão enquanto containers organizam a informação em formatos de arquivo. Detalha como codecs populares como H.264, H.265 e Apple ProRes comprimem vídeo de forma eficiente em diferentes taxas de bits.
O documento compara os codecs G.723.1 e G.729, atualmente utilizado e pretendido para futura migração no Terra Voip. G.723.1 codifica em 30ms com MOS de 3.9 a 5.3kbps, enquanto G.729 codifica em 10ms, oferecendo menor delay e qualidade superior com extensões como G.729b para remover ruídos. O documento recomenda a migração para G.729 devido à sua flexibilidade e melhor qualidade de voz.
Aula sobre Codecs de Vídeo produzida para a disciplina de Animação Digital do curso de Bacharel em Mídias Digitais da Universidade Metodista de São Paulo.
Um codec é um software usado para compactar ou descompactar arquivos de mídia digital como música e vídeo. Programas usam codecs para reproduzir e criar arquivos de mídia digital compactados e para editar e exportar arquivos de áudio após edição. Se o programa ou sistema operacional não tiverem o codec usado para compactar um arquivo, ele não poderá ser reproduzido.
Apresentando conceitos de digitalização multimídiaArlindo Pereira
Digitalização converte dados analógicos em formato digital de forma irreversível. Uma imagem é composta por pixels com resolução e profundidade de cor, enquanto áudio é amostralhado com taxa, resolução e canais. Vídeo combina imagem e áudio com quadros por segundo e taxa de bits total. Compressão é essencial devido ao grande tamanho de arquivos de vídeo sem ela.
O documento discute vários tópicos relacionados a sistemas operacionais, incluindo: 1) o que é multimídia e softwares para conversão de áudio e vídeo; 2) utilitários como antivírus, compactadores e limpadores de disco; 3) programas para gravação de CDs/DVDs e criação de arquivos ISO.
Elasticsearch is an open source, distributed, real-time search and analytics engine. It allows users to store and search large volumes of data in near real-time. The presentation provided an overview of Elasticsearch, including its data model of documents, indexes, and types; how to perform CRUD operations; searching functionality; and common tools that integrate with Elasticsearch like Logstash and Kibana. Advanced features like aggregations, percolations, and scaling were also briefly discussed.
The document describes contributions to building a corpora-flow system, including tools for book cleaning, detecting duplicates and candidate pairs, book synchronization, alignment evaluation, and a corpora-flow system. It outlines challenges in corpora building like format issues and provides examples of book processing problems with solutions. Key steps in the tools involve generating a sections ontology, measuring similarity to find duplicates and pairs, matching section delimiters for synchronization, and comparing alignments.
Slides from a ligthning talk oabout the Perl module Text::Perfide::BookPairs, presented on the I International Per-fide Workshops, at University of MInho, 2011.
Cleaning plain text books with Text::Perfide::BookCleanerandrefsantos
Slides from a presentation about Text::Perfide::BookCleaner given at PtPW2011. T::P::BC is a Perl module created to clean books in plain text format, making them suitable for further automatic text processing activities.
Text::Perfide::BookCleaner, a Perl module to clean and normalize plain text b...andrefsantos
This document presents Text::Perfide::BookCleaner, a Perl module for preprocessing plain text books to clean them and prepare them for tasks like text alignment. The module handles various cleaning tasks through a multi-step pipeline, including removing page numbers, headers, footnotes, and normalizing formatting. It uses declarative objects like ontologies and configuration files to guide the cleaning process. An evaluation was performed comparing alignments with and without the module, and results are presented.
A survey on parallel corpora alignment andrefsantos
This document provides a survey of methods for aligning parallel text corpora. It discusses the historical background of using parallel texts in language processing from the 1950s onward. Key early methods are described, including ones based on sentence length, lexical mapping between words, and identifying cognates. The document also evaluates major efforts to create benchmark datasets and evaluate system performance against gold standard alignments. It surveys the evolution of various alignment techniques and lists some relevant tools and projects in the field.
Bigorna - a toolkit for orthography migration challengesandrefsantos
Paper written by José João Almeida, André Santos and Alberto Simões and submitted, accepted and presented at LREC2010 - http://www.lrec-conf.org/lrec2010/
Slides from a ligthning talk on "Bigorna – a toolkit for orthography migration challenges", at 3T (Time Trial Talks), an event organized by CeSIUM (http://cesium.di.uminho.pt).
This document discusses Mojolicious::Lite, a micro web application framework for Perl. It begins by introducing Mojolicious::Lite and positioning it as a framework for small, single-file web apps as opposed to production or complex applications. It then provides an example of a simple Mojolicious::Lite app and explains key aspects like routes, templates, and starting the app. Finally, it briefly mentions some similar Perl web frameworks and provides additional resources.
Em um mundo cada vez mais digital, a segurança da informação tornou-se essencial para proteger dados pessoais e empresariais contra ameaças cibernéticas. Nesta apresentação, abordaremos os principais conceitos e práticas de segurança digital, incluindo o reconhecimento de ameaças comuns, como malware e phishing, e a implementação de medidas de proteção e mitigação para vazamento de senhas.
Este certificado confirma que Gabriel de Mattos Faustino concluiu com sucesso um curso de 42 horas de Gestão Estratégica de TI - ITIL na Escola Virtual entre 19 de fevereiro de 2014 a 20 de fevereiro de 2014.
PRODUÇÃO E CONSUMO DE ENERGIA DA PRÉ-HISTÓRIA À ERA CONTEMPORÂNEA E SUA EVOLU...Faga1939
Este artigo tem por objetivo apresentar como ocorreu a evolução do consumo e da produção de energia desde a pré-história até os tempos atuais, bem como propor o futuro da energia requerido para o mundo. Da pré-história até o século XVIII predominou o uso de fontes renováveis de energia como a madeira, o vento e a energia hidráulica. Do século XVIII até a era contemporânea, os combustíveis fósseis predominaram com o carvão e o petróleo, mas seu uso chegará ao fim provavelmente a partir do século XXI para evitar a mudança climática catastrófica global resultante de sua utilização ao emitir gases do efeito estufa responsáveis pelo aquecimento global. Com o fim da era dos combustíveis fósseis virá a era das fontes renováveis de energia quando prevalecerá a utilização da energia hidrelétrica, energia solar, energia eólica, energia das marés, energia das ondas, energia geotérmica, energia da biomassa e energia do hidrogênio. Não existem dúvidas de que as atividades humanas sobre a Terra provocam alterações no meio ambiente em que vivemos. Muitos destes impactos ambientais são provenientes da geração, manuseio e uso da energia com o uso de combustíveis fósseis. A principal razão para a existência desses impactos ambientais reside no fato de que o consumo mundial de energia primária proveniente de fontes não renováveis (petróleo, carvão, gás natural e nuclear) corresponde a aproximadamente 88% do total, cabendo apenas 12% às fontes renováveis. Independentemente das várias soluções que venham a ser adotadas para eliminar ou mitigar as causas do efeito estufa, a mais importante ação é, sem dúvidas, a adoção de medidas que contribuam para a eliminação ou redução do consumo de combustíveis fósseis na produção de energia, bem como para seu uso mais eficiente nos transportes, na indústria, na agropecuária e nas cidades (residências e comércio), haja vista que o uso e a produção de energia são responsáveis por 57% dos gases de estufa emitidos pela atividade humana. Neste sentido, é imprescindível a implantação de um sistema de energia sustentável no mundo. Em um sistema de energia sustentável, a matriz energética mundial só deveria contar com fontes de energia limpa e renováveis (hidroelétrica, solar, eólica, hidrogênio, geotérmica, das marés, das ondas e biomassa), não devendo contar, portanto, com o uso dos combustíveis fósseis (petróleo, carvão e gás natural).
As classes de modelagem podem ser comparadas a moldes ou
formas que definem as características e os comportamentos dos
objetos criados a partir delas. Vale traçar um paralelo com o projeto de
um automóvel. Os engenheiros definem as medidas, a quantidade de
portas, a potência do motor, a localização do estepe, dentre outras
descrições necessárias para a fabricação de um veículo
Guardioes Digitais em ação: Como criar senhas seguras!
Detecção e Correcção Parcial de Problemas na Conversão de Formatos
1. Detecc˜o e Correcc˜o Parcial de
¸a ¸a
Problemas na Convers˜o de
a
Formatos
Andr´ Santos, pg15973@alunos.uminho.pt
e
Jos´ Jo~o Almeida, jj@di.uminho.pt
e a
I Workshop Per-Fide
DI@UM
16 de Setembro de 2010
2. 1 Introdu¸˜o
ca
2 Arquitectura e design goals
Primeira abordagem
Arquitectura
Pagina¸˜o
ca
Sec¸˜es
co
Par´grafos
a
Notas de rodap´e
Palavras e caracteres
Relat´rio e Commit
o
3 Conclus˜es, wish list e trabalho futuro
o
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
3. Introdu¸˜o
ca
1 Introdu¸˜o
ca
2 Arquitectura e design goals
Primeira abordagem
Arquitectura
Pagina¸˜o
ca
Sec¸˜es
co
Par´grafos
a
Notas de rodap´e
Palavras e caracteres
Relat´rio e Commit
o
3 Conclus˜es, wish list e trabalho futuro
o
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
4. Introdu¸˜o
ca
Introduc˜o
¸a
An´lise e tratamento de documentos em
a
formato electr´nico de texto simples, tendo em vista
o
a sua normaliza¸˜o para posterior processamento
ca
(e.g., alinhamento).
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
5. Introdu¸˜o
ca
Introduc˜o
¸a
An´lise e tratamento de documentos em
a
formato electr´nico de texto simples, tendo em vista
o
a sua normaliza¸˜o para posterior processamento
ca
(e.g., alinhamento).
v´rios tipos de documentos: livros, artigos
a
cient´ıficos, ...
v´rias proveniˆncias
a e
frequentemente, passado desconhecido
por vezes, resultado de tradu¸oes
c˜
por vezes, completamente adulterados
em v´rias l´
a ınguas
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
6. Introdu¸˜o
ca
Introduc˜o
¸a
Para j´...
a
Centrar no dom´ dos livros
ınio
Idealmente, acabaremos por ter partes
significativas reutiliz´veis noutros dom´
a ınios
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
7. Introdu¸˜o
ca
Descric˜o do problema
¸a
anterior formata¸˜o (superior/inferior ` linha,
ca a
it´lico, ...)
a
pagina¸˜o (n´meros, cabe¸alhos, rodap´s, ...)
ca u c e
divis˜o em sec¸˜es
a co
par´grafos
a
notas de rodap´ e
codifica¸˜o do texto
ca
...
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
8. Introdu¸˜o
ca
Descric˜o do problema - Exemplo
¸a
(. . . )
gaiement. Sur le devant s<92>’ouvrait la porte
d<92>’entr´e, donnant acc`s dans la salle commune.
e e
Une l´g`re v´randa, qui en prot´-
e e e e
<96>- 86 <96>-
^Lgeait la partie ant´rieure contre l<92>’action
e
des rayons solaires, reposait sur de sveltes bambous.
Le tout ´tait peint d<92>’une fra^che
e ı
(. . . )
La Jangada, Jules Verne
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
9. Arquitectura e design goals
1 Introdu¸˜o
ca
2 Arquitectura e design goals
Primeira abordagem
Arquitectura
Pagina¸˜o
ca
Sec¸˜es
co
Par´grafos
a
Notas de rodap´e
Palavras e caracteres
Relat´rio e Commit
o
3 Conclus˜es, wish list e trabalho futuro
o
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
10. Arquitectura e design goals
1 Introdu¸˜o
ca
2 Arquitectura e design goals
Primeira abordagem
Arquitectura
Pagina¸˜o
ca
Sec¸˜es
co
Par´grafos
a
Notas de rodap´e
Palavras e caracteres
Relat´rio e Commit
o
3 Conclus˜es, wish list e trabalho futuro
o
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
11. Arquitectura e design goals Primeira abordagem
Primeira abordagem
RegExp + Find & Replace
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
12. Arquitectura e design goals Primeira abordagem
Primeira abordagem
RegExp + Find & Replace
Demasiado naive
Grande confus˜o
a
Necess´ria abordagem mais sistematizada
a
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
13. Arquitectura e design goals Arquitectura
Arquitectura
defini¸˜o de DSL e ontologias
ca
ajudam na organiza¸˜o
ca
permitem abstrair do c´digo e discutir detalhes
o
a um n´ mais elevado (at´ com pessoas de
ıvel e
outras ´reas)
a
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
14. Arquitectura e design goals Arquitectura
Arquitectura
Montagem de uma pipeline; em cada passo lida-se
com um conjunto espec´ ıfico de problemas.
1 Pagina¸˜o
ca
2 Sec¸˜es
co
3 Par´grafos
a
4 Notas de rodap´e
5 Palavras e caracteres
6 ...
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
15. Arquitectura e design goals Arquitectura
Arquitectura
Montagem de uma pipeline; em cada passo lida-se
com um conjunto espec´ ıfico de problemas.
1 Pagina¸˜o
ca
2 Sec¸˜es
co
3 Par´grafos
a
4 Notas de rodap´e
5 Palavras e caracteres
6 ...
7 Commit
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
16. Arquitectura e design goals Pagina¸˜o
ca
Paginac˜o
¸a
Objectivo
Identificar e remover do texto elementos referentes
` pagina¸˜o do livro:
a ca
n´meros de p´gina
u a
cabe¸alhos
c
rodap´se
quebras de p´gina
a
Geralmente estes elementos s˜o factores que
a
destabilizam o processo de alinhamento.
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
17. Arquitectura e design goals Pagina¸˜o
ca
Paginac˜o - Exemplo
¸a
est vrai qu’il fallait etre assez chanceux pour
^
rencontrer le nabab, et assez audacieux pour
s’emparer de sa personne.
Page 3
^LLa maison a vapeur
` Jules Verne
Le faquir, - evidemment le seul entre tous
´
que ne surexcit^t pas l’espoir de gagner la
a
prime, - filait au milieu des groupes, s’arr^tant
e
La Maison ` Vapeur, Jules Verne
a
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
18. Arquitectura e design goals Pagina¸˜o
ca
Paginac˜o - Algoritmo
¸a
1 identificar as quebras de p´gina (e.g., ^L)
a
2 nas imedia¸˜es: candidatos a cabe¸alhos e
co c
rodap´s
e
3 contam-se as ocorrˆncias de cada candidato
e
normalizado
4 s˜o considerados cabe¸alhos ou rodap´s
a c e
candidatos que ultrapassarem um determinado
valor de ocorrˆncias
e
5 substitui-se tudo por uma marca pr´pria
o
6 move-se a informa¸˜o relativa ao n´mero de
ca u
p´gina, cabe¸alhos e rodap´s para ficheiro `
a c e a
parte
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
19. Arquitectura e design goals Pagina¸˜o
ca
Paginac˜o - Exemplo
¸a
est vrai qu’il fallait etre assez chanceux pour
^
rencontrer le nabab, et assez audacieux pour
s’emparer de sa personne.
Page 3
^LLa maison a vapeur
` Jules Verne
Le faquir, - evidemment le seul entre tous
´
que ne surexcit^t pas l’espoir de gagner la
a
prime, - filait au milieu des groupes, s’arr^tant
e
La Maison ` Vapeur, Jules Verne
a
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
20. Arquitectura e design goals Pagina¸˜o
ca
Paginac˜o - Exemplo
¸a
est vrai qu’il fallait etre assez chanceux pour
^
rencontrer le nabab, et assez audacieux pour
s’emparer de sa personne. _pb2_
Le faquir, - evidemment le seul entre tous
´
que ne surexcit^t pas l’espoir de gagner la
a
prime, - filait au milieu des groupes, s’arr^tant
e
La Maison ` Vapeur, Jules Verne
a
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
21. Arquitectura e design goals Sec¸˜es
co
Secc˜es
¸o
Objectivo
Identificar e normalizar as divis˜es entre as v´rias
o a
sec¸oes do livro (in´
c˜ ıcio, fim, partes, cap´
ıtulos,
anexos, ...)
Para realizar esta tarefa foi criada uma ontologia de
tipos de obra e respectiva hierarquia de divis˜es, em
o
v´rias l´
a ınguas.
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
22. Arquitectura e design goals Sec¸˜es
co
Secc˜es - Ontologia
¸o
Exemplo
cap
PT cap´tulo, cap, cap. , capitulo
ı
FR Chapitre, chap, chap.
EN Chapter, chap, chap.
NT sec
A partir desta ontologia ´ automaticamente gerada
e
uma parte do c´digo.
o
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
23. Arquitectura e design goals Sec¸˜es
co
Secc˜es - Exemplo
¸o
PRIMEIRA PARTE
FANTINE
^LLIVRO PRIMEIRO
UM JUSTO
O abade Myriel
Em 1815, era bispo de Digne, o reverendo Carlos
Francisco Bemvindo Myriel, o qual contava setenta e
Os Miser´veis, Vitor Hugo
a
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
24. Arquitectura e design goals Sec¸˜es
co
Secc˜es - Algoritmo
¸o
1 Procura de potenciais in´
ıcios de sec¸˜o:
ca
linhas contendo palavras-chave (cap´ıtulo, Cap.,
chapter, Apˆndice, Table des Mati´res, ...)
e e
p´ginas ou linhas contendo apenas numera¸˜o
a ca
numera¸˜o romana
ca
...
2 Colocar uma marca imediatamente antes da
sec¸˜o encontrada.
ca
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
25. Arquitectura e design goals Sec¸˜es
co
Secc˜es - Exemplo
¸o
PRIMEIRA PARTE
FANTINE
^LLIVRO PRIMEIRO
UM JUSTO
O abade Myriel
Em 1815, era bispo de Digne, o reverendo Carlos
Francisco Bemvindo Myriel, o qual contava setenta e
Os Miser´veis, Vitor Hugo
a
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
26. Arquitectura e design goals Sec¸˜es
co
Secc˜es - Exemplo
¸o
_sec+O:PARTE=PRIMEIRA_
FANTINE
_sec+O:LIVRO=PRIMEIRO_
UM JUSTO
O abade Myriel
Em 1815, era bispo de Digne, o reverendo Carlos
Francisco Bemvindo Myriel, o qual contava setenta e
Os Miser´veis, Vitor Hugo
a
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
27. Arquitectura e design goals Sec¸˜es
co
Secc˜es
¸o
A identifica¸˜o das v´rias partes constituintes de um
ca a
documento:
permite posteriormente comparar as duas
vers˜es e remover partes que estejam presentes
o
apenas numa delas (apˆndices, pref´cios a
e a
edi¸oes espec´
c˜ ıficas, etc)
permitir´ fazer um alinhamento estrutural
a
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
28. Arquitectura e design goals Par´grafos
a
Par´grafos
a
Objectivo
Resolver quest˜es relacionadas com a identifica¸˜o
o ca
de par´grafos, discurso directo, etc.
a
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
29. Arquitectura e design goals Par´grafos
a
Par´grafos - Exemplo
a
L’h^tesse prit la d´fense de son cur´:
o e e
- D’ailleurs, il en plierait quatre comme vous sur
son genou. Il a, l’ann´e derni`re, aid´ nos gens a
e e e `
rentrer la paille; il en portait jusqu’` six bottes
a
a la fois, tant il est fort!
`
- Bravo! dit le pharmacien. Envoyez donc vos filles
en confesse a des gaillards d’un temp´rament pareil!
` e
Moi, si j’´tais le gouvernement, je voudrais qu’on
e
saign^t les pr^tres une fois par mois.
a e
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
30. Arquitectura e design goals Par´grafos
a
Par´grafos - Algoritmo
a
identifica¸˜o de par´grafos baseia-se na an´lise
ca a a
da indenta¸˜o e das linhas em branco
ca
identifica¸˜o (e normaliza¸˜o) de discurso
ca ca
directo:
pontua¸˜o, par´grafo, travess˜o
ca a a
texto entre aspas
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
31. Arquitectura e design goals Notas de rodap´
e
Notas de rodap´
e
Objectivo
Identificar e remover do documento notas de rodap´
e
e respectivas chamadas.
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
32. Arquitectura e design goals Notas de rodap´
e
Notas de rodap´ - Exemplo
e
On fit un inventaire de son argent comptant, et on
le mena dans le ch^teau que fit construire le roi
a
Charles V, fils de Jean II, aupr`s de la rue
e
Saint-Antoine, a la porte des Tournelles[1].
`
[1] La Bastille, qui fut prise par le peuple de
Paris, le 14 juillet 1789, puis d´molie. B.
e
Quel etait en chemin l’´tonnement de l’Ing´nu!
´ e e
je vous le laisse a penser. Il crut d’abord
`
que c’´tait un r^ve.
e e
Oeuvres de Voltaire, Voltaire
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
33. Arquitectura e design goals Notas de rodap´
e
Notas de rodap´ - Algoritmo
e
1 Identificar chamadas para notas de rodap´ no
e
meio de frases ([1], <<2>>, ^3, ...)
2 Substituir por uma marca pr´pria
o
3 Identificar notas de rodap´ (geralmente
e
encontram-se no fim de p´ginas ou no fim do
a
documento).
Outras pistas: N. d(o|a|os|as) T., ...
4 Inserir uma marca pr´pria e remover a nota
o
para um ficheiro ` parte
a
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
34. Arquitectura e design goals Notas de rodap´
e
Notas de rodap´ - Exemplo
e
On fit un inventaire de son argent comptant, et on
le mena dans le ch^teau que fit construire le roi
a
Charles V, fils de Jean II, aupr`s de la rue
e
Saint-Antoine, a la porte des Tournelles[1].
`
[1] La Bastille, qui fut prise par le peuple de
Paris, le 14 juillet 1789, puis d´molie. B.
e
Quel etait en chemin l’´tonnement de l’Ing´nu!
´ e e
je vous le laisse a penser. Il crut d’abord
`
que c’´tait un r^ve.
e e
Oeuvres de Voltaire, Voltaire
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
35. Arquitectura e design goals Notas de rodap´
e
Notas de rodap´ - Exemplo
e
On fit un inventaire de son argent comptant, et on
le mena dans le ch^teau que fit construire le roi
a
Charles V, fils de Jean II, aupr`s de la rue
e
Saint-Antoine, a la porte des Tournelles_fnr29_.
`
_fne8_
Quel etait en chemin l’´tonnement de l’Ing´nu!
´ e e
je vous le laisse a penser. Il crut d’abord
`
que c’´tait un r^ve.
e e
Oeuvres de Voltaire, Voltaire
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
36. Arquitectura e design goals Palavras e caracteres
Palavras e caracteres
translinea¸oes de palavras
c˜
codifica¸˜o do texto
ca
...
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
37. Arquitectura e design goals Relat´rio e Commit
o
Relat´rio
o
Os passos anteriores produzem um relat´rio
o
Este relat´rio consiste num resumo do que est´
o a
a ser assumido e do que est´ a ser feito
a
O objectivo ´ permitir realizar um diagn´stico
e o
ao funcionamento do programa, permitindo
corrigir manualmente aquilo que estiver errado
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
38. Arquitectura e design goals Relat´rio e Commit
o
Relat´rio
o
livros/_FR_15.pdf.txt:
footers=[’( Page) = 241’]
headers=[
"(La maison x{e0} vapeur Jules Verne) = 241"]
ctrL=1;
pagnum_ctrL=241;
sectionsO=2;
sectionsN=30;
word_tr=58;
words=118036;
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
39. Arquitectura e design goals Relat´rio e Commit
o
Passo final: commit
Depois de verificado o relat´rio e afinados os
o
pormenores, ´ poss´ a cria¸˜o de uma c´pia
e ıvel ca o
do documento sem as marcas anteriormente
adicionadas.
Este ´ a ultima etapa antes da realiza¸˜o do
e ´ ca
alinhamento, e limpa tanto quanto poss´ o
ıvel
texto de tudo o que possa vir a afectar
negativamente o alinhador.
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
40. Conclus˜es, wish list e trabalho futuro
o
1 Introdu¸˜o
ca
2 Arquitectura e design goals
Primeira abordagem
Arquitectura
Pagina¸˜o
ca
Sec¸˜es
co
Par´grafos
a
Notas de rodap´e
Palavras e caracteres
Relat´rio e Commit
o
3 Conclus˜es, wish list e trabalho futuro
o
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
41. Conclus˜es, wish list e trabalho futuro
o
1 Introdu¸˜o
ca
2 Arquitectura e design goals
Primeira abordagem
Arquitectura
Pagina¸˜o
ca
Sec¸˜es
co
Par´grafos
a
Notas de rodap´e
Palavras e caracteres
Relat´rio e Commit
o
3 Conclus˜es, wish list e trabalho futuro
o
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
42. Conclus˜es, wish list e trabalho futuro
o
Conclus˜es, wish list e trabalho futuro
o
N˜o existe um standard para livros
a
(documentos?) em txt
Os documentos s˜o bastante heter´geneos
a o
(proveniˆncia, tipo e quantidade notas de
e
rodap´, formato da pagina¸˜o, ...)
e ca
Viva as express˜es regulares!
o
Tem-se verificado a regra dos 20/80
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
43. Conclus˜es, wish list e trabalho futuro
o
Conclus˜es, wish list e trabalho futuro
o
Ontologias e DSLs ajudam a estruturar ideias -
melhorar e completar
Conjunto de fun¸˜es de diagn´stico prop˜em
co o o
altera¸˜es que podem ser tornadas
co
permanentes
O relat´rio a gerar no fim dos diagn´sticos
o o
deve apresentar resumo inteligente da an´lise
a
´
Indice de “alinhabilidade”
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
44. Conclus˜es, wish list e trabalho futuro
o
Conclus˜es, wish list e trabalho futuro
o
Implementa¸˜o de algoritmos de aprendizagem
ca
Al´m dos livros: poesia, legisla¸˜o, artigos
e ca
cient´
ıficos, s´ıtios web, . . .
Andr´ Santos, Jos´ Jo˜o Almeida
e e a Det. e Correc¸˜o Parc. de Problemas na Conv. de Formatos
ca
45. Detecc˜o e Correcc˜o Parcial de
¸a ¸a
Problemas na Convers˜o de
a
Formatos
Andr´ Santos, pg15973@alunos.uminho.pt
e
Jos´ Jo~o Almeida, jj@di.uminho.pt
e a
I Workshop Per-Fide
DI@UM
16 de Setembro de 2010