SlideShare uma empresa Scribd logo
1 de 195
Codex Calistinus,
livro V
séc. XII
Gallæcia
Santiago de Compostela
27 a 30 de julho 2015
III Congresso Internacional de Linguística Histórica
Coordenação:
Charlotte M.C. Galves
Xavier G. Guinovart
Simpósio
Corpus linguísticos e gramática histórica
Maria Clara Paixão de Sousa
Universidade de São Paulo
Universidade de São Paulo
dictor:
histórico e perspectivas
e
dictor:
histórico e perspectivas
O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos
especialmente voltado ao trabalho filológico e à análise lingüística automática.
Combinando um editor de XML a um etiquetador morfossintático, o software
permite a geração automática de versões correspondentes a edições
diplomáticas, semi-diplomáticas e modernizadas, e de versões com anotação
morfossintática. Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e
grupos de pesquisa, em diferentes universidades de diversos países da lusofonia.
Resultado de oito anos de trabalho de linguistas, filólogos e cientistas da
computação, o desenvolvimento da ferramenta tem sido orientado pela
demanda dos usuários, como atestam Paixão de Sousa (2014), Paixão de Sousa
et ali (2010) e Paixão de Sousa et ali (2007), entre outros. Entretanto, a partir de
Veronesi (2014), uma proposta independente e inovadora está colocada para o
futuro desse desenvolvimento, em ambiente de rede, e em um formato que
subverte em grande parte o inicialmente concebido. Nesta comunicação,
apresentaremos uma avaliação dessa nova proposta de desenvolvimento,
comparando-a conceitualmente à ferramenta original, e pesando suas vantagens
Resumo
e
dictor:
histórico e perspectivas
O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos
especialmente voltado ao trabalho filológico e à análise lingüística automática.
Combinando um editor de XML a um etiquetador morfossintático, o software
permite a geração automática de versões correspondentes a edições diplomáticas,
semi-diplomáticas e modernizadas, e de versões com anotação morfossintática.
Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e grupos de
pesquisa, em diferentes universidades de diversos países da lusofonia. Resultado
de oito anos de trabalho de linguistas, filólogos e cientistas da computação, o
desenvolvimento da ferramenta tem sido orientado pela demanda dos usuários,
como atestam Paixão de Sousa (2014), Paixão de Sousa et ali (2010) e Paixão de
Sousa et ali (2007), entre outros. Entretanto, a partir de Veronesi (2014), uma
proposta independente e inovadora está colocada para o futuro desse
desenvolvimento, em ambiente de rede, e em um formato que subverte em
grande parte o inicialmente concebido. Nesta comunicação, apresentaremos uma
avaliação dessa nova proposta de desenvolvimento, comparando-a
conceitualmente à ferramenta original, e pesando suas vantagens e desvantagens
Resumo
e
O que é?
edictore
De onde veio?
O que é?
edictore
De onde veio?
Para onde vai?
O que é?
edictore
>
De onde veio?
Para onde vai?
O que é?
edictore
> Uma ferramenta para
edição filológica eletrônica
e análise linguística
automática
edictore
>
O que me importa?
A principal finalidade do eDictor
é oferecer uma interface amigável
aliada a um alto nível de controle
e flexibilidade na codificação de
textos eletrônicos com finalidade
de pesquisa linguística.
dictore
> É um software livre,
atualmente com duas
versões:
edictore
>
Versão 1.0 Beta 10
Versão Web – em teste
edictor
Versão 1.0 Beta 10
Versão Web – em teste
“O que é”
“Para onde vai”
edictore
> Versão 1.0 Beta 10
Versão Web – em teste
edictore
> Versão 1.0 Beta 10
Disponível para windows,
por download em
http://edictor.net
edictore
http://edictor.net
http://edictor.net
eDictor 1.0 Beta 10
eDictor 1.0 Beta 10 – Módulo Transcrição
eDictor 1.0 Beta 10 – Módulo "Transcrição"
Aba "Transcrição"
eDictor 1.0 Beta 10 – Módulo Edição
Aba "Edição"
eDictor 1.0 Beta 10 – Módulo Etiquetação
Aba "Morfologia"
CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo senhor
D. Fr. Antonio [...].Rio de Janeiro :
Na Segunda Oficina de Antonio
Isidoro da Fonseca, 1747.
CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo senhor
D. Fr. Antonio [...].Rio de Janeiro :
Na Segunda Oficina de Antonio
Isidoro da Fonseca, 1747.
O primeiro
livro impresso
no Brasil !
eDictor 1.0 Beta 10 – Módulo "Transcrição"
eDictor 1.0 Beta 10 – Módulo Edição
eDictor 1.0 Beta 10 – Módulo Edição
eDictor 1.0 Beta 10 – Configuração de preferências
eDictor 1.0 Beta 10 – Configuração de preferências
eDictor 1.0 Beta 10 – Configuração de preferências
eDictor 1.0 Beta 10 – Configuração de preferências
>
eDictor 1.0 Beta 10 – Exportação de Versões
Apresentação Diplomática
Apresentação Modernizada
Apresentação Modernizada
RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D
EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR
DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR
Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D
primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P
1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR
do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P
nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR
Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F
Diocese/NPR ./. 06_Realacao,2.7/ID
COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR
ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ
Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-
G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR
de/P Janeiro/NPR ./. 06_Realacao,2.8/ID
RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID
Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR
DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID
Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID
Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./.
06_Realacao,2.12/ID
Texto
anotado:
P.O.S.
Léxico das edições
Por trás disso…>
dictore
eDictor 1.0 Beta 10 – Configuração de preferências
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos
>
dictore
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos?
dictore
XML
t
e
n
d
e
d
a
r
k
u
p
a
n
g
u
a
g
e
e
>
> XML
Código-base do
eDictor 1.0 Beta 10
>
> Versão 1.0 Beta 10
Usada atualmente por seis
grupos de pesquisa no
Brasil e em Portugal
dictore
Corpus Anotado do Português
Histórico Tycho Brahe,
(Universidade Estadual de Campinas)
Grupo de Pesquisas
Humanidades Digitais
(Universidade de São Paulo)
P.S. Arquivo Digital de Escrita Quotidiana em
Portugal e Espanha na Época Moderna
(Universidade de Lisboa)
Corpus Eletrônico de
Documentos Históricos do Sertão,
CEDOHS (Universidade Federal de Feira de Santana)
Laboratório de História do Português Brasileiro
(Universidade Federal do Rio de Janeiro)
Memória Conquistense
(Universidade Estadual do Sudoeste da Bahia)
Corpus Anotado do Português
Histórico Tycho Brahe,
(Universidade Estadual de Campinas)
Grupo de Pesquisas
Humanidades Digitais
(Universidade de São Paulo)
P.S. Arquivo Digital de Escrita Quotidiana em
Portugal e Espanha na Época Moderna
(Universidade de Lisboa)
Corpus Eletrônico de
Documentos Históricos do Sertão,
CEDOHS (Universidade Federal de Feira de Santana)
Laboratório de História do Português Brasileiro
(Universidade Federal do Rio de Janeiro)
Memória Conquistense
(Universidade Estadual do Sudoeste da Bahia)
>
Versão 1.0 Beta 10
Exemplos de aplicação
dictore
>
Versão 1.0 Beta 10
1) Preparação de textos em
corpora anotados
(Corpus Tycho Brahe)
dictore
O Corpus Tycho Brahe
http://www.tycho.iel.unicamp.br/corpus/index.html
O Corpus Tycho Brahe
Exemplo de um texto em versão “original”
O Corpus Tycho Brahe
Exemplo de um texto em versão “modernizada”
[ prologue (author: P.M. Gandavo)]
[ title: AO MUITO ILUSTRE SENHOR DOM LIONIS PEREIRA, Epístola de Pero de Magalhães. ]
[g_008_s_43] Neste pequeno serviço (muito ilustre senhor ) que ofereço a Vossa Mercê das primícias de meu fraco
entendimento, poderá em alguma maneira conhecer os desejos que tenho de pagar com minha possibilidade
alguma parte do muito que se deve à ínclita fama de vosso heróico nome.
[g_008_s_44] E isto assim pelo merecimento do nobilíssimo sangue e clara progênie de onde traz sua origem,
como pelos troféus das grandes vitórias , e casos bem afortunados que lhe hão sucedido nessas partes do Oriente
em que Deus o quis favorecer com tão larga mão, que não cuido ser toda minha vida bastante para satisfazer à
menor parte de seus louvores .
[g_008_s_45] E como todas estas razões me ponham em tanta obrigação , e eu entenda que outra nenhuma coisa
deve ser mais aceita a pessoas de altos ânimos que a lição das escrituras , por cujos meios se alcançam os
segredos de todas as ciências , e os homens vêm a ilustrar seus nomes e perpetuar os na terra com fama imortal ,
determinei escolher a Vossa Mercê entre os mais senhores da terra , e dedicar lhe esta breve história .
[g_008_s_46] A qual espero que folgue de ver com atenção e receber me a benignamente debaixo de seu amparo :
assim por ser coisa nova , e eu a escrever como testemunha de vista : como por saber quão particular afeição
Vossa Mercê tem às coisas do engenho , e que por esta causa lhe não será menos aceito o exercício das escrituras
, que o das armas.
[g_008_s_47] Por onde com muita razão favorecido desta confiança possa seguramente sair a luz com esta
pequena empresa e divulgar a pela terra sem nenhum receio , tendo por defensor dela a Vossa Mercê Cuja muito
ilustre pessoa nosso Senhor guarde e acrescente sua vida e estado por longos e felizes anos .
[ end prologue ]
O Corpus Tycho Brahe
Exemplo de um texto em versão para ferramentas
O Corpus
Tycho Brahe
Exemplo de
um código-
base XML
> Versão 1.0 Beta 10
2) edição de manuscritos
(LaborHistórico e CEDOHS)
dictore
LaborHistorico
Laboratório de História do Português Brasileiro
Universidade Federal do Rio de Janeiro.
Coord. Célia Lopes
http://www.letras.ufrj.br/laborhistorico/
>
LaborHistorico
Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral
http://www.letras.ufrj.br/laborhistorico/
LaborHistorico
Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral
http://www.letras.ufrj.br/laborhistorico/
CEDOHS
Corpus Eletrônico de Documentos
Históricos do Sertão,
Coord. Zenaide Carneiro
http://www2.uefs.br/cedohs/
>
CEDOHS
Acervo - Cartas particulares do Recôncavo da Bahia (1818-1886))
http://www2.uefs.br/cedohs/
64
Documentos editados com o eDictor
em diferentes corpora
(2005-2013)
Número total de documentos:
1.398
Número de palavras:
dictore
65
Problemas da atual versão
66
Há muitos!
…vamos escolher dois:
( )
Problemas da atual versão
Problemas
67
1. Baixa interoperabilidade - O código XML do eDictor
não segue padrões internacionais estabelecidos, desde
meados dos anos 2000, para corpora eletrônicos -
notadamente, o nenhuma das diferentes versões do TEI
(Text Encoding Initiative). Com isso, os textos trabalhados
no editor não são facilmente compartilháveis com outros
corpora. Alguns grupos desenvolveram scripts para essa
adaptação. Mas o ideal seria que a própria ferramenta
seguisse um código-standard, ou, ao menos, oferecesse essa
transição.
2. Alta dependência do código à estrutura lógica do
texto. As categorias básicas da marcação XML do eDictor
seguem uma hierarquia: seção > parágrafo > sentença >
palavra, que “prende” a anotação à hierarquia do texto. Isso
vem impedindo que a anotação se expanda para a anotação
da atual versão
Problemas
68
1. Baixa interoperabilidade - O código XML do eDictor
não segue padrões internacionais estabelecidos, desde meados
dos anos 2000, para corpora eletrônicos - notadamente, o
nenhuma das diferentes versões do TEI (Text Encoding
Initiative). Com isso, os textos trabalhados no editor não são
facilmente compartilháveis com outros corpora. Alguns
grupos desenvolveram scripts para essa adaptação. Mas o
ideal seria que a própria ferramenta seguisse um código-
standard, ou, ao menos, oferecesse essa transição.
2. Alta dependência do código à estrutura lógica do
texto. As categorias básicas da marcação XML do eDictor
seguem uma hierarquia: seção > parágrafo > sentença >
palavra, que “prende” a anotação à hierarquia do texto. Isso
vem impedindo que a anotação se expanda para a anotação da
estrutura sintática dos textos (que era um importante objetivo
da atual versão
Problemas
70
Estes dois problemas principais estão estritamente
ligados à história do desenvolvimento do eDictor - a
trajetória entre seus objetivos iniciais e a ampliação
desses objetivos sempre no sentido de absorver
demandas de novos usuários.
da atual versão
> De onde veio?
Para onde vai?
O que é?
dictore
2004-2006
Primeiras Ideias
http://www.ime.usp.br/~tycho/participants/psousa/memorias/index.html
PAIXÃO DE SOUSA, M.C. Memórias do Texto: Aspectos tecnológicos
na construção de um corpus histórico do português. Post-doc Research
Project, 2004-2007. Unicamp/Fapesp.
>
PAIXÃO DE SOUSA, M. C.; TRIPPEL, T. Single source processing of
Historic corpora for diverse uses.
In: Proceedings of the Association for Literary and Linguistic
Computing (ALLC) Annual Conference, 2004.
PAIXÃO DE SOUSA, M. C. A Anotação da variação de grafia no Corpus
Histórico do Português Tycho Brahe: Frentes abertas para estudos do léxico. V
Encontro de Corpora: Lingüística de Corpus: a aplicabilidade nos estudos sobre
Léxico, São Carlos, 2005.
PAIXÃO DE SOUSA, M. C. Memórias do Texto. Mesa-redonda “Bibliotecas e bancos de
dados digitais de literatura”, II Simpósio Nacional de Literatura e Informática, Florianópolis,
2005.
Published in 2006 as:
PAIXÃO DE SOUSA, M. C. Memórias do Texto. Texto Digital (UERJ), v. 1, p. 10, 2006.
PAIXÃO DE SOUSA, M. C. Critical Hipereditions and the new challenges for text-critique.
Seminário Internacional Literaturas: Del texto al hipertexto. Madri, Universidade
Complutense, setembro de 2006.
Published in 2007 as:
PAIXÃO DE SOUSA, M. C. Digital Text: Conceptual and methodological frontiers. In: Dolores
Romero; Amelia Sanz. (Org.). Literatures in the Digital Era: Theory and Praxis. Cambridge: Cambridge
Scholarly, 2007.
http://www.ime.usp.br/~tycho/participants/psousa/memorias/critical_hyper/ece_Frameset.html
Electronic Editions and Tycho Brahe Text Preparation Manual
June 2006
TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards
at work: a corpus repository of Historical Portuguese texts. V International
Conference on Language Resources and Evaluation (LREC), 2006.
TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards
at work: a corpus repository of Historical Portuguese texts. V International
Conference on Language Resources and Evaluation (LREC), 2006.
I Oficina de Anotação – Projeto CorPorA.
Salvador, 19-21 de abril, 2006.
I Oficina de Anotação – Projeto CorPorA.
Salvador, 19-21 de abril, 2006.
2007
Lançamento
(Versão Beta 1.0 000)
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-dictor: uma
ferramenta integrada para a anotação de edição e classe de palavras.
VI Encontro de Lingüística de Corpus, São Paulo, 2007.
Interface do eDictor 1.0 beta 01
Interface do eDictor 1.0 beta 01
2008-2014
Crescimento para novos usos
(Versões Beta 1.0 002 a 010)
> Versão 1.0 Beta 10
3) edição de obras raras
digitalizadas
- Projeto Edições Filológicas na
Brasiliana Digital, 2009-2013
dictore
Bibioteca Brasiliana Guita e José Mindlin, doada
à Universidade de São Paulo em 2006:
40.000 obras dos séculos XVI a XXI…
im
ag
e
m
=
“digitalizado...”
RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E
REVERENDÍSSIMO SENHORD. F
RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em o
primeiro dia defle prtzente Anno de
1747,havendo fidoſeis Annos Biſpo do B,
eyno de Angola, donde por no-miacaõ de
Sua Mageftade, e Bulla Pontificia, foy
promovidopara ella Diocefi. COMPOSTA
PELO DOUTORLÜIZ ANTONIO
ROSADODA CUNHA£ fm de Fora, e
Provedor dos defuntos, e au-Z$nte$ y
Capella*, c ReJĩdos do Rio de Janeiro. RIO
DE JANEIRO tía Segunda Officina de
ANTONIO ISID. ORO DAĩONCECA,
Anno de M. CC. XLVII. Com licenças do
Senhor Bijfo,
OCR
“Optical
Character
Recognition”
texto
im
ag
e
m
RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E REVERENDÍSSIMO
SENHORD. F RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em o primeiro
dia defle prtzente Anno de 1747,havendo fidoſeis
Annos Biſpo do B, eyno de Angola, donde por no-
miacaõ de Sua Mageftade, e Bulla Pontificia, foy
promovidopara ella Diocefi. COMPOSTA PELO
DOUTORLÜIZ ANTONIO ROSADODA
CUNHA£ fm de Fora, e Provedor dos defuntos, e
au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro.
RIO DE JANEIRO tía Segunda Officina de
ANTONIO ISID. ORO DAĩONCECA, Anno de
M. CC. XLVII. Com licenças do Senhor Bijfo,?
Relação da entrada que fez o excelentíssimo, e
reverendíssimo senhor Dom Frei Antonio do
Desterro Malheiro, Bispo do Rio de Janeiro,
em o primeiro dia deste presente Ano de 1747
havendo sido seis Anos Bispo do Reino de
Angola, donde por nomeação de Sua
Majestade, e Bula Pontifícia, foi promovido
para esta Diocese. Composta pelo doutor Luiz
Antonio Rosado da Cunha Juiz de Fora, e
Provedor dos defuntos, e ausentes, Capelas, e
Residos do Rio de Janeiro. Rio de Janeiro, Na
Segunda Oficina de Antonio Isidoro da
Fonseca, Ano de MCCXLVII. Com licenças
do Senhor Bispo.
!
>
O Projeto Edições Filológicas na
Brasiliana Digital (2009-2013)
criou, com o eDictor, edições
corrigidas e modernizadas para
algumas obras do acervo, além de
um banco de dados de erros de
reconhecimento automático
(OCR).
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento
automático de textos antigos: Desafios e Experiências. Workshop de Linguística de Corpus
do Projeto Para a História do Português Brasileiro (PHPB), São Paulo, 2010.
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
(Abbyy Finereader 10.0 training module)
Apresentação Diplomática
textoimagem
Apresentação Modernizada
Apresentação Modernizada
RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D
EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR
DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR
Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D
primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P
1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR
do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P
nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR
Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F
Diocese/NPR ./. 06_Realacao,2.7/ID
COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR
ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ
Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-
G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR
de/P Janeiro/NPR ./. 06_Realacao,2.8/ID
RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID
Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR
DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID
Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID
Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./.
06_Realacao,2.12/ID
Texto
anotado:
P.O.S.
<w id="s_6#86">
<o> amiſjade</o>
<e t="ocr">amiſſade</e>
<e t="gra">amissade</e>
<e t="mod">amizade </e>
<m v="N"/>
</w>
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
<w id="s_6#86">
<o> amiſjade</o>
<e t="ocr">amiſſade</e>
<e t="gra">amissade</e>
<e t="mod">amizade </e>
<m v="N"/>
</w>
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
>
Interface of eDictor in 2009 – Edition Module
em todo esse processo de
adaptação ao uso por novos
projetos foi que
“Edição” passou a ser
uma categoria aberta, que
pode ser configurada por cada
grupo.
> O mais importante…
em todo esse processo de
adaptação ao uso por novos
projetos foi que
“Edição” passou a ser
uma categoria aberta, que
pode ser configurada por cada
grupo.
> O mais importante…
“Edição” passa a ser uma categoria aberta
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas
perspectivas na codificação e edição de corpora de textos históricos. In: VIII
Encontro de Linguística de Corpus, 2009, Rio de Janeiro. 2009.
First Version of eDictor’s Manual (2010)
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas
perspectivas na codificação e edição de corpora de textos históricos. In: Tania
Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto. (Org.). Caminhos da
linguística de corpus. Campinas: Mercado de Letras, 2010.
116
Workshop:
Construction and use of large annotated corpora
Unicamp, Setembro de 2013
Nova página, manual e interface do e-Dictor,
Setembro de 2013
> Em resumo…
desde 2007 foram lançadas
10 versões ('builds')
do eDictor 1.0 beta,
cada uma refletindo
modificações e
acrescentamentos
solicitados pelos novos
projetos que
adotaram a ferramenta.
Em resumo…
>
2015
2015
e agora?
>
De onde veio?
Para onde vai?
O que é?
dictore
>
Versão 1.0 Beta 10
Versão Web – em teste
edictore
Versão Web – em teste
http://www.tycho.iel.unicamp.br/workflow/index.action
125
Luiz Henrique Lima Veronesi:
e-Dictor: da plataforma para a nuvem.
Dissertação de Mestrado em Filologia e Língua Portuguesa, Uni
Versão Web – em teste
Versão Web – em teste
> XML
Código-base do
eDictor Web
> XML
Código-base do
eDictor Web
> XML
Código-base do
eDictor Web
>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"/>
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"/>
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"/>
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" ... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"/></t>
<t pos="70" value="ANTONIO">
<attributes part-of-speech=“NPR"/></t>
<t pos="71" value="ROSADO">
<attributes part-of-speech=“NPR"/></t>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA">
<attributes part-of-speech=“NPR”/></t>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"/></t>
<t pos="70" value="ANTONIO">
<attributes part-of-speech=“NPR"/></t>
<t pos="71" value="ROSADO">
<attributes part-of-speech=“NPR"/></t>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA">
<attributes part-of-speech=“NPR”/></t>
XML - Código-base do eDictor Web
XML - Código-base do eDictor Web
XML - Código-base do eDictor Web
“considerar os tokens 69 a 73 como uma unidade"
>
O que me importa?
Vantagens e
Problemas
da nova versão web
Primeira vantagem
142
1. A primeira vantagem da nova
versão é “libertar” o código do
eDictor de sua dependência à
estrutura gráfica do texto.
Problemas
143
(lembrando….)
1. Alta dependência do código à estrutura gráfica do
texto. As categorias básicas da marcação XML do
eDictor seguem uma hierarquia: seção >
parágrafo > sentença > palavra, que “prende” a
anotação à hierarquia do texto. Isso vem
impedindo que a anotação se expanda para a
anotação da estrutura sintática dos textos (que era
um importante objetivo inicial, até hoje frustrado).
da atual versão
Primeira vantagem
144
1. A primeira vantagem da nova versão é “libertar” o
código do eDictor de sua dependência à estrutura
gráfica do texto.
Com o novo código, finalmente nos
aproximamos do objetivo de incluir a
anotação sintática entre as
tarefas que podem ser cumpridas no
interior da ferramenta.
Pois, nas palavras de Veronesi (2014:52),
Primeira vantagem
145
1. A primeira vantagem da nova versão é “libertar” o código
do eDictor de sua dependência à estrutura gráfica do texto.
Com o novo código, finalmente nos aproximamos do
objetivo de incluir a anotação sintática entre as
tarefas que podem ser cumpridas no interior da ferramenta.
Pois, nas palavras de Veronesi (2014:52),
“O texto passa a ser compreendido por
listas que se relacionam logicamente em
função da posição linear que os tokens
ocupam após o processo de tokenização”.
Primeira vantagem
146
Primeira vantagem
147
“Luiz Antonio Rosado da Cunha” <chunk/>
Primeira vantagem
148
“Luiz Antonio Rosado da Cunha” <chunk/>
[Luiz Antonio Rosado da Cunha] Sintagma
Primeira vantagem
149
“Luiz Antonio Rosado da Cunha” <chunk/>
[Luiz Antonio Rosado da Cunha] Sintagma
Primeira vantagem
150
Ilustração do esquema de anotação sintática proposto em
Veronesi (2014):
Primeira vantagem
151
Ilustração do esquema de anotação sintática proposto em
Veronesi (2014):
Sintagmas
“Palavras”>
>
Primeira vantagem
152
Ilustração do esquema de anotação sintática proposto em
Veronesi (2014):
Sintagmas
“X” >
>
Primeira vantagem
153
Ilustração da interface para anotação sintática
(versão interna para testes, ainda não publicada)
Primeira vantagem
154
Em resumo:
Anotação fundada na
estrutura gráfica
Anotação fundada em
Segunda vantagem
155
Segunda vantagem
156
2. A segunda vantagem da nova versão está
ligada a sua disponibilização em ambiente de
nuvem.
Em tese, uma ferramenta que não precisa ser
“baixada” por cada usuário permite que as
novas versões e melhoramentos sejam
imediatamente disponíveis para todos os
usuários, entre outras vantagens apontadas
por Veronesi 2014.
Primeiro problema
157
Primeiro problema
158
1. O primeiro problema está ligado à segunda
vantagem. Nem todos os usuários sentem-se
confortáveis com uma ferramenta que nunca
está disponível localmente - a dependência de
todo um projeto ao acesso a um servidor
remoto, muitas vezes em outro continente,
passível de problemas e quedas, etc., não é
desejada pela maioria. Do outro lado, o
funcionamento “em nuvem” traz à equipe de
desenvolvedores da ferramenta uma grande
responsabilidade, pois precisam manter e
tornar disponível algo que forma a base das
pesquisas de muitos grupos. A solução desse
Primeiro problema
159
1. O primeiro problema está ligado à segunda vantagem.
Nem todos os usuários sentem-se confortáveis com uma
ferramenta que nunca está disponível localmente - a
dependência de todo um projeto ao acesso a um servidor
remoto, muitas vezes em outro continente, passível de
problemas e quedas, etc., não é desejada pela maioria. Do
outro lado, o funcionamento “em nuvem” traz à equipe
de desenvolvedores da ferramenta uma grande
responsabilidade, pois precisam manter e tornar
disponível algo que forma a base das pesquisas de muitos
grupos. A solução, em princípio, não
parece complexa: seria possível
implementar uma ferramenta híbrida,
com versão em nuvem e local. Mas isso
Segundo problema
160
Segundo problema
161
1.O segundo problema está fortemente
ligado ao primeiro. Para que o
funcionamento “em nuvem” seja
garantido, é preciso haver uma equipe de
desenvolvedores dedicados; mesmo para
se fazer uma ferramenta híbrida, com
versão em nuvem e local, é necessário
termos uma equipe.
O fato, entretanto, é que o eDictor nunca
contou com uma equipe dedicada.
Segundo problema
162
1.O segundo problema está fortemente
ligado ao primeiro. Para que o
funcionamento “em nuvem” seja
garantido, é preciso haver uma equipe de
desenvolvedores dedicados; mesmo para
se fazer uma ferramenta híbrida, com
versão em nuvem e local, é necessário
termos uma equipe.
O fato, entretanto, é que o eDictor nunca
contou com uma equipe dedicada.
Possível solução
163
Possível solução
164
A meu ver há uma medida que pode solucionar todos os
problemas do eDictor.
Deveríamos abrir o código-fonte tanto da versão 1.0 como
da nova-versão web, enviá-lo a um portal de
desenvolvedores, transformando o eDictor em uma
ferramenta de construção colaborativa, por
meio do uso de plataformas do tipo CSD -
Collaborative Software Development Platforms.
Esta sempre foi, de fato, a vocação dessa ferramenta.
Possível solução
165
Desde o início, o eDictor foi construído em pequenas etapas,
por diferentes pesquisadores vindos de diferentes formações,
e com diferentes objetivos.
Como vimos, isso trouxe problemas para as diferentes versões.
Entretanto, é também daí que vem a força
da ferramenta.
A proposta, agora, seria assumir definitivamente a vocação
“múltipla” dessa forma de desenvolvimento, e lançar a
criança no mundo, esperando que ela construa agora seus
próprios caminhos.
Possível solução
166
Desde o início, o eDictor foi construído em pequenas etapas,
por diferentes pesquisadores vindos de diferentes formações,
e com diferentes objetivos.
Como vimos, isso trouxe problemas para as diferentes versões.
Entretanto, é também daí que vem a força
da ferramenta.
A proposta, agora, seria assumir definitivamente a vocação
“múltipla” dessa forma de desenvolvimento, e lançar a
criança no mundo, esperando que ela construa agora seus
próprios caminhos.
Desde o início, o eDictor foi construído em pequenas
etapas, por diferentes pesquisadores vindos de diferentes
formações, e com diferentes objetivos.
Como vimos agora, isso trouxe problemas para as
diferentes versões.
Entretanto, é também daí, a meu ver, que vem a força da
ferramenta.
A proposta, agora, seria assumir definitivamente essa
vocação “múltipla”, e digamos, “ bastarda” dessa forma de
desenvolvimento, e
Obrigada!
Maria Clara Paixão de Sousa
Universidade de São Paulo
mariaclara@usp.br
eDictor:
histórico e perspectivas
PAIXÃO DE SOUSA, M. C. eDictor: a chronology. Apresentação na mesa redonda “eDictor: advances
and perspectives”. Workshop Construction and use
of large annotated corpora. Campinas, Unicamp, 09/09/2013. [Slides - Slideshare]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. E-Dictor: Novas perspectivas na codificação
e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto.
(Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010. [PDF]
FARIA, P. P. F.; PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. An Integrated Tool for Annotating
Historical Corpora. The Fourth Linguistic Annotation Workshop (LAW IV) at The 48th Annual Meeting
of the Association for Computational Linguistics (ALC 2010), Uppsala, 2010.
(Congresso). [PDF (poster)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos
antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do
Português Brasileiro (PHPB), São Paulo, 2010. (Conferência). [PDF (slides)]
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana
Digital. I Workshop de Linguística Computacional da USP, 2009. (Conferência). [PDF(slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. VIII Encontro de Linguística de Corpus, Rio de Janeiro, 2009.
(Comunicação).
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro.
Resumos, 2009. [PDF (slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-Dictor: Uma ferramenta integrada para a anotação de edição
e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007. [abrir página]
eDictor 1.0 Beta 10 – Módulo Transcrição
> XML
XML
te
n
d
e
d
ar
k
u
p
a
n
g
u
ag
e
e
>
XML
te
n
d
e
d
ar
k
u
p
a
n
g
u
ag
e
e
>
XML
te
n
d
e
d
ar
k
u
p
a
n
g
u
ag
e
e
>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" ... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"
... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"
pos="NPR"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" ... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"
... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"
pos="NPR"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
XML - Código-base do eDictor Web
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"/></t>
<t pos="70" value="ANTONIO">
<attributes part-of-speech=“NPR"/></t>
<t pos="71" value="ROSADO">
<attributes part-of-speech=“NPR"/></t>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA">
<attributes part-of-speech=“NPR”/></t>
eDictor 1.0 Beta 10 – Módulo Transcrição
eDictor 1.0 Beta 10 – Módulo Transcrição
eDictor 1.0 Beta 10 – Módulo Edição
eDictor 1.0 Beta 10 – Módulo Etiquetação
eDictor 1.0 Beta 10 – Módulo Edição
<page data-uid="1">
RELAÇÃO DA ENTRADA QUE FEZ O
EXCELENTÍSSIMO, E REVERENDÍSSIMO SENHOR
DOM FREI ANTONIO DO DESTERRO MALHEYRO
Bispo do Rio de Janeiro, em o primeiro dia deste presente
Ano de 1747 havendo sido seis Anos Bispo do Reino de
Angola, donde por nomeação de Sua Magestade, e Bula
Pontifícia, foi promovido para esta Diocese. COMPOSTA
PELO DOUTOR LUIZ ANTONIO ROSADO DA
CUNHA Juiz de Fora, e Provedor dos defuntos, e ausentes,
Capelas, e Residos do Rio de Janeiro. RIO DE JANEIRO Na
Segunda Oficina de ANTONIO ISIDORO DA FONCECA.
Ano de M. CC. XLVII. Com licenças do Senhor Bispo.
</page>
Versão Web – em teste

Mais conteúdo relacionado

Semelhante a e-Dictor: Histórico e perspectivas (2015)

e-dictor - uma ferramenta para as humanidades digitais
e-dictor - uma ferramenta para as humanidades digitais e-dictor - uma ferramenta para as humanidades digitais
e-dictor - uma ferramenta para as humanidades digitais Maria Clara Paixão de Sousa
 
A_ESCASSEZ_DE_TERMINOLOGIAS_EM_LIBRAS_NA.pdf
A_ESCASSEZ_DE_TERMINOLOGIAS_EM_LIBRAS_NA.pdfA_ESCASSEZ_DE_TERMINOLOGIAS_EM_LIBRAS_NA.pdf
A_ESCASSEZ_DE_TERMINOLOGIAS_EM_LIBRAS_NA.pdfMrciaRibeiro80
 
Relatório de estágio ana viegas 41216
Relatório de estágio   ana viegas 41216Relatório de estágio   ana viegas 41216
Relatório de estágio ana viegas 41216AnaMargarida Viegas
 
RECURSOS EDUCACIONAIS ABERTOS PARA LEITURA E PRODUÇÃO DE TEXTOS NAS LICENCIAT...
RECURSOS EDUCACIONAIS ABERTOS PARA LEITURA E PRODUÇÃO DE TEXTOS NAS LICENCIAT...RECURSOS EDUCACIONAIS ABERTOS PARA LEITURA E PRODUÇÃO DE TEXTOS NAS LICENCIAT...
RECURSOS EDUCACIONAIS ABERTOS PARA LEITURA E PRODUÇÃO DE TEXTOS NAS LICENCIAT...Joyce Fettermann
 
Os 10 anos da Conferência Luso-Brasileira de Ciência Aberta: dados iniciais
Os 10 anos da Conferência Luso-Brasileira de Ciência Aberta: dados iniciaisOs 10 anos da Conferência Luso-Brasileira de Ciência Aberta: dados iniciais
Os 10 anos da Conferência Luso-Brasileira de Ciência Aberta: dados iniciaisProjeto RCAAP
 
Ii encontro nacional de letras
Ii encontro nacional de letrasIi encontro nacional de letras
Ii encontro nacional de letrasLígia Sousa
 
Apresentação "Comunidade de Professores de Línguas"
Apresentação "Comunidade de Professores de Línguas"Apresentação "Comunidade de Professores de Línguas"
Apresentação "Comunidade de Professores de Línguas"Teresa Pombo
 
Alinelisboa plano de aula aula5_modulo2
Alinelisboa plano de aula aula5_modulo2Alinelisboa plano de aula aula5_modulo2
Alinelisboa plano de aula aula5_modulo2Aline Lisboa
 
Alinelisboa plano de aula aula5_modulo2
Alinelisboa plano de aula aula5_modulo2Alinelisboa plano de aula aula5_modulo2
Alinelisboa plano de aula aula5_modulo2Aline Lisboa
 
Portal de Descoberta: um OPAC com vida social e algo mais
Portal de Descoberta: um OPAC com vida social e algo maisPortal de Descoberta: um OPAC com vida social e algo mais
Portal de Descoberta: um OPAC com vida social e algo maisFilipe Bento
 
Dicionãƒâ¡rios.p65
Dicionãƒâ¡rios.p65Dicionãƒâ¡rios.p65
Dicionãƒâ¡rios.p65AdemildePCNP
 
Dicionário
Dicionário Dicionário
Dicionário Jeca Tatu
 

Semelhante a e-Dictor: Histórico e perspectivas (2015) (20)

e-dictor - uma ferramenta para as humanidades digitais
e-dictor - uma ferramenta para as humanidades digitais e-dictor - uma ferramenta para as humanidades digitais
e-dictor - uma ferramenta para as humanidades digitais
 
A_ESCASSEZ_DE_TERMINOLOGIAS_EM_LIBRAS_NA.pdf
A_ESCASSEZ_DE_TERMINOLOGIAS_EM_LIBRAS_NA.pdfA_ESCASSEZ_DE_TERMINOLOGIAS_EM_LIBRAS_NA.pdf
A_ESCASSEZ_DE_TERMINOLOGIAS_EM_LIBRAS_NA.pdf
 
Relatório de estágio ana viegas 41216
Relatório de estágio   ana viegas 41216Relatório de estágio   ana viegas 41216
Relatório de estágio ana viegas 41216
 
RECURSOS EDUCACIONAIS ABERTOS PARA LEITURA E PRODUÇÃO DE TEXTOS NAS LICENCIAT...
RECURSOS EDUCACIONAIS ABERTOS PARA LEITURA E PRODUÇÃO DE TEXTOS NAS LICENCIAT...RECURSOS EDUCACIONAIS ABERTOS PARA LEITURA E PRODUÇÃO DE TEXTOS NAS LICENCIAT...
RECURSOS EDUCACIONAIS ABERTOS PARA LEITURA E PRODUÇÃO DE TEXTOS NAS LICENCIAT...
 
Os 10 anos da Conferência Luso-Brasileira de Ciência Aberta: dados iniciais
Os 10 anos da Conferência Luso-Brasileira de Ciência Aberta: dados iniciaisOs 10 anos da Conferência Luso-Brasileira de Ciência Aberta: dados iniciais
Os 10 anos da Conferência Luso-Brasileira de Ciência Aberta: dados iniciais
 
Ii encontro nacional de letras
Ii encontro nacional de letrasIi encontro nacional de letras
Ii encontro nacional de letras
 
Recursos Web
Recursos WebRecursos Web
Recursos Web
 
Poster univaberta conf_oa
Poster univaberta conf_oaPoster univaberta conf_oa
Poster univaberta conf_oa
 
Apresentação "Comunidade de Professores de Línguas"
Apresentação "Comunidade de Professores de Línguas"Apresentação "Comunidade de Professores de Línguas"
Apresentação "Comunidade de Professores de Línguas"
 
Alinelisboa plano de aula aula5_modulo2
Alinelisboa plano de aula aula5_modulo2Alinelisboa plano de aula aula5_modulo2
Alinelisboa plano de aula aula5_modulo2
 
Alinelisboa plano de aula aula5_modulo2
Alinelisboa plano de aula aula5_modulo2Alinelisboa plano de aula aula5_modulo2
Alinelisboa plano de aula aula5_modulo2
 
978 85-87686-44-2-comunicacao e-linguagem
978 85-87686-44-2-comunicacao e-linguagem978 85-87686-44-2-comunicacao e-linguagem
978 85-87686-44-2-comunicacao e-linguagem
 
Cv de góis
Cv de góisCv de góis
Cv de góis
 
Publicaçao 2010 EBOOK UERJ
Publicaçao 2010 EBOOK UERJPublicaçao 2010 EBOOK UERJ
Publicaçao 2010 EBOOK UERJ
 
Portal de Descoberta: um OPAC com vida social e algo mais
Portal de Descoberta: um OPAC com vida social e algo maisPortal de Descoberta: um OPAC com vida social e algo mais
Portal de Descoberta: um OPAC com vida social e algo mais
 
REVISTA INTERNACIONAL EM LÍNGUA PORTUGUESA
REVISTA INTERNACIONAL EM LÍNGUA PORTUGUESAREVISTA INTERNACIONAL EM LÍNGUA PORTUGUESA
REVISTA INTERNACIONAL EM LÍNGUA PORTUGUESA
 
Dicionãƒâ¡rios.p65
Dicionãƒâ¡rios.p65Dicionãƒâ¡rios.p65
Dicionãƒâ¡rios.p65
 
Dicionário
Dicionário Dicionário
Dicionário
 
IV SELL 2013
IV SELL 2013IV SELL 2013
IV SELL 2013
 
Webquest janne
Webquest janneWebquest janne
Webquest janne
 

Último

Bilhete de Identidade sobre o Tungsténio.pptx
Bilhete de Identidade sobre o Tungsténio.pptxBilhete de Identidade sobre o Tungsténio.pptx
Bilhete de Identidade sobre o Tungsténio.pptxSusanaRangel12
 
Apresentação sobre o cientista linus pauling.pptx
Apresentação sobre o cientista linus pauling.pptxApresentação sobre o cientista linus pauling.pptx
Apresentação sobre o cientista linus pauling.pptxTatianaMalcher
 
Planejamento do viveiro de mudas florestais
Planejamento do viveiro de mudas florestaisPlanejamento do viveiro de mudas florestais
Planejamento do viveiro de mudas florestaisandersonwebler1
 
NEUROCIENCIA I (1).ppt aula explicativa 1
NEUROCIENCIA I (1).ppt aula explicativa 1NEUROCIENCIA I (1).ppt aula explicativa 1
NEUROCIENCIA I (1).ppt aula explicativa 1conselhosade2
 
FOUCAULT, Michel. A coragem da verdade.pdf
FOUCAULT, Michel. A coragem da verdade.pdfFOUCAULT, Michel. A coragem da verdade.pdf
FOUCAULT, Michel. A coragem da verdade.pdfRobertoLopes438472
 
Estudo Dirigido Sistema Cardiovascular - 8°.docx
Estudo Dirigido Sistema Cardiovascular - 8°.docxEstudo Dirigido Sistema Cardiovascular - 8°.docx
Estudo Dirigido Sistema Cardiovascular - 8°.docxDanielaMayraArajoOli1
 
Historia da Agricultura Agronomia 2017.pptx
Historia da Agricultura Agronomia 2017.pptxHistoria da Agricultura Agronomia 2017.pptx
Historia da Agricultura Agronomia 2017.pptxCarlosMelo486412
 

Último (7)

Bilhete de Identidade sobre o Tungsténio.pptx
Bilhete de Identidade sobre o Tungsténio.pptxBilhete de Identidade sobre o Tungsténio.pptx
Bilhete de Identidade sobre o Tungsténio.pptx
 
Apresentação sobre o cientista linus pauling.pptx
Apresentação sobre o cientista linus pauling.pptxApresentação sobre o cientista linus pauling.pptx
Apresentação sobre o cientista linus pauling.pptx
 
Planejamento do viveiro de mudas florestais
Planejamento do viveiro de mudas florestaisPlanejamento do viveiro de mudas florestais
Planejamento do viveiro de mudas florestais
 
NEUROCIENCIA I (1).ppt aula explicativa 1
NEUROCIENCIA I (1).ppt aula explicativa 1NEUROCIENCIA I (1).ppt aula explicativa 1
NEUROCIENCIA I (1).ppt aula explicativa 1
 
FOUCAULT, Michel. A coragem da verdade.pdf
FOUCAULT, Michel. A coragem da verdade.pdfFOUCAULT, Michel. A coragem da verdade.pdf
FOUCAULT, Michel. A coragem da verdade.pdf
 
Estudo Dirigido Sistema Cardiovascular - 8°.docx
Estudo Dirigido Sistema Cardiovascular - 8°.docxEstudo Dirigido Sistema Cardiovascular - 8°.docx
Estudo Dirigido Sistema Cardiovascular - 8°.docx
 
Historia da Agricultura Agronomia 2017.pptx
Historia da Agricultura Agronomia 2017.pptxHistoria da Agricultura Agronomia 2017.pptx
Historia da Agricultura Agronomia 2017.pptx
 

e-Dictor: Histórico e perspectivas (2015)

  • 2. Gallæcia Santiago de Compostela 27 a 30 de julho 2015 III Congresso Internacional de Linguística Histórica
  • 3. Coordenação: Charlotte M.C. Galves Xavier G. Guinovart Simpósio Corpus linguísticos e gramática histórica
  • 4. Maria Clara Paixão de Sousa Universidade de São Paulo Universidade de São Paulo dictor: histórico e perspectivas e
  • 5. dictor: histórico e perspectivas O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos especialmente voltado ao trabalho filológico e à análise lingüística automática. Combinando um editor de XML a um etiquetador morfossintático, o software permite a geração automática de versões correspondentes a edições diplomáticas, semi-diplomáticas e modernizadas, e de versões com anotação morfossintática. Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e grupos de pesquisa, em diferentes universidades de diversos países da lusofonia. Resultado de oito anos de trabalho de linguistas, filólogos e cientistas da computação, o desenvolvimento da ferramenta tem sido orientado pela demanda dos usuários, como atestam Paixão de Sousa (2014), Paixão de Sousa et ali (2010) e Paixão de Sousa et ali (2007), entre outros. Entretanto, a partir de Veronesi (2014), uma proposta independente e inovadora está colocada para o futuro desse desenvolvimento, em ambiente de rede, e em um formato que subverte em grande parte o inicialmente concebido. Nesta comunicação, apresentaremos uma avaliação dessa nova proposta de desenvolvimento, comparando-a conceitualmente à ferramenta original, e pesando suas vantagens Resumo e
  • 6. dictor: histórico e perspectivas O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos especialmente voltado ao trabalho filológico e à análise lingüística automática. Combinando um editor de XML a um etiquetador morfossintático, o software permite a geração automática de versões correspondentes a edições diplomáticas, semi-diplomáticas e modernizadas, e de versões com anotação morfossintática. Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e grupos de pesquisa, em diferentes universidades de diversos países da lusofonia. Resultado de oito anos de trabalho de linguistas, filólogos e cientistas da computação, o desenvolvimento da ferramenta tem sido orientado pela demanda dos usuários, como atestam Paixão de Sousa (2014), Paixão de Sousa et ali (2010) e Paixão de Sousa et ali (2007), entre outros. Entretanto, a partir de Veronesi (2014), uma proposta independente e inovadora está colocada para o futuro desse desenvolvimento, em ambiente de rede, e em um formato que subverte em grande parte o inicialmente concebido. Nesta comunicação, apresentaremos uma avaliação dessa nova proposta de desenvolvimento, comparando-a conceitualmente à ferramenta original, e pesando suas vantagens e desvantagens Resumo e
  • 8. De onde veio? O que é? edictore
  • 9. De onde veio? Para onde vai? O que é? edictore
  • 10. > De onde veio? Para onde vai? O que é? edictore
  • 11. > Uma ferramenta para edição filológica eletrônica e análise linguística automática edictore
  • 12. > O que me importa? A principal finalidade do eDictor é oferecer uma interface amigável aliada a um alto nível de controle e flexibilidade na codificação de textos eletrônicos com finalidade de pesquisa linguística. dictore
  • 13. > É um software livre, atualmente com duas versões: edictore
  • 14. > Versão 1.0 Beta 10 Versão Web – em teste edictor
  • 15. Versão 1.0 Beta 10 Versão Web – em teste “O que é” “Para onde vai” edictore
  • 16. > Versão 1.0 Beta 10 Versão Web – em teste edictore
  • 17. > Versão 1.0 Beta 10 Disponível para windows, por download em http://edictor.net edictore
  • 21. eDictor 1.0 Beta 10 – Módulo Transcrição
  • 22. eDictor 1.0 Beta 10 – Módulo "Transcrição" Aba "Transcrição"
  • 23. eDictor 1.0 Beta 10 – Módulo Edição Aba "Edição"
  • 24. eDictor 1.0 Beta 10 – Módulo Etiquetação Aba "Morfologia"
  • 25. CUNHA, Luís Antonio Rosado da. Relaçãoo da entrada que fez o excellentissimo, e reverendissimo senhor D. Fr. Antonio [...].Rio de Janeiro : Na Segunda Oficina de Antonio Isidoro da Fonseca, 1747.
  • 26. CUNHA, Luís Antonio Rosado da. Relaçãoo da entrada que fez o excellentissimo, e reverendissimo senhor D. Fr. Antonio [...].Rio de Janeiro : Na Segunda Oficina de Antonio Isidoro da Fonseca, 1747. O primeiro livro impresso no Brasil !
  • 27. eDictor 1.0 Beta 10 – Módulo "Transcrição"
  • 28. eDictor 1.0 Beta 10 – Módulo Edição
  • 29. eDictor 1.0 Beta 10 – Módulo Edição
  • 30. eDictor 1.0 Beta 10 – Configuração de preferências
  • 31. eDictor 1.0 Beta 10 – Configuração de preferências
  • 32. eDictor 1.0 Beta 10 – Configuração de preferências
  • 33. eDictor 1.0 Beta 10 – Configuração de preferências
  • 34. > eDictor 1.0 Beta 10 – Exportação de Versões
  • 38. RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ- G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID Texto anotado: P.O.S.
  • 41. eDictor 1.0 Beta 10 – Configuração de preferências
  • 42. A interface do eDictor simula um editor de textos normal, mas a ferramenta é em essência um anotador linguístico, que aplica uma linguagem de marcação sobre os textos > dictore
  • 43. A interface do eDictor simula um editor de textos normal, mas a ferramenta é em essência um anotador linguístico, que aplica uma linguagem de marcação sobre os textos? dictore
  • 46. >
  • 47. > Versão 1.0 Beta 10 Usada atualmente por seis grupos de pesquisa no Brasil e em Portugal dictore
  • 48. Corpus Anotado do Português Histórico Tycho Brahe, (Universidade Estadual de Campinas) Grupo de Pesquisas Humanidades Digitais (Universidade de São Paulo) P.S. Arquivo Digital de Escrita Quotidiana em Portugal e Espanha na Época Moderna (Universidade de Lisboa) Corpus Eletrônico de Documentos Históricos do Sertão, CEDOHS (Universidade Federal de Feira de Santana) Laboratório de História do Português Brasileiro (Universidade Federal do Rio de Janeiro) Memória Conquistense (Universidade Estadual do Sudoeste da Bahia)
  • 49. Corpus Anotado do Português Histórico Tycho Brahe, (Universidade Estadual de Campinas) Grupo de Pesquisas Humanidades Digitais (Universidade de São Paulo) P.S. Arquivo Digital de Escrita Quotidiana em Portugal e Espanha na Época Moderna (Universidade de Lisboa) Corpus Eletrônico de Documentos Históricos do Sertão, CEDOHS (Universidade Federal de Feira de Santana) Laboratório de História do Português Brasileiro (Universidade Federal do Rio de Janeiro) Memória Conquistense (Universidade Estadual do Sudoeste da Bahia)
  • 50. > Versão 1.0 Beta 10 Exemplos de aplicação dictore
  • 51. > Versão 1.0 Beta 10 1) Preparação de textos em corpora anotados (Corpus Tycho Brahe) dictore
  • 52. O Corpus Tycho Brahe http://www.tycho.iel.unicamp.br/corpus/index.html
  • 53. O Corpus Tycho Brahe Exemplo de um texto em versão “original”
  • 54. O Corpus Tycho Brahe Exemplo de um texto em versão “modernizada”
  • 55. [ prologue (author: P.M. Gandavo)] [ title: AO MUITO ILUSTRE SENHOR DOM LIONIS PEREIRA, Epístola de Pero de Magalhães. ] [g_008_s_43] Neste pequeno serviço (muito ilustre senhor ) que ofereço a Vossa Mercê das primícias de meu fraco entendimento, poderá em alguma maneira conhecer os desejos que tenho de pagar com minha possibilidade alguma parte do muito que se deve à ínclita fama de vosso heróico nome. [g_008_s_44] E isto assim pelo merecimento do nobilíssimo sangue e clara progênie de onde traz sua origem, como pelos troféus das grandes vitórias , e casos bem afortunados que lhe hão sucedido nessas partes do Oriente em que Deus o quis favorecer com tão larga mão, que não cuido ser toda minha vida bastante para satisfazer à menor parte de seus louvores . [g_008_s_45] E como todas estas razões me ponham em tanta obrigação , e eu entenda que outra nenhuma coisa deve ser mais aceita a pessoas de altos ânimos que a lição das escrituras , por cujos meios se alcançam os segredos de todas as ciências , e os homens vêm a ilustrar seus nomes e perpetuar os na terra com fama imortal , determinei escolher a Vossa Mercê entre os mais senhores da terra , e dedicar lhe esta breve história . [g_008_s_46] A qual espero que folgue de ver com atenção e receber me a benignamente debaixo de seu amparo : assim por ser coisa nova , e eu a escrever como testemunha de vista : como por saber quão particular afeição Vossa Mercê tem às coisas do engenho , e que por esta causa lhe não será menos aceito o exercício das escrituras , que o das armas. [g_008_s_47] Por onde com muita razão favorecido desta confiança possa seguramente sair a luz com esta pequena empresa e divulgar a pela terra sem nenhum receio , tendo por defensor dela a Vossa Mercê Cuja muito ilustre pessoa nosso Senhor guarde e acrescente sua vida e estado por longos e felizes anos . [ end prologue ] O Corpus Tycho Brahe Exemplo de um texto em versão para ferramentas
  • 56. O Corpus Tycho Brahe Exemplo de um código- base XML
  • 57. > Versão 1.0 Beta 10 2) edição de manuscritos (LaborHistórico e CEDOHS) dictore
  • 58. LaborHistorico Laboratório de História do Português Brasileiro Universidade Federal do Rio de Janeiro. Coord. Célia Lopes http://www.letras.ufrj.br/laborhistorico/ >
  • 59. LaborHistorico Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral http://www.letras.ufrj.br/laborhistorico/
  • 60. LaborHistorico Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral http://www.letras.ufrj.br/laborhistorico/
  • 61. CEDOHS Corpus Eletrônico de Documentos Históricos do Sertão, Coord. Zenaide Carneiro http://www2.uefs.br/cedohs/ >
  • 62. CEDOHS Acervo - Cartas particulares do Recôncavo da Bahia (1818-1886)) http://www2.uefs.br/cedohs/
  • 63.
  • 64. 64 Documentos editados com o eDictor em diferentes corpora (2005-2013) Número total de documentos: 1.398 Número de palavras: dictore
  • 66. 66 Há muitos! …vamos escolher dois: ( ) Problemas da atual versão
  • 67. Problemas 67 1. Baixa interoperabilidade - O código XML do eDictor não segue padrões internacionais estabelecidos, desde meados dos anos 2000, para corpora eletrônicos - notadamente, o nenhuma das diferentes versões do TEI (Text Encoding Initiative). Com isso, os textos trabalhados no editor não são facilmente compartilháveis com outros corpora. Alguns grupos desenvolveram scripts para essa adaptação. Mas o ideal seria que a própria ferramenta seguisse um código-standard, ou, ao menos, oferecesse essa transição. 2. Alta dependência do código à estrutura lógica do texto. As categorias básicas da marcação XML do eDictor seguem uma hierarquia: seção > parágrafo > sentença > palavra, que “prende” a anotação à hierarquia do texto. Isso vem impedindo que a anotação se expanda para a anotação da atual versão
  • 68. Problemas 68 1. Baixa interoperabilidade - O código XML do eDictor não segue padrões internacionais estabelecidos, desde meados dos anos 2000, para corpora eletrônicos - notadamente, o nenhuma das diferentes versões do TEI (Text Encoding Initiative). Com isso, os textos trabalhados no editor não são facilmente compartilháveis com outros corpora. Alguns grupos desenvolveram scripts para essa adaptação. Mas o ideal seria que a própria ferramenta seguisse um código- standard, ou, ao menos, oferecesse essa transição. 2. Alta dependência do código à estrutura lógica do texto. As categorias básicas da marcação XML do eDictor seguem uma hierarquia: seção > parágrafo > sentença > palavra, que “prende” a anotação à hierarquia do texto. Isso vem impedindo que a anotação se expanda para a anotação da estrutura sintática dos textos (que era um importante objetivo da atual versão
  • 69.
  • 70. Problemas 70 Estes dois problemas principais estão estritamente ligados à história do desenvolvimento do eDictor - a trajetória entre seus objetivos iniciais e a ampliação desses objetivos sempre no sentido de absorver demandas de novos usuários. da atual versão
  • 71. > De onde veio? Para onde vai? O que é? dictore
  • 73. http://www.ime.usp.br/~tycho/participants/psousa/memorias/index.html PAIXÃO DE SOUSA, M.C. Memórias do Texto: Aspectos tecnológicos na construção de um corpus histórico do português. Post-doc Research Project, 2004-2007. Unicamp/Fapesp.
  • 74. > PAIXÃO DE SOUSA, M. C.; TRIPPEL, T. Single source processing of Historic corpora for diverse uses. In: Proceedings of the Association for Literary and Linguistic Computing (ALLC) Annual Conference, 2004.
  • 75. PAIXÃO DE SOUSA, M. C. A Anotação da variação de grafia no Corpus Histórico do Português Tycho Brahe: Frentes abertas para estudos do léxico. V Encontro de Corpora: Lingüística de Corpus: a aplicabilidade nos estudos sobre Léxico, São Carlos, 2005.
  • 76. PAIXÃO DE SOUSA, M. C. Memórias do Texto. Mesa-redonda “Bibliotecas e bancos de dados digitais de literatura”, II Simpósio Nacional de Literatura e Informática, Florianópolis, 2005. Published in 2006 as: PAIXÃO DE SOUSA, M. C. Memórias do Texto. Texto Digital (UERJ), v. 1, p. 10, 2006.
  • 77. PAIXÃO DE SOUSA, M. C. Critical Hipereditions and the new challenges for text-critique. Seminário Internacional Literaturas: Del texto al hipertexto. Madri, Universidade Complutense, setembro de 2006. Published in 2007 as: PAIXÃO DE SOUSA, M. C. Digital Text: Conceptual and methodological frontiers. In: Dolores Romero; Amelia Sanz. (Org.). Literatures in the Digital Era: Theory and Praxis. Cambridge: Cambridge Scholarly, 2007.
  • 79. TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards at work: a corpus repository of Historical Portuguese texts. V International Conference on Language Resources and Evaluation (LREC), 2006.
  • 80. TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards at work: a corpus repository of Historical Portuguese texts. V International Conference on Language Resources and Evaluation (LREC), 2006.
  • 81. I Oficina de Anotação – Projeto CorPorA. Salvador, 19-21 de abril, 2006.
  • 82. I Oficina de Anotação – Projeto CorPorA. Salvador, 19-21 de abril, 2006.
  • 84. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-dictor: uma ferramenta integrada para a anotação de edição e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007.
  • 85. Interface do eDictor 1.0 beta 01
  • 86. Interface do eDictor 1.0 beta 01
  • 87. 2008-2014 Crescimento para novos usos (Versões Beta 1.0 002 a 010)
  • 88. > Versão 1.0 Beta 10 3) edição de obras raras digitalizadas - Projeto Edições Filológicas na Brasiliana Digital, 2009-2013 dictore
  • 89. Bibioteca Brasiliana Guita e José Mindlin, doada à Universidade de São Paulo em 2006: 40.000 obras dos séculos XVI a XXI…
  • 90.
  • 92. RELAÇAÕPA ENTRJDJ QUE FEZO EXCELI, ENTlSSIMO, E REVERENDÍSSIMO SENHORD. F RANTONIO DO DESTERRO MALHEYROAiſpoào Rio de Janeiro, em o primeiro dia defle prtzente Anno de 1747,havendo fidoſeis Annos Biſpo do B, eyno de Angola, donde por no-miacaõ de Sua Mageftade, e Bulla Pontificia, foy promovidopara ella Diocefi. COMPOSTA PELO DOUTORLÜIZ ANTONIO ROSADODA CUNHA£ fm de Fora, e Provedor dos defuntos, e au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro. RIO DE JANEIRO tía Segunda Officina de ANTONIO ISID. ORO DAĩONCECA, Anno de M. CC. XLVII. Com licenças do Senhor Bijfo, OCR “Optical Character Recognition” texto im ag e m
  • 93. RELAÇAÕPA ENTRJDJ QUE FEZO EXCELI, ENTlSSIMO, E REVERENDÍSSIMO SENHORD. F RANTONIO DO DESTERRO MALHEYROAiſpoào Rio de Janeiro, em o primeiro dia defle prtzente Anno de 1747,havendo fidoſeis Annos Biſpo do B, eyno de Angola, donde por no- miacaõ de Sua Mageftade, e Bulla Pontificia, foy promovidopara ella Diocefi. COMPOSTA PELO DOUTORLÜIZ ANTONIO ROSADODA CUNHA£ fm de Fora, e Provedor dos defuntos, e au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro. RIO DE JANEIRO tía Segunda Officina de ANTONIO ISID. ORO DAĩONCECA, Anno de M. CC. XLVII. Com licenças do Senhor Bijfo,?
  • 94. Relação da entrada que fez o excelentíssimo, e reverendíssimo senhor Dom Frei Antonio do Desterro Malheiro, Bispo do Rio de Janeiro, em o primeiro dia deste presente Ano de 1747 havendo sido seis Anos Bispo do Reino de Angola, donde por nomeação de Sua Majestade, e Bula Pontifícia, foi promovido para esta Diocese. Composta pelo doutor Luiz Antonio Rosado da Cunha Juiz de Fora, e Provedor dos defuntos, e ausentes, Capelas, e Residos do Rio de Janeiro. Rio de Janeiro, Na Segunda Oficina de Antonio Isidoro da Fonseca, Ano de MCCXLVII. Com licenças do Senhor Bispo. !
  • 95. > O Projeto Edições Filológicas na Brasiliana Digital (2009-2013) criou, com o eDictor, edições corrigidas e modernizadas para algumas obras do acervo, além de um banco de dados de erros de reconhecimento automático (OCR).
  • 96. PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP, 2009.
  • 97. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do Português Brasileiro (PHPB), São Paulo, 2010.
  • 98. PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP, 2009.
  • 99. PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP, 2009. (Abbyy Finereader 10.0 training module)
  • 101.
  • 105. RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ- G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID Texto anotado: P.O.S.
  • 106. <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP, 2009.
  • 107. <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP, 2009.
  • 108. >
  • 109. Interface of eDictor in 2009 – Edition Module
  • 110. em todo esse processo de adaptação ao uso por novos projetos foi que “Edição” passou a ser uma categoria aberta, que pode ser configurada por cada grupo. > O mais importante…
  • 111. em todo esse processo de adaptação ao uso por novos projetos foi que “Edição” passou a ser uma categoria aberta, que pode ser configurada por cada grupo. > O mais importante…
  • 112. “Edição” passa a ser uma categoria aberta
  • 113. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro. 2009.
  • 114. First Version of eDictor’s Manual (2010)
  • 115. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto. (Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010.
  • 116. 116 Workshop: Construction and use of large annotated corpora Unicamp, Setembro de 2013
  • 117. Nova página, manual e interface do e-Dictor, Setembro de 2013
  • 119. desde 2007 foram lançadas 10 versões ('builds') do eDictor 1.0 beta, cada uma refletindo modificações e acrescentamentos solicitados pelos novos projetos que adotaram a ferramenta. Em resumo… >
  • 120. 2015
  • 122. > De onde veio? Para onde vai? O que é? dictore
  • 123. > Versão 1.0 Beta 10 Versão Web – em teste edictore
  • 124. Versão Web – em teste http://www.tycho.iel.unicamp.br/workflow/index.action
  • 125. 125 Luiz Henrique Lima Veronesi: e-Dictor: da plataforma para a nuvem. Dissertação de Mestrado em Filologia e Língua Portuguesa, Uni
  • 126. Versão Web – em teste
  • 127. Versão Web – em teste
  • 131. >
  • 132. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ"/> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 133. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ"/> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 134. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ"/> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 135. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" ... /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 136. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR"/></t> <t pos="70" value="ANTONIO"> <attributes part-of-speech=“NPR"/></t> <t pos="71" value="ROSADO"> <attributes part-of-speech=“NPR"/></t> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"> <attributes part-of-speech=“NPR”/></t>
  • 137. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR"/></t> <t pos="70" value="ANTONIO"> <attributes part-of-speech=“NPR"/></t> <t pos="71" value="ROSADO"> <attributes part-of-speech=“NPR"/></t> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"> <attributes part-of-speech=“NPR”/></t>
  • 138. XML - Código-base do eDictor Web
  • 139. XML - Código-base do eDictor Web
  • 140. XML - Código-base do eDictor Web “considerar os tokens 69 a 73 como uma unidade"
  • 141. > O que me importa? Vantagens e Problemas da nova versão web
  • 142. Primeira vantagem 142 1. A primeira vantagem da nova versão é “libertar” o código do eDictor de sua dependência à estrutura gráfica do texto.
  • 143. Problemas 143 (lembrando….) 1. Alta dependência do código à estrutura gráfica do texto. As categorias básicas da marcação XML do eDictor seguem uma hierarquia: seção > parágrafo > sentença > palavra, que “prende” a anotação à hierarquia do texto. Isso vem impedindo que a anotação se expanda para a anotação da estrutura sintática dos textos (que era um importante objetivo inicial, até hoje frustrado). da atual versão
  • 144. Primeira vantagem 144 1. A primeira vantagem da nova versão é “libertar” o código do eDictor de sua dependência à estrutura gráfica do texto. Com o novo código, finalmente nos aproximamos do objetivo de incluir a anotação sintática entre as tarefas que podem ser cumpridas no interior da ferramenta. Pois, nas palavras de Veronesi (2014:52),
  • 145. Primeira vantagem 145 1. A primeira vantagem da nova versão é “libertar” o código do eDictor de sua dependência à estrutura gráfica do texto. Com o novo código, finalmente nos aproximamos do objetivo de incluir a anotação sintática entre as tarefas que podem ser cumpridas no interior da ferramenta. Pois, nas palavras de Veronesi (2014:52), “O texto passa a ser compreendido por listas que se relacionam logicamente em função da posição linear que os tokens ocupam após o processo de tokenização”.
  • 147. Primeira vantagem 147 “Luiz Antonio Rosado da Cunha” <chunk/>
  • 148. Primeira vantagem 148 “Luiz Antonio Rosado da Cunha” <chunk/> [Luiz Antonio Rosado da Cunha] Sintagma
  • 149. Primeira vantagem 149 “Luiz Antonio Rosado da Cunha” <chunk/> [Luiz Antonio Rosado da Cunha] Sintagma
  • 150. Primeira vantagem 150 Ilustração do esquema de anotação sintática proposto em Veronesi (2014):
  • 151. Primeira vantagem 151 Ilustração do esquema de anotação sintática proposto em Veronesi (2014): Sintagmas “Palavras”> >
  • 152. Primeira vantagem 152 Ilustração do esquema de anotação sintática proposto em Veronesi (2014): Sintagmas “X” > >
  • 153. Primeira vantagem 153 Ilustração da interface para anotação sintática (versão interna para testes, ainda não publicada)
  • 154. Primeira vantagem 154 Em resumo: Anotação fundada na estrutura gráfica Anotação fundada em
  • 156. Segunda vantagem 156 2. A segunda vantagem da nova versão está ligada a sua disponibilização em ambiente de nuvem. Em tese, uma ferramenta que não precisa ser “baixada” por cada usuário permite que as novas versões e melhoramentos sejam imediatamente disponíveis para todos os usuários, entre outras vantagens apontadas por Veronesi 2014.
  • 158. Primeiro problema 158 1. O primeiro problema está ligado à segunda vantagem. Nem todos os usuários sentem-se confortáveis com uma ferramenta que nunca está disponível localmente - a dependência de todo um projeto ao acesso a um servidor remoto, muitas vezes em outro continente, passível de problemas e quedas, etc., não é desejada pela maioria. Do outro lado, o funcionamento “em nuvem” traz à equipe de desenvolvedores da ferramenta uma grande responsabilidade, pois precisam manter e tornar disponível algo que forma a base das pesquisas de muitos grupos. A solução desse
  • 159. Primeiro problema 159 1. O primeiro problema está ligado à segunda vantagem. Nem todos os usuários sentem-se confortáveis com uma ferramenta que nunca está disponível localmente - a dependência de todo um projeto ao acesso a um servidor remoto, muitas vezes em outro continente, passível de problemas e quedas, etc., não é desejada pela maioria. Do outro lado, o funcionamento “em nuvem” traz à equipe de desenvolvedores da ferramenta uma grande responsabilidade, pois precisam manter e tornar disponível algo que forma a base das pesquisas de muitos grupos. A solução, em princípio, não parece complexa: seria possível implementar uma ferramenta híbrida, com versão em nuvem e local. Mas isso
  • 161. Segundo problema 161 1.O segundo problema está fortemente ligado ao primeiro. Para que o funcionamento “em nuvem” seja garantido, é preciso haver uma equipe de desenvolvedores dedicados; mesmo para se fazer uma ferramenta híbrida, com versão em nuvem e local, é necessário termos uma equipe. O fato, entretanto, é que o eDictor nunca contou com uma equipe dedicada.
  • 162. Segundo problema 162 1.O segundo problema está fortemente ligado ao primeiro. Para que o funcionamento “em nuvem” seja garantido, é preciso haver uma equipe de desenvolvedores dedicados; mesmo para se fazer uma ferramenta híbrida, com versão em nuvem e local, é necessário termos uma equipe. O fato, entretanto, é que o eDictor nunca contou com uma equipe dedicada.
  • 164. Possível solução 164 A meu ver há uma medida que pode solucionar todos os problemas do eDictor. Deveríamos abrir o código-fonte tanto da versão 1.0 como da nova-versão web, enviá-lo a um portal de desenvolvedores, transformando o eDictor em uma ferramenta de construção colaborativa, por meio do uso de plataformas do tipo CSD - Collaborative Software Development Platforms. Esta sempre foi, de fato, a vocação dessa ferramenta.
  • 165. Possível solução 165 Desde o início, o eDictor foi construído em pequenas etapas, por diferentes pesquisadores vindos de diferentes formações, e com diferentes objetivos. Como vimos, isso trouxe problemas para as diferentes versões. Entretanto, é também daí que vem a força da ferramenta. A proposta, agora, seria assumir definitivamente a vocação “múltipla” dessa forma de desenvolvimento, e lançar a criança no mundo, esperando que ela construa agora seus próprios caminhos.
  • 166. Possível solução 166 Desde o início, o eDictor foi construído em pequenas etapas, por diferentes pesquisadores vindos de diferentes formações, e com diferentes objetivos. Como vimos, isso trouxe problemas para as diferentes versões. Entretanto, é também daí que vem a força da ferramenta. A proposta, agora, seria assumir definitivamente a vocação “múltipla” dessa forma de desenvolvimento, e lançar a criança no mundo, esperando que ela construa agora seus próprios caminhos.
  • 167. Desde o início, o eDictor foi construído em pequenas etapas, por diferentes pesquisadores vindos de diferentes formações, e com diferentes objetivos. Como vimos agora, isso trouxe problemas para as diferentes versões. Entretanto, é também daí, a meu ver, que vem a força da ferramenta. A proposta, agora, seria assumir definitivamente essa vocação “múltipla”, e digamos, “ bastarda” dessa forma de desenvolvimento, e
  • 169. Maria Clara Paixão de Sousa Universidade de São Paulo mariaclara@usp.br eDictor: histórico e perspectivas
  • 170. PAIXÃO DE SOUSA, M. C. eDictor: a chronology. Apresentação na mesa redonda “eDictor: advances and perspectives”. Workshop Construction and use of large annotated corpora. Campinas, Unicamp, 09/09/2013. [Slides - Slideshare] PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. E-Dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto. (Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010. [PDF] FARIA, P. P. F.; PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. An Integrated Tool for Annotating Historical Corpora. The Fourth Linguistic Annotation Workshop (LAW IV) at The 48th Annual Meeting of the Association for Computational Linguistics (ALC 2010), Uppsala, 2010. (Congresso). [PDF (poster)] PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do Português Brasileiro (PHPB), São Paulo, 2010. (Conferência). [PDF (slides)] PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital. I Workshop de Linguística Computacional da USP, 2009. (Conferência). [PDF(slides)] PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. VIII Encontro de Linguística de Corpus, Rio de Janeiro, 2009. (Comunicação). PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro. Resumos, 2009. [PDF (slides)] PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-Dictor: Uma ferramenta integrada para a anotação de edição e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007. [abrir página]
  • 171. eDictor 1.0 Beta 10 – Módulo Transcrição
  • 172. > XML
  • 176. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 177. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" ... /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 178. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" ... /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 179. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 180. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" exp="d@" exp="a"/> <t pos="73" value="CUNHA"/>
  • 181. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ" pos="NPR"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" exp="d@" exp="a"/> <t pos="73" value="CUNHA"/>
  • 182. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 183. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" ... /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 184. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" ... /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 185. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  • 186. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" exp="d@" exp="a"/> <t pos="73" value="CUNHA"/>
  • 187. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ" pos="NPR"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" exp="d@" exp="a"/> <t pos="73" value="CUNHA"/>
  • 188. XML - Código-base do eDictor Web
  • 189. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR"/></t> <t pos="70" value="ANTONIO"> <attributes part-of-speech=“NPR"/></t> <t pos="71" value="ROSADO"> <attributes part-of-speech=“NPR"/></t> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"> <attributes part-of-speech=“NPR”/></t>
  • 190. eDictor 1.0 Beta 10 – Módulo Transcrição
  • 191. eDictor 1.0 Beta 10 – Módulo Transcrição
  • 192. eDictor 1.0 Beta 10 – Módulo Edição
  • 193. eDictor 1.0 Beta 10 – Módulo Etiquetação
  • 194. eDictor 1.0 Beta 10 – Módulo Edição
  • 195. <page data-uid="1"> RELAÇÃO DA ENTRADA QUE FEZ O EXCELENTÍSSIMO, E REVERENDÍSSIMO SENHOR DOM FREI ANTONIO DO DESTERRO MALHEYRO Bispo do Rio de Janeiro, em o primeiro dia deste presente Ano de 1747 havendo sido seis Anos Bispo do Reino de Angola, donde por nomeação de Sua Magestade, e Bula Pontifícia, foi promovido para esta Diocese. COMPOSTA PELO DOUTOR LUIZ ANTONIO ROSADO DA CUNHA Juiz de Fora, e Provedor dos defuntos, e ausentes, Capelas, e Residos do Rio de Janeiro. RIO DE JANEIRO Na Segunda Oficina de ANTONIO ISIDORO DA FONCECA. Ano de M. CC. XLVII. Com licenças do Senhor Bispo. </page> Versão Web – em teste

Notas do Editor

  1. Humanidades Digitais e o Editor de Textos E-Dictor TECIDO! TECIDO! TECIDO!
  2. Humanidades Digitais e o Editor de Textos E-Dictor TECIDO! TECIDO! TECIDO!
  3. Humanidades Digitais e o Editor de Textos E-Dictor TECIDO! TECIDO! TECIDO!
  4. Humanidades Digitais e o Editor de Textos E-Dictor
  5. Humanidades Digitais e o Editor de Textos E-Dictor
  6. Humanidades Digitais e o Editor de Textos E-Dictor
  7. https://www.dropbox.com/sh/pnxotfuab574owe/v0H5Eeux72/2010_PAIXAODESOUSA_KEPLER_FARIA_EDictor.pdf
  8. The preliminary ideas that would result in the development of eDictor in 2007 started in 2004 with a project that aimed at restructuring the text-preparation system at the Tycho Brahe Corpus. Essentially, the idea was that the Corpus would be constituted of single-source documents that could contain all relevant annotations (textual, philological, linguistic). This was achieved in partnership with computer scientist Thorsten Trippel, from the University of Bielefeld. He suggested we used the XML annotation language to re-encode the Corpus, and XSLT to transform each document into different presentations of the encoded information. PAIXÃO DE SOUSA, M.C. Memórias do Texto: Aspectos tecnológicos na construção de um corpus histórico do português. Post-doc Research Project, 2004-2007. Unicamp/Fapesp.
  9. Our central idea was to encapsulate edition interferences at the word level, i.e. for each token in the corpus – so that each element of the pair would be available to different modules of analysis. This first idea was applied to a few pilot texts, and published as a poster at the annual conference of the ALLC in 2004 In 2005, the Corpus went through a complete re-encoding process. The restructured Corpus was composed of XML documents that, via XSLT transformations, would render different (HTML and TXT) versions, adequate for different visualization and processing needs, as we had originally planned. Along with the application of the new single-source system to the Corpus, new ideas started to pop up. Some of them were carried on, some were not. The main thing that we wanted to do back then and still have not done is... ... to integrate syntactic annotation into this same, single-source system..
  10. Other ideas were a little more fruitful: the integration of other, less complex levels of linguistic annotation (such as items of lexicological interest); and the expansion of the system to include the possibility of critical editions, in which more than one version of the same text could be compared.
  11. By 2006 the single-source encoding system was mature; a first manual was prepared and a more complete paper on these results was published.
  12. Meanwhile... ... as the system was presented to a wider range of potential users outside Tycho Brahe, new challenges emerged. The 1st annotation workshop outside the Tycho Brahe team, in 2006 in Salvador, was an important breakthrough. It was then that we noticed that the original techniques used to annotate the XML documents (“by hand”, in E-Macs) and to transform them (by coding XSL into the system via Saxon) was not adequate for teams with a less computational, and more philological background.
  13. After the workshop in 2006 it became clear that if we wanted more teams to use the single-source annotation system, we would have to build a software that could perform the annotation and transformation tasks in a user-friendly interface. In other words... it was then that the idea of eDictor took shape.
  14. eDictor beta 1.0 was developed in 2007 by Prof. Fabio N. Kepler (then a post-graduate student at IME-USP’s computer science program), and was first presented in the same year at the VI Encontro de Linguística de Corpus, at USP. Plus... it included a morphosyntactic tagging function! This first version of eDictor contained the core functions of the original text encoding system: an XML annotation module and the possibility of XSLT transformation exportation.
  15. The second important aspect was that, while up to 2008 the main application of the single-source system (first manually and later with eDictor) was the restructuring of the Tycho Brahe Corpus, after 2008 the system started to be used beyond Tycho Brahe. This was important because, as the different projects have different aims, the tool started to include new technical aspects. >>> maior flexibilidade das categorias por causa de manuscritos e outros usos específicos: correção de OCR, marcação lexical.
  16. For instance, in 2009 eDictor started to be used by the Brasiliana USP team. One of the main particularities of this context was that eDictor was used as a corrector for automatic character recognition (OCR) – and new edition categories had to be created.
  17. More importantly, researchers that used manuscript documents became interested in eDictor. The special needs of this kind of material led to very important developments in the tool. The first group of manuscript documents to be worked with the tool was the corpus of XIXth century letters from the PhD thesis of Zenaide Carneiro (2005) – now part of the corpus CEDOH. The edition of this corpus in XML had been idealized at the time of the 2006 workshop in Salvador - and from the start, it brought to the development of eDictor the challenge of dealing with particular categories and edition needs of manuscripts. One important example of developments brought by the needs of manuscript editors are the fac-simile view functionalities. They were developed by Pablo Faria after eDictor started to be used by the team at CEDOH and by the team lead by Celia Lopes at LaborHistórico, at UFRJ.
  18. Some of these developments were presented at the VIII Encontro de Linguística de Corpus in 2009 by Pablo Faria; this presentation would be published as a book chapter in 2010.
  19. Two important publications were prepared during this period: a poster session at the ALC meeting of 2010, presented by P. Faria, and the chapter for the book “Caminhos da Linguística de Corpus”. In these papers we tried to cover the backgound on eDictor’s creation, the new developments, and the challenges ahead.
  20. The next development was….. escrever
  21. eDictor 1.0 beta build 010 is the current version under use. The main differences in comparison to beta 001 are the additions related to fac-simile integration (in transcription module and in export functionalities) and some bug-fixing in the editions module. But there are still bugs to be busted! In the end of 2012, a new, web-based version of eDictor was idealized by Luiz Veronesi, and is currently under construction
  22. http://www.tycho.iel.unicamp.br/redmine/projects/e-dictor/wiki
  23. O primeiro problema está ligado à segunda vantagem. Nem todos os usuários sentem-se confortáveis com uma ferramenta que nunca está disponível localmente - a dependência de todo um projeto ao acesso a um servidor remoto, muitas vezes em outro continente, passível de problemas e quedas, etc., não é desejada pela maioria. Do outro lado, o funcionamento “em nuvem” traz à equipe de desenvolvedores da ferramenta uma grande responsabilidade, pois precisam manter e tornar disponível algo que forma a base das pesquisas de muitos grupos. A solução desse problema, em princípio, não parece complexa: seria possível implementar uma ferramenta híbrida, com versão em nuvem e local. Mas isso nos leva ao segundo problema.
  24. Humanidades Digitais e o Editor de Textos E-Dictor
  25. Humanidades Digitais e o Editor de Textos E-Dictor
  26. Humanidades Digitais e o Editor de Textos E-Dictor