e-dictor - uma ferramenta para as humanidades digitais
25 de Apr de 2014•0 gostou
0 gostaram
Seja o primeiro a gostar disto
mostrar mais
•1,102 visualizações
visualizações
Vistos totais
0
No Slideshare
0
De incorporações
0
Número de incorporações
0
Baixar para ler offline
Denunciar
Apresentações e oratória
Slides da palestra "e-dictor - uma ferramenta para as humanidades digitais", na Semana do Libolo. Universidade de São Paulo, 24 de abrril de 2014 - Maria Clara Paixão de Sousa.
e-dictor - uma ferramenta para as humanidades digitais
São Paulo, 24 de abril de 2014
Semana do Projeto Libolo
CEA | Universidade de São Paulo
Semana do Projeto Libolo
Centro de Estudos Africanos
Universidade de São Paulo
São Paulo, 24 de abril de 2014
Maria Clara Paixão de Sousa
Grupo de Pesquisas Humanidades Digitais
Departamento de Letras Clássicas e Vernáculas
Uma Ferramenta para as
Humanidades Digitaisdictore
> Versão 1.0 Beta 10
dictore
Usada atualmente por seis
grupos de pesquisa no
Brasil e em Portugal
> Versão 1.0 Beta 10
dictore
Usada atualmente por seis
grupos de pesquisa no
Brasil e em Portugal
Corpus Anotado do Português
Histórico Tycho Brahe,
(Universidade Estadual de Campinas)
Grupo de Pesquisas
Humanidades Digitais
(Universidade de São Paulo)
P.S. Arquivo Digital de Escrita Quotidiana em
Portugal e Espanha na Época Moderna
(Universidade de Lisboa)
Corpus Eletrônico de
Documentos Históricos do Sertão,
CEDOHS (Universidade Federal de Feira de Santana)
Laboratório de História do Português Brasileiro
(Universidade Federal do Rio de Janeiro)
Memória Conquistense
(Universidade Estadual do Sudoeste da Bahia)
> Versão 1.0 Beta 10
dictore
Exemplo de aplicação: edição
de obras raras digitalizadas
- Projeto Edições Filológicas na
Brasiliana Digital, 2009-2013
Bibioteca Brasiliana Guita e José Mindlin,
doada à Universidade de São Paulo em 2006:
40.000 obras dos séculos XVI a XXI…
RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E
REVERENDÍSSIMO SENHORD. F
RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em
o primeiro dia defle prtzente Anno de
1747,havendo fidoſeis Annos Biſpo do B,
eyno de Angola, donde por no-miacaõ de
Sua Mageftade, e Bulla Pontificia, foy
promovidopara ella Diocefi.
COMPOSTA PELO DOUTORLÜIZ
ANTONIO ROSADODA CUNHA£
fm de Fora, e Provedor dos defuntos, e
au-Z$nte$ y Capella*, c ReJĩdos do Rio
de Janeiro. RIO DE JANEIRO tía
Segunda Officina de ANTONIO ISID.
ORO DAĩONCECA, Anno de M. CC.
XLVII. Com licenças do Senhor Bijfo,
OCR
“Optical
Character
Recognition”
texto
i
m
a
g
e
m
RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E REVERENDÍSSIMO
SENHORD. F RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em o
primeiro dia defle prtzente Anno de 1747,havendo
fidoſeis Annos Biſpo do B, eyno de Angola, donde
por no-miacaõ de Sua Mageftade, e Bulla Pontificia,
foy promovidopara ella Diocefi. COMPOSTA
PELO DOUTORLÜIZ ANTONIO ROSADODA
CUNHA£ fm de Fora, e Provedor dos defuntos, e
au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro.
RIO DE JANEIRO tía Segunda Officina de
ANTONIO ISID. ORO DAĩONCECA, Anno de
M. CC. XLVII. Com licenças do Senhor Bijfo,?
Relação da entrada que fez o excelentíssimo,
e reverendíssimo senhor Dom Frei Antonio
do Desterro Malheiro, Bispo do Rio de
Janeiro, em o primeiro dia deste presente
Ano de 1747 havendo sido seis Anos Bispo
do Reino de Angola, donde por nomeação de
Sua Majestade, e Bula Pontifícia, foi
promovido para esta Diocese. Composta pelo
doutor Luiz Antonio Rosado da Cunha Juiz
de Fora, e Provedor dos defuntos, e ausentes,
Capelas, e Residos do Rio de Janeiro. Rio de
Janeiro, Na Segunda Oficina de Antonio
Isidoro da Fonseca, Ano de MCCXLVII.
Com licenças do Senhor Bispo.
!
CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo
senhor D. Fr. Antonio [...].Rio de
Janeiro : Na Segunda Oficina de
Antonio Isidoro da Fonseca,
1747.
CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo
senhor D. Fr. Antonio [...].Rio de
Janeiro : Na Segunda Oficina de
Antonio Isidoro da Fonseca,
1747.
O primeiro
livro impresso
no Brasil !
>
O Projeto Edições Filológicas na
Brasiliana Digital (2009-2013)
criou, com o eDictor, edições
corrigidas e modernizadas para
algumas obras do acervo, além de
um banco de dados de erros de
reconhecimento automático
(OCR).
> Versão 1.0 Beta 10
dictore
Outro exemplo de aplicação:
edição de manuscritos
(LaborHistórico e CEDOHS)
LaborHistorico
Laboratório de História do Português Brasileiro
Universidade Federal do Rio de Janeiro.
Coord. Célia Lopes
http://www.letras.ufrj.br/laborhistorico/
>
<page data-uid="1">
RELAÇÃO DA ENTRADA QUE FEZ O
EXCELENTÍSSIMO, E REVERENDÍSSIMO SENHOR
DOM FREI ANTONIO DO DESTERRO MALHEYRO
Bispo do Rio de Janeiro, em o primeiro dia deste presente
Ano de 1747 havendo sido seis Anos Bispo do Reino de
Angola, donde por nomeação de Sua Magestade, e Bula
Pontifícia, foi promovido para esta Diocese. COMPOSTA
PELO DOUTOR LUIZ ANTONIO ROSADO DA
CUNHA Juiz de Fora, e Provedor dos defuntos, e ausentes,
Capelas, e Residos do Rio de Janeiro. RIO DE JANEIRO
Na Segunda Oficina de ANTONIO ISIDORO DA
FONCECA. Ano de M. CC. XLVII. Com licenças do
Senhor Bispo.
</page>
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos
>
dictore
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos?
dictore
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos!
dictore
>
O que me importa?
dictoreA principal finalidade do eDictor
é oferecer uma interface amigável
aliada a um alto nível de controle
e flexibilidade na codificação de
textos eletrônicos com finalidade
de pesquisa linguística.
?
O que me importa?
dictoreA principal finalidade do eDictor
é oferecer uma interface amigável
aliada a um alto nível de controle
e flexibilidade na codificação de
textos eletrônicos com finalidade
de pesquisa linguística.
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
1É bom lembrar que
todo editor de textos é uma
ferramenta de anotação…
… a diferença é que nós não
temos nenhum controle sobre a
anotação dos editores comuns!
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
1É bom lembrar que
todo editor de textos é uma
ferramenta de anotação…
… a diferença é que nós não
temos nenhum controle sobre a
anotação dos editores comuns!
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
É bom lembrar que
todo editor de textos é uma
ferramenta de anotação…
… a diferença é que nós não
temos nenhum controle sobre a
anotação dos editores comuns!
1
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
Ou seja – o “texto digital”, i.e., o
arquivo eletrônico de texto, é
sempre um banco de dados, um
objeto lógico codificado por
alguma linguagem artificial.
1
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
Ou seja – o “texto digital”, i.e., o
arquivo eletrônico de texto, é
sempre um banco de dados, um
objeto lógico codificado por
alguma linguagem artificial.
1
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
Para algumas disciplinas, os
textos em sua materialidade são o
objeto de estudo; e nesses casos,
depender de codificações sobre
as qual não se tem controle pode
ser prejudicial à pesquisa.
1
mas... pra que a gente
precisa de “controle”
e “flexibilidade” ?
Além disso, construir a própria
anotação abre um leque de
possibilidades impensáveis nos
processadores comuns.
2
precisa de “controle”
e “flexibilidade” ?
De fato, isso proporciona novas
abordagens sobre a língua e
sobre o texto
2
precisa de “controle”
e “flexibilidade” ?
De fato, isso proporciona novas
abordagens sobre a língua e
sobre o texto – ou seja,
abordagens que seriam
impossíveis fora do meio digital.
2
precisa de “controle”
e “flexibilidade” ?
Um exemplo de abordagem
exclusiva do meio digital é a
análise linguística automática,
objeto da Linguística
Computacional.
2
precisa de “controle”
e “flexibilidade” ?
Um exemplo de abordagem
exclusiva do meio digital é a
análise linguística automática,
objeto da Linguística
Computacional. A próxima
palestra falará sobre isso!
2
precisa de “controle”
e “flexibilidade” ?
Há vários outros exemplos de
abordagens próprias do meio digital,
e elas vem sendo exploradas em
corpora construídos desde a década
de 1970.
2
precisa de “controle”
e “flexibilidade” ?
Há vários outros exemplos de
abordagens próprias do meio digital,
e elas vem sendo exploradas em
corpora construídos desde a década
de 1970. Vamos ver alguns casos
interessantes.
2
precisa de “controle”
e “flexibilidade” ?
Um ponto em comum liga todos
os exemplos mostrados:
>
Um ponto em comum liga todos
os exemplos mostrados:
todos tem por base uma
anotação XML, adaptada caso
a caso, segundo as diferentes
necessidades das pesquisas.
>
Era isso o que eu queria dizer sobre
“controle” e “flexibilidade”.
>
Era isso o que eu queria dizer sobre
“controle” e “flexibilidade”.
>
Ah, tá!
Há muitas definições para esse
termo, e muito debate sobre elas.
(veja alguns exemplos em
http://humanidadesdigitais.org/
sobre-as-humanidades-digitais )
>
Aqui, nos interessam dois pontos:
essa incursão das humanidades pelo
reino da técnica digital não refluirá
para as próprias humanidades?
>
Nunca é demais lembrar que as
Humanidades Digitais são uma
maneira de fazer Humanidades – ou
seja, não se trata de uma invasão
tecnógica nas ciências humanas,
mas sim de uma incursão das
ciências humanas pelo reino da
computação.
1
Os projetos em Humanidades
Digitais pretendem continuar
fazendo o que as humanidades
sempre fizeram, mas com novas
ferramentas.
1
Assim, a anotação digital cumpre, na
base, a mesma função da anotação
não-digital:
1
Assim, a anotação digital cumpre, na
base, a mesma função da anotação
não-digital: é a aplicação de uma
camada de representação sobre o
texto.
1
Assim, a anotação digital cumpre, na
base, a mesma função da anotação
não-digital: é a aplicação de uma
camada de representação sobre o
texto. Nesse sentido, a anotação é a
explicitação da interpretação de um
texto.
1
Assim, a anotação digital cumpre, na
base, a mesma função da anotação
não-digital: é a aplicação de uma
camada de representação sobre o
texto. Nesse sentido, a anotação é a
explicitação da interpretação de um
texto.
1
de uma
O texto anotado eletronicamente,
entretanto, abre a possibilidade de
inúmeras novas formas de
representação, como vimos.
1
O texto anotado eletronicamente,
entretanto, abre a possibilidade de
inúmeras novas formas de
representação, como vimos. De fato,
os elementos que anotamos se
transformam em dados, que podem
passar a fazer parte de bases de
dados abertas a diferentes cálculos e
visualizações.
1
PAIXÃO DE SOUSA, M. C. eDictor: a chronology. Apresentação na mesa redonda “eDictor: advances
and perspectives”. Workshop Construction and use
of large annotated corpora. Campinas, Unicamp, 09/09/2013. [Slides - Slideshare]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. E-Dictor: Novas perspectivas na codificação
e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto.
(Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010. [PDF]
FARIA, P. P. F.; PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. An Integrated Tool for Annotating
Historical Corpora. The Fourth Linguistic Annotation Workshop (LAW IV) at The 48th Annual
Meeting of the Association for Computational Linguistics (ALC 2010), Uppsala, 2010.
(Congresso). [PDF (poster)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos
antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do
Português Brasileiro (PHPB), São Paulo, 2010. (Conferência). [PDF (slides)]
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana
Digital. I Workshop de Linguística Computacional da USP, 2009. (Conferência). [PDF(slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. VIII Encontro de Linguística de Corpus, Rio de Janeiro, 2009.
(Comunicação).
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro.
Resumos, 2009. [PDF (slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-Dictor: Uma ferramenta integrada para a anotação de
edição e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007. [abrir página]