2011 (Nov.) Rita Marquilhas e Adriana Cardoso, «O Estilo do Crime: a análise de texto em estilística forense», XXVII Encontro Nacional da Associação Portuguesa de Linguística, Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa, Lisboa.
Análise de Estilo Forense de Textos sobre Mário Soares
1. XXVII Encontro Nacional da Associação Portuguesa de Linguística,
Faculdade de Ciências Sociais e Humanas da Universidade Nova de
Lisboa, 27 e 28 de outubro de 2011
O Estilo do Crime: a análise de
texto em estilística forense
Rita Marquilhas (CLUL)
Adriana Cardoso (CLUL/ESELx)
2. Apesar de, em teoria, os falantes poderem usar
qualquer palavra em qualquer altura, de facto eles
tendem
a
fazer
cosseleções
típicas
e
individualizadas de palavras. Como tal, deveria ser
possível criar um método de ‘impressão digital’
linguística; ou seja, as ‘impressões’ linguísticas dos
falantes deveriam poder ser usadas, tal como as
impressões digitais, para os identificar.
Contudo, pelo menos por agora, a prática está
_____________________
muito longe da teoria e __________________________________
não se consegue sequer
________________________________
imaginar a quantidade ou o tipo de dados
_______________________________________________________________________
necessários para caracterizar um idioleto, nem a
_______________________________________________________________________
forma como os dados, uma vez coligidos, deveriam
_______________________________________________________________________
ser analisados e armazenados.
_________________________________________
(traduzido de Coulthard & Johnson, 2007, p. 161)
3. Objetivos da apresentação
Refletir sobre a exequibilidade de
peritagens linguísticas para
identificação de autoria.
Aplicar as metodologias
desenvolvidas pela linguística
forense a um estudo de caso.
5. Enquadramento
Disciplinas da linguística que podem
apoiar a investigação destas fraudes:
• Análise do discurso;
• Pragmática;
• Sintaxe;
• Crítica textual;
• Linguística Histórica;
• Sociolinguística;
• Linguística de corpus.
6. Princípios
1. É possível que os falantes repitam um mesmo
estilo em sucessivos enunciados que escrevam.
Estilo: “o reflexo de uma variedade individual, ou de grupo, nos
enunciados escritos”;
Variedade individual: “resultado das escolhas de um autor, o
qual seleciona uma forma de entre um conjunto de formas
possíveis”;
Escolhas: “variedade dentro de uma norma (maneiras ‘corretas’
de dizer a mesma coisa), desvios em relação a uma norma
(erros) e idiossincrasias (formas específicas do autor)”.
(McMenamin, 2002, cap. 6)
7. Princípios
2. Princípio ético: o investigador tem de
trabalhar com o máximo grau de precaução.
Estratégia sugerida por Ernst Frederick Kotzé:
• O analista deve começar por tentar provar que os textos a
serem comparados são tão diferentes, que muito
provavelmente, ou mesmo certamente, não foram escritos
pela mesma pessoa.
• Se nessa altura, mediante a aplicação de um teste que mede
a originalidade das palavras (keyness), o analista não
conseguir provar que os dois conjuntos de textos apresentam
diferenças significativas, então está aberto o caminho para
se analisarem os textos nas suas correspondências mais
salientes.
(traduzido de Kotzé, 2010, p. 187)
9. Estudo de caso: cronologia
10 de Janeiro de 2009 (ou antes)
• Surge atribuído a Clara Ferreira
Alves (CFA) um texto com o
título Este é o maior fracasso
da democracia portuguesa.
(Blogue RB-Estudos, SA).
10. Estudo de caso: cronologia
5 de Dezembro de 2009
• Nota: Circula na Net mais um FALSO texto
com a minha assinatura; truncado, com
frases de uma crónica publicada no Expresso,
uma crítica ao sistema de Justiça. A coberto
de um FALSO endereço de Gmail com o meu
nome, as pessoas pensam que sou eu que
envio o texto. E o texto FALSO é citado,
linkado, recitado, relinkado. O FALSO texto
usa termos truculentos e idiotas. Que fazer?
Entregar, por ironia, o caso à Justiça? Não me
parece. (Expresso, 5 de Dezembro 2009)
11. Estudo de caso: cronologia
12 de Janeiro de 2009
• No blogue 5dias.net, Ricardo Santos Pinto (RSP)
publicou Momentos de Lucidez insultando Mário
Soares.
Abril de 2009
• Um comentário de um visitante do 5dias.net avisa
que o texto circula sob o nome de CFA e RSP
responde ao comentário reclamando para si a
autoria do texto.
12. Estudo de caso: cronologia
Maio de 2009
• CFA denuncia o caso numa nota à sua
coluna do Expresso.
• Nota: Circula na net e na blogosfera um
falso texto com a minha assinatura, que
aparece como tendo sido publicado no
Expresso, e que é um enunciado de
injúrias a Mário Soares. O falsificador,
anónimo, usou o meu nome para
caluniar.
13. Estudo de caso: cronologia
16 de Abril de 2011
•CFA escreve uma crónica inteira
dedicada aos dois casos: o dos
insultos a Mário Soares e o da
montagem a partir da sua
crónica sobre justiça
portuguesa.
14. Questões…
«Se se desconhecesse a autoria da crónica sobre
Mário Soares, publicada originalmente com o título
Momentos de lucidez, a linguística forense poder-nos-ia ajudar a provar que ela não tinha sido escrita por
CFA?».
«E se se desconfiasse de RSP enquanto possível autor
desse texto, havia maneira de provar que os
Momentos de lucidez obedecem ao seu estilo
individual?»
15. Metodologia
1. Seleção de amostras textuais
• Texto Q
• Amostra CFA
• 12 crónicas
• método da amostragem sistemática: a primeira
crónica de cada mês publicada na Única em 2009.
• 10K palavras
• designação recebida: NUCLEAR
16. Metodologia
1. Seleção de amostras textuais
• Amostra RSP
• 12 crónicas
• método aleatório: publicações no blogue
entre Janeiro e Março de 2009
• 10K palavras
• designação recebida: SECUNDÁRIO
17. Metodologia
2. Programa de estatística lexical
• O WordSmith Tools permite:
• extrair todas as palavras individuais que ocorrem num texto e
listá-las, quer alfabeticamente, quer por ordem de frequência
(listas de palavras);
• listar e marcar graficamente palavras e cadeias de palavras
dentro do contexto em que ocorrem no texto
(concordâncias);
• listar as palavras características de um texto em comparação
com as de outro, acompanhadas da indicação do grau de
originalidade (keyness) que atingem (palavras-chave).
18. Metodologia
3. Interpretação dos resultados
• Princípio defendido no estudo discursivo de corpora
(Groom, 2010); na psicologia social (Chung & Pennebaker,
2007); e em linguística forense (Kotzé, 2010):
• As palavras de classe fechada (determinantes, pronomes,
preposições, conjunções, verbos auxiliares e alguns
advérbios primitivos) e a sua distribuição num texto
fornecem uma base sólida para o estudo quer de
discursos especializados, quer de estados psicológicos,
quer de estilos de escrita individual.
19. Análise do discurso guiada por corpus
(corpus-driven discourse analysis)
• As palavras de classe fechada constituem
uma base válida e até preferível para a
análise linguística dos discursos
especializados (Groom, 2010, p. 59).
20. Psicologia Social
• Com base em procedimentos de análise de
texto, temos verificado que o exame daquelas
‘palavras-lixo’ (junk words) frequentemente
ignoradas, formalmente designadas de
palavras funcionais ou partículas, pode
fornecer uma perspetiva esclarecedora da
psique humana (Chung e Pennebaker, 2007, p.
344).
21. Estilística Forense
• São de esperar algumas diferenças significativas
entre documentos escritos pela mesma pessoa,
sobretudo se pensarmos em termos de palavras
lexicais.
• Já as diferenças significativas entre o uso de palavras
gramaticais em documentos diferentes são
indicativas de diferentes vocabulários gramaticais,
sobretudo se se mantiver o mesmo estilo de
escrita.(Kotzé, 2010, p. 188).
22. Resultados: análise estatística
Análise contrastiva das palavras-chave em Q, NUCLEAR e
SECUNDÁRIO.
• lista de palavras dos 3 documentos;
• aplicação automática de um teste de probabilidade
para determinar a originalidade (ou keyness) de cada
palavra;
• teste de probabilidade: qui quadrado ou o do
algoritmo de verosimilhança;
• frequência de cada palavra num documento e
percentagem do texto representada por uma
palavra específica;
• diferenças significativas entre documentos.
24. Originalidade das palavras de classe
fechada
Originalidade das palavras de classe fechada no
documento NUCLEAR
100
10
13.5
7.9 6.9 6.1
5.7 5.4 5.1 5.1
4.2 3.9
1
não uma as
a nem é
era ou que eu
Originalidade
25. Originalidade das palavras de classe
fechada
Originalidade das palavras de classe fechada
em NUCLEAR vs CRPC (+ palavra lexical
mais original, cherne )
10000
5778
1000
290
100
162
140
101
69
68
67
63
42
10
U
N
S
N
AD
A
U
E
Q
U
M
TÃ
O
N
IN
G
U
ÉM
É
ES
N
EM
E
N
ÃO
C
H
E
R
N
E
1
39
Originalidade
26. Originalidade das palavras de classe
fechada
Originalidade das palavras de classe fechada
no documento SECUNDÁRIO
10
7
5.7
5.6
4.7
4
3
1
os
se
o
do
um
de
Originalidade
27. Originalidade das palavras de classe
fechada
Originalidade das palavras de classe fechada em
SECUNDARIO vs CRPC (+ palavra lexical mais
original, Câncio)
100000
25842
10000
1000
100
75
71
54
41
37
37
33
27
10
23
21
1
CÂNCIO
É
NÃO
QUE
A
QUEM APÓS MESMO
DO
AQUI
NO
Originalidade
30. Originalidade de palavras de classe fechada - Q
Com Referência a NUCLEAR
Palavras
Com Referência a SECUNDARIO
Originalidade
Palavras
Originalidade
LHE
190
LHE
266
A
12
QUE
11
QUE
10
A
10
APÓS
4
NUM
4
DESSA
4
31. Metodologia
Análise qualitativa
• Foco do estudo qualitativo da escrita:
• descrição sistemática das formas que são usadas por um
escritor;
• como e porque é que essas formas são usadas.
• Etapas:
(McMenamin, 2002, cap. 9)
• Observação sistemática de corpora;
• Identificação de marcadores de estilo;
• Descrição;
• Comparação;
• Conclusões.
32. Metodologia
Análise qualitativa
• Identificação de marcadores de estilo que possam
individualizar um autor:
• desvios à norma;
• variação dentro da norma.
• Marcadores de estilo escolhidos de entre os diferentes níveis
de análise/representação linguística:
• pontuação;
• ortografia;
• sintaxe;
• léxico;
• organização textual.
33. Análise qualitativa
A tarefa de análise qualitativa é
facilitada quando o autor:
• não domina a norma-padrão;
• não domina com mestria o género
textual que adota.
34. Análise qualitativa de Q
O texto Q levanta alguns problemas
para a análise qualitativa:
• não exibe desvios significativos relativamente à
norma-padrão;
• o autor domina com mestria o género textual que
adota;
• no texto há repetição exaustiva de uma mesma
estrutura sintática: GNs constituídos por um núcleo
modificado por um oração relativa restritiva.
35. Excerto
A lucidezque lhe permitiu escapar à PIDE e passar
um bom par de anos, num exílio dourado, em
hotéis de luxo de Paris. A lucidezque lhe permitiu
conduzir da forma «brilhante» que se viu o
processo de descolonização. A lucidezque lhe
permitiu conseguir que os Estados Unidos
financiassem o PS durante os primeiros anos da
Democracia. A lucidezque o fez meter o
socialismo na gaveta durante a sua experiência
governativa.
36. Marcador de estilo partilhado…
A ocorrência de GNs marcados graficamente como
frases é frequente em NUCLEAR…
• Lembrei-me de crepes chineses, nem sei porquê.
Crepes chineses gigantes, enrolados em
cobertores e lençóis sujos. (CFA5)
• O Muro matou cerca de 200 pessoas. No mundo
em que vivemos é provável que o Muro se torne
apenas uma efeméride. Uma fotografia. Uma
memória. (CFA11)
• Tantos anos passaram, tanto dinheiro mudou de
mãos, e eles ainda ali estão, os sem-abrigo.
Vestígios arqueológicos de uma civilização
ferida. (CFA5)
37. Marcador de estilo partilhado…
E também em SECUNDÁRIO…
• Na área das transmissões televisivas, a
Controlinveste tem lucros anuais de 150 milhões
de euros. Uma margem obscena, conseguida à
custa do sufoco dos clubes e do adiantamento
de verbas em troca de mais anos de contrato.
(RSP3)
• Em segundo lugar, porque, apesar das
divergências que culminaram na sua saída, faz
parte da história do «5 Dias». Ela e todos
aqueles que sairam na mesma altura (RSP5)
40. Uso de aspas
Em Q, só ocorrem aspas (e nunca aspas altas):
• A lucidez que lhe permitiu conduzir da forma
«brilhante» que se viu o processo de descolonização.
• A lucidez que lhe permitiu governar sem ler os
«dossiers».
• A lucidez que lhe permitiu, após a vitória nessas
eleições, fundar um grupo empresarial, a Emaudio,
com «testas de ferro» no comando.
• A lucidez que lhe permitiu silenciar, através de
pressões sobre o director do «Público», José Manuel
Fernandes.
• A lucidez que lhe permitiu considerar José Sócrates «o
pior do guterrismo».
41. Uso de aspas
Em NUCLEAR, só ocorrem aspas altas (e
nunca aspas):
• interpretando a vitória do PS como mais um fenómeno da "sorte" de Sócrates (CFA10)
• Seria bom que a sibila se deixasse de pronunciamentos vagos, apagasse a fogueira da
instabilidade e se comportasse como o primeiro magistrado da nação, refém da unidade
nacional e não de intrigas e "manobras pífias", para citar o desassossegado director do
"Público"(CFA10)
• O filme de Michael Moore, "Capitalismo, Uma História de Amor", é muito claro (CFA12)
42. Uso de aspas
Em SECUNDÁRIO, ocorrem aspas e aspas altas:
• Aliás, «rebenta» nessa altura a primeira grande
polémica do ano, com o director-geral da ASAE, António
Nunes, a ser apanhado a fumar depois da meia-noite.
Nuno Ramos de Almeida, num «post» intitulado «Bem
prega Frei Tomás» e acompanhado por uma ilustração
do Irmaolúcia, também se refere a este assunto.
• Ainda sobre o mesmo assunto, e após um texto de João
Pinto e Castro a defender, como sempre, a Ministra, Rui
Tavares refere que «insistir numa reforma apenas
porque é “impopular” é uma desculpa fácil. Difícil é
fazer uma reforma compreensível e motivadora para
quem vai ter de participar nela. Mas às vezes é
possível, e nesses casos é essencial.» (RSP1)
43. Uso de aspas
Com base no uso de aspas, conclui-se que parece
haver maior semelhança autoral entre Q e o grupo
SECUNDÁRIO do que entre Q e NUCLEAR.
O facto de Q não exibir aspas altas pode dever- se simplesmente à inexistência de contextos que
envolvam o uso de aspas no interior de citação.
44. Uso de aspas
Precaução
• O uso de aspas/aspas altas pode ser determinado pela
política editorial das publicações. Assim, poder-se-ia
pensar que em NUCLEAR só se usam aspas altas por
imposição do livro de estilo do Expresso.
• Neste caso, porém, tal corroboraria a análise aqui
proposta. Q “aparece como tendo sido publicado no
Expresso” (CFA). Ora tal hipótese seria infirmada
precisamente pelo facto de Q não seguir as normas de
estilo da referida publicação.
45. Uso de reticências
• Nos textos em análise, as reticências podem
ocorrer em posição medial ou final de frase:
46. Uso de reticências
Em termos quantitativos, a distribuição das reticências
em NUCLEAR e SECUNDÁRIO é semelhante.
Contudo, o valor estilístico associado ao uso de
reticências não é equivalente.
47. Reticências em posição medial
Em NUCLEAR as reticências são utilizadas, no corpo do
texto, para substituir letras ou palavras e, no título de uma
crónica, para traduzir graficamente uma enumeração
elidida, que logo a seguir aparece explícita na expressão ‘e
do resto’.
• e quando for lá de certeza que lhe ligo, ou o
contrário, se vier por cá, ligue-me e vamos...
preencher o pontilhado com o verbo que lhe calhar
melhor. (CFA1)
• As respostas variaram entre isto: "Aquilo dos
mariconços casados? Que pan...ice. (CFA3)
• A desordem dos advogados... e do resto (CFA6)
48. Reticências em posição medial
Em SECUNDÁRIO, as reticências ocorrem apenas no corpo
do texto e têm um valor estilístico claro: o de introduzir
uma nota de suspense, com valor marcadamente irónico
(este valor poderia ser parafraseado por: nem mais nem
menos...; ).
• e sabemos também que o ministro Augusto Santos
Silva acusa os professores de não saberem distinguir
entre Salazar e a democracia e compara o paladino da
liberdade, Mário Soares, com… Mário Nogueira
(RSP1)
• Entretanto, o mês termina com a polémica dos
contentores de Alcântara e com o incrível
alargamento da concessão ao grupo… Mota-Engil de
Jorge Coelho (RSP2)
49. Reticências em posição medial
Ora é precisamente este valor que se encontra em duas
das ocorrências de Q:
• A lucidez que lhe permitiu que o Estado lhe
arrendasse e lhe pagasse um gabinete, a que
tinha direito como ex-Presidente da
República, na… Fundação Mário Soares.
• A lucidez que lhe permitiu fazer obras no
Colégio Moderno, propriedade da família,
sem licença municipal, numa altura em que o
Presidente era… João Soares.
50. Uso de reticências
Conclui-se assim que o valor estilístico associado
ao uso de reticências, ainda que não possa
determinar per se que se suspeite de uma
coincidência autoral, pode contribuir, em
conjunto com outros traços linguísticos, para
apoiar a tese de coincidência autoral entre Q e
SECUNDÁRIO.
51. Conclusões
A aplicação dos testes estatísticos e da análise
qualitativa aos documentos em análise não teve
resultados excelentes:
- Estrutura de Q;
- CFA e RSP têm um estilo semelhante.
A metodologia apresentada só pode determinar a
autoria de um texto havendo suspeita de indivíduos
particulares; não é possível determinar autoria de um
texto entre um universo ilimitado de autores.
52. Conclusões
Vantagens no empreendimento de análises
independentes: análise estatística vs qualitativa.
Especificidades da composição e da leitura do texto
em função do seu circuito de circulação: a rede global
ou a difusão em papel.
Vantagens em poder contar com amostras textuais
robustas: quanto menores forem as amostras, menos
fidedignos são os resultados das respetivas análises.
53. Referências
• Chung, C., &Pennebaker, J. (2007). The psychological functions of function
words. Em K. Fiedler (Ed.), Social Communication (pp. 343-359). New York
& Hove: Psychology Press.
• Coulthard, M., & Johnson, A. (2007). An introduction to forensic linguistics
: language in evidence. London & New York: Routledge.
• Groom, N. (2010). Closed-class keywords and corpus-driven discpurse
analysis. Em M. Bondi& M. Scott (Eds.), Keyness in Texts (pp. 59-78).
Amsterdam & Philadelphia: John Benjamins Pub. Co.
• Kotzé, E. F. (2010). Author identification from opposing perspectives in
forensic linguistics. Southern African Linguistics and Applied Language
Studies, 28(2), 185-197.
• Marquilhas, R. & Cardoso, A. (28 outubro, 2011). O Estilo do Crime: a
análise de textoemestilísticaforense. Comunicaçãoapresentada no XXVII
EncontroNacionaldaAssociação Portuguesa de Linguística. Lisboa,
Faculdade de CiênciasSociaiseHumanasdaUniversidade de Lisboa.
• McMenamin, G. (2002). Forensic Linguistics: Advances in Forensic
Stylistics. Boca Raton Fla.: CRC Press.
• Scott, M. (2005). WordSmith Tools 5.0. Oxford: Oxford Univ. Press.