1) A análise de conteúdo é um método importante para pesquisa em comunicação política que quantifica as dimensões do conteúdo de mensagens.
2) Categorias para análise de conteúdo devem ser integras, mutuamente exclusivas e relevantes para responder às questões de pesquisa.
3) Amostras de texto para análise de conteúdo podem ser selecionadas de várias formas, incluindo censo, amostragem aleatória e intencional.
1. Análise de Conteúdo em Comunicação Política
William L. Benoit
Escola de Estudos de Comunicação Ohio University
A análise de conteúdo é um método extremamente importante para a pesquisa em
comunicação política. Apesar de estarem disponíveis outros métodos para a
compreensão de textos: qualitativos (ver, por exemplo, Berg, 2006; Creswell, 2007;
Denzin & Lincoln, 2005; Lindlof & Taylor, 2002) e críticos (ver, por exemplo,
Burgchardt, 2005; Foss, 2008; Hart & Daughton, 2005), a análise de conteúdo é um
meio de mensurar ou quantificar as dimensões do conteúdo das mensagens.
Lombard, Snyder-Duch, e Bracken (2002) explicam que o método de análise de
conteúdo "é especificamente adequado e necessário para (discutivelmente) o
trabalho central de estudiosos de comunicação, em particular aqueles que estudam
comunicação de massa: A análise de mensagens". Na verdade, eles
apropriadamente observam que esse método é "fundamental para a pesquisa em
comunicação (e, portanto, para a teoria)" (p. 587).
Não surpreendentemente, a análise de conteúdo tem sido amplamente utilizada
para descrever o conteúdo das mensagens de comunicação política (ver, por
exemplo, Benoit, 2007; Kaid & Johnston, 2001). A análise de conteúdo também é
frequentemente utilizada com outros métodos. Por exemplo, o estudo quintessencial
de agenda-setting combina análise de conteúdo das notícias da mídia com
pesquisas de consumidores de notícias (ver, por exemplo, McCombs, 2004;
McCombs e Shaw, 1972) para investigar as relações entre o conteúdo das notícias
e as atitudes dos consumidores de notícias. A importância deste método para a
teoria e pesquisa de comunicação é difícil subestimar. Além disso, ao contrário de
outros métodos de pesquisa, a análise de conteúdo surgiu na disciplina de
comunicação (por exemplo, a pesquisa quantitativa amplamente desenvolvida em
pesquisa agrícola [Wright, 1921]; muito do trabalho qualitativo inicial foi realizado em
antropologia e sociologia [Vidich & Lyman, 1998)]. Este capítulo irá discutir os
conceitos básicos de análise de conteúdo - a definição de "análise de conteúdo",
categorias de análise de conteúdo, a amostragem de textos, o processo de
codificação, confiabilidade e validade - e, em seguida, contrastar análise de
conteúdo humana e por computador.
Definições de "ANÁLISE DE CONTEÚDO"
Os estudiosos têm trabalhado para definir esse método de pesquisa por mais de
meio século (para discussões sobre a história da análise de conteúdo, ver
2. Krippendorff, 2004; Neuendorf, 2002). Eu vou comentar sobre algumas das
definições importantes na literatura antes de oferecer minha contribuição. Berelson
(1952) afirmou que "a análise de conteúdo é uma técnica de pesquisa para a
descrição objetiva, sistemática, e quantitativa do conteúdo manifesto da
comunicação" (p. 18). A análise de conteúdo se esforça para alcançar a
objetividade, mas seus utilizadores são seres humanos que atribuem significados
aos números produzidos por esse processo, por isso estou relutante em chamar a
análise de conteúdo de objetiva. As discussões sobre a objetividade nas notícias (e
jornalismo público) salientam a importante ideia de que podemos ressaltar a
objetividade no processo independente dos resultados desse processo (ver, por
exemplo, Holbert & Zubric, 2000; Westerstahl, 1983).
Outra definição comumente citada foi proposta por Holsti (1969): "A análise de
conteúdo é qualquer técnica para fazer inferências identificando objetiva e
sistematicamente as características especificadas de mensagens" (p. 14). Mais uma
vez, a objetividade é provavelmente melhor vista como uma meta do que uma
característica essencial desse método. Krippendorff (2004) declarou que "A análise
de conteúdo é uma técnica de pesquisa para formular inferências replicáveis e
válidas a partir de textos (ou de outras questões significativas) para os contextos de
seu uso" (p. 18, ênfase omitida). Essa definição é importante para salientar o
contexto de análise de conteúdo. Importante salientar que, é claro, nós não
queremos relatar os resultados de análises de conteúdo inválidas; no entanto, a
validade é provavelmente melhor considerada como existente em um processo
contínuo, o que significa que incluir validade como parte da definição iria exigir
formular um contraste entre inferências válidas e inválidas. Outra perspectiva sobre
a natureza da análise de conteúdo é fornecida por Riffe, Lacy e Fico (2005, p.25):
Análise de conteúdo quantitativa é o exame sistemático e replicável de
símbolos de comunicação, aos quais foram atribuídos valores numéricos de
acordo com as regras válidas de mensuração e a análise das relações que
envolvem esses valores através de métodos estatísticos, para descrever a
comunicação, fazer inferências sobre o seu significado, ou inferir a partir da
comunicação no seu contexto, tanto de produção como de consumo.
Esta definição incorpora muitas das ideias já mencionadas (sistemáticas,
replicáveis, válidas, inferências sobre o contexto), juntamente com duas novas
ideias. Primeiro, eles observam que "métodos estatísticos" são empregados na
análise de conteúdo. Contanto que essa afirmação possa incluir medidas de
tendência central, tais como meios, eu concordo. Grande parte da análise de
conteúdo usa estatística inferencial (por exemplo, testes de diferença ou
associação), é claro, mas eu não acredito que seja necessário ir além das
3. estatísticas descritivas para um estudo para se qualificar como análise de conteúdo.
Sua definição também observa explicitamente que é possível derivar inferências
sobre a produção e o consumo (recepção) de mensagens, o que é uma observação
importante. Tomando estas ideias em consideração, ofereço a seguinte definição de
"análise de conteúdo":
A mensuração das dimensões do conteúdo de uma mensagem ou uma
mensagem em um contexto. A análise de conteúdo pode ser empregada
para descrever um grupo de mensagens relacionadas, fazer inferências
sobre as fontes que produziram essas mensagens, ou fazer inferências
sobre a recepção dessas mensagens pelo seu público.
Eu tomo por certo que o processo é uma técnica de pesquisa sistemática e que o
pesquisador se esforça para alcançar objetividade, validade e confiabilidade. Quero
ressaltar que a análise de conteúdo em geral pode ter duas grandes abordagens:
agrupando textos em um conjunto de duas ou mais categorias e classificando textos
em uma escala de, digamos 1 a 7, o que representa uma qualidade de um texto.
Este capítulo é focado na primeira abordagem, mas eu quero reconhecer que a
análise de conteúdo às vezes usa uma abordagem de "classificação".
Com base especialmente nas ideias de Krippendorff (2004) e Riffe, Lacy e Fico
(2005), eu ofereço uma perspectiva multidimensional sobre o papel da análise de
conteúdo de comunicação (veja a Figura 14.1). A análise de conteúdo quantifica
dimensões (variáveis) de conteúdo em textos de mensagens.
4. FIGURA 14.1 análise de conteúdo da comunicação.
Junto com outros dados, é possível fazer várias inferências. Por exemplo, a análise
de conteúdo dos debates presidenciais das eleições gerais americanas de acordo
com o tema (política, caráter) mostra que 75% das declarações concernem à
política e 25% ao caráter. No entanto, se as mensagens da campanha política são
agrupadas de acordo com o fato de suas fontes serem democratas ou republicanas,
pode-se descobrir que os democratas tendem a enfatizar mais a política (77%,
72%), e menos o caráter (23%, 27%), do que os republicanos.
Se o pesquisador analisa a contexto (e expande a amostra para incluir debates
preliminares), torna-se claro que debates de eleição gerais nos EUA discutem mais
política (75%, 64%), e menos caráter (28%, 36%), do que debates primários. Se
olharmos para a mídia e analisarmos o exemplo dos comerciais presidenciais
americanos de TV, assim como os debates da campanha eleitoral geral, podemos
verificar que os debates enfatizam mais a política (75%, 62%), e menos o caráter
(25%, 38%), do que anúncios de televisão. Finalmente, se o público for considerado,
notamos que os candidatos que enfatizam mais política, e menos caráter, são mais
persuasivos com os eleitores; ou seja, eles são mais propensos a ganhar as
eleições (todos os dados de Benoit, 2007). Assim, a análise de conteúdo quantifica
as dimensões do conteúdo das mensagens. No entanto, quando outras variáveis – a
fonte, o contexto, a mídia e público - são incluídos na análise, pode-se tirar outros
tipos de conclusões a partir dos dados criados com a análise de conteúdo.
A análise de conteúdo concentra-se mais comumente em elementos verbais de
mensagens - palavras e ideias expressas em palavras: argumentos, reclamações,
temas. Essa ênfase na análise das dimensões verbais de mensagens é,
provavelmente, em parte, uma questão de conveniência: Nós escrevemos
(publicamos) e ensinamos principalmente através de palavras. É revelador que
falamos de "ajudas". Essa frase sugere que o elemento verbal é primário e que
elementos visuais são suplementares ("ajuda"). No entanto, os elementos visuais de
mensagens, muitas vezes referidos como imagens, são importantes, pois são
elementos não verbais de som, como música, efeitos sonoros, paralinguagem. Para
o trabalho de análise de imagens políticas, ver Grabe e Bucy (2009), Grabe (1996),
Kepplinger (1991), ou Kepplinger e Donsbach (1987), bem como o capítulo 12, este
volume.
CATEGORIAS DE ANÁLISE DE CONTEÚDO
5. As categorias empregadas na análise de conteúdo são de vital importância. Análise
de conteúdo quantitativa requer um conjunto de categorias que programadores
usam para atribuir valores numéricos a dimensões de mensagens.
Por exemplo, muitos estudos de agenda-setting (por exemplo, McCombs, 2004)
identificam um conjunto de questões - como o emprego, a educação, o crime, ou os
impostos - e contam o número de vezes que esses problemas ocorrem em uma
amostra de notícias. A pesquisa normalmente começa pela identificação de um
conjunto de categorias para mensurar o conteúdo das mensagens. Essas categorias
devem atender a três critérios importantes. Categorias para análise de conteúdo
devem ser íntegras, mutuamente exclusivas, e relevantes. As categorias devem ser
íntegras de modo que partes importantes do conteúdo não sejam negligenciadas.
Categorias devem ser mutuamente exclusivas, de modo que a parte do texto a ser
codificada possa ser colocada em apenas uma das categorias (essa hipótese é
particularmente importante para a análise estatística). Finalmente, as categorias
devem ser relevantes para o efeito (questões de pesquisa ou hipóteses) do estudo.
As categorias podem ser derivadas de duas maneiras, dedutiva ou indutiva. Um
pesquisador pode encontrar um conjunto de categorias na literatura que são
relevantes para o estudo em questão (por exemplo, Verser & Wicks, 2006). De
preferência, essas categorias devem ser derivadas da teoria, o que deve ajudar a
entender os dados que surgem da aplicação dessas categorias em textos. No
entanto, se nenhuma categoria de base teórica pode ser derivada, pode-se contar
com categorias encontradas na pesquisa anterior. Ambas as abordagens são
dedutivas: o pesquisador começa com um conjunto de categorias e aplica essas
categorias através da análise de conteúdo a um grupo de textos. Em contraste, os
pesquisadores também podem desenvolver suas próprias categorias indutivamente.
Isso pode ser feito através de uma leitura preliminar de textos para produzir uma
lista dos tópicos ou tipos de conteúdo (categorias) encontrados no texto. Uma
abordagem alternativa é a utilização de uma abordagem sistemática para gerar uma
lista de categorias, como acontece com a teoria fundamentada. Benoit e McHale
(2003) utilizaram o método de comparação constante (Glaser & Strauss, 1967) para
desenvolver uma lista das categorias utilizadas em anúncios televisivos
presidenciais para descrever as qualidades pessoais dos candidatos. Os autores
desenvolveram uma lista de quatro dimensões gerais (moralidade, direcionamento e
objetivos, sinceridade e empatia) e geraram termos de pesquisa para cada
dimensão. Uma vez que as categorias foram desenvolvidas indutivamente, a análise
de conteúdo computador foi utilizada para determinar a frequência relativa dessas
dimensões. Também é possível produzir categorias que são ordinais (por exemplo,
6. menos complexo, mais complexo, menos cruel, mais cruel), por intervalo (por
exemplo, atribuir a um elemento textual um valor de 1 a 7 para representar grau de
qualidade ou beleza), ou por proporção (por exemplo, comprimento de mensagem
em segundos). Dados de frequência são, provavelmente, o nível mais comum de
mensuração na análise de conteúdo.
TEXTOS DE AMOSTRAGEM
A análise de conteúdo é usada para mensurar as dimensões do teor de grupos de
mensagens, de modo que um estudo deve identificar uma amostra de textos.
Pesquisadores listam uma variedade de tipos de amostragem (por exemplo,
Krippendorff, 2004; Riffe, Lacy, e Fico, 2005). Cinco métodos são mais comumente
distinguidos. Uma amostra por censo inclui todos os membros de uma população.
Dado o fato de que a maioria dos conjuntos de textos irá muito provavelmente
continuar a acumular membros (por exemplo, debates presidenciais americanos), o
melhor que se pode obter geralmente é um censo durante o tempo em que a
amostra é coletada; relativamente poucos estudos utilizam um censo verdadeiro ou
completo. No entanto, em alguns casos, uma amostra censo é possível (por
exemplo, a análise de conteúdo de todos os episódios de um programa de televisão
que cessou a produção, tais como “The West Wing” ou o curta duração de drama,
“Commander in Chief”, estrelado por Geena Davis).
Sem dúvida uma das abordagens mais desejáveis é uma amostra aleatória da
população. Esse método de amostragem significa que não é preciso analisar todos
os membros da população (um censo). Além disso, como cada membro da
população, por definição, tem igual probabilidade de ser incluído na amostra, as
conclusões tiradas a partir da análise de conteúdo de amostras aleatórias de textos
são mais propensas a generalizar para a população do que conclusões baseadas
em formas propositais de amostragem. Ferris e colegas (2007) desenvolveram
amostra de reality shows de duas maneiras. Primeiro, eles gravaram aleatoriamente
programação de 18 canais, selecionando reality shows da amostra de vários tipos
de programação. Segundo, eles aleatoriamente tiraram amostras de programas
adicionais a partir de uma amostra limitada a reality shows. Amostras aleatórias de
textos ou programas podem ser estratificadas, o que significa que a população está
subdividida em grupos e de cada grupo (ou estrato) é formada uma amostra
aleatória. Dependendo quais estratos forem selecionados, a amostragem
estratificada aleatória assegura que certos grupos da população sejam
representados na amostra.
7. Uma das técnicas de amostragem mais comuns é a amostra de conveniência, a
qual consiste em textos que são facilmente (convenientemente) disponíveis para o
pesquisador (por exemplo, Robertson, et al., 1999). Obviamente, não se pode ter
certeza de que as conclusões derivadas deste tipo de amostra irá necessariamente
generalizar para a população. Infelizmente, os conjuntos de alguns tipos de textos
políticos (por exemplo, anúncios de televisão para prefeito, os debates para
deputado estadual, discussões face-a-face entre os cidadãos) simplesmente não
estão disponíveis para a amostragem; outras populações podem ser difíceis de
constituir amostras. O argumento para amostras de conveniência é que elas
fornecem melhores insights sobre o fenômeno da comunicação sob investigação do
que qualquer outra amostra. Claro, é preciso ter cuidado com as conclusões que
são tiradas de pesquisa empregando amostras de conveniência.
Outro tipo de amostragem, a intencional, envolve a seleção de textos para análise
com um objetivo específico (propósito) em mente. Por exemplo, estudos de notícias
podem querer concentrar-se nas três grandes redes de transmissão - ABC, CBS e
NBC - ao invés de fazer uma amostragem aleatória de todas as redes. Da mesma
forma, ao invés de incluir todos os jornais, ou mesmo todos os jornais com
circulação nacional, um estudo pode decidir apenas estudar textos do New York
Times, argumentando que esse é o único jornal mais influente.
O processo de codificação de textos
Uma vez que o pesquisador tem um conjunto de categorias e uma amostra de
textos, a análise real do conteúdo pode prosseguir. É importante desenvolver uma
tabela de codificação, às vezes referida como protocolo, e treinar os codificadores
no processo de codificação. Essa tabela deve especificar os conceitos-chave, como
a unidade de codificação, que especifica a parte do texto a ser codificada (por
exemplo, palavras, frases, parágrafos, fotos), assim como a unidade de contexto,
que especifica a maior parte do texto utilizado para interpretar uma dada unidade de
codificação. A tabela também deve descrever o processo de codificação, incluindo
quais os passos a seguir quando múltiplas variáveis são codificadas, fornecer
definições e exemplos de cada categoria, e oferecer regras de codificação
necessárias para orientar a aplicação das categorias de textos da amostra. A tabela
de codificação deve ser desenvolvida com a finalidade da pesquisa (questões de
pesquisa ou hipóteses) em mente. O objetivo de desenvolver a tabela de
codificação é especificar os procedimentos que permitirão ao pesquisador realizar o
propósito previsto para o estudo.
8. Com o processo de codificação agora padronizado, codificadores devem ser
treinados e devem praticar a codificação de textos semelhantes aos da amostra
para se certificarem de que eles estão aplicando a tabela como o pesquisador
pretende. É possível treinar codificadores utilizando textos da amostra coletada para
o estudo, mas, em seguida, a pesquisa deve decidir qual codificação é a "correta" e
adequada para o uso dos dados apresentados no estudo; essa questão não se
coloca quando os textos separados são usados para treinamento. Como qualquer
analista experiente sabe, pode ser frustrante ter codificadores analisando textos,
verificando a confiabilidade do trabalho do codificador após o término, e descobrir
que eles discordam tanto que não se pode estar seguro com os dados produzidos.
Apesar de tabelas de codificação poderem ser elaboradas para especificar os
procedimentos empregados no desenvolvimento de um conjunto de categorias
indutivamente, elas são mais comumente utilizadas para a análise de conteúdo
dedutiva. Os codificadores devem examinar cuidadosamente cada uma das
unidades de codificação no texto, tomando as decisões preconizadas na tabela e
registrando as descobertas resultantes, conforme especificado.
Confiabilidade e validade
Pesquisas analíticas de conteúdo podem ser avaliadas com dois conceitos:
confiabilidade e validade. Confiabilidade ocorre quando dois ou mais codificadores
concordam na análise de um conjunto comum de textos: é a variável (dimensão de
conteúdo) a ser medida de forma consistente? Confiabilidade é medida
numericamente. Quando dois (ou mais) codificadores discordam sobre como
categorizar um texto ou unidade de codificação, não temos nenhuma maneira de
saber qual interpretação a aceitar. Quando dois codificadores concordam, não
temos que escolher entre duas diferentes leituras de um texto e podemos ser mais
confiantes de que não estamos contando com uma interpretação idiossincrática dos
textos. Tendo em conta que os textos são produzidos - e consumidos - por seres
humanos, alguma ambiguidade, e, portanto, algum desacordo, entre os
codificadores pode ser esperado e deve ser tolerado. No entanto, quando os
codificadores discordam constantemente sobre o significado de um texto, não
podemos estar seguros sobre os dados produzidos. Assim, os estudos analíticos de
conteúdo devem medir a confiabilidade entre codificadores, tentar corrigir a baixa
confiabilidade (refinando a tabela de codificação e/ou reciclando o treinamento de
codificadores), e relatar confiabilidade.
Deve notar-se que os codificadores podem concordar por acaso, e com duas
categorias pode-se esperar que a concordância de 50% possa ocorrer apenas por
acaso. Consequentemente, os estudos de análise de conteúdo devem reportar
9. estatísticas de confiabilidade que controlem um acordo por acaso (por exemplo,
[1960] kappa, [2004] alfa de Krippendorff, [1955] pi de Scott Cohen). Simples acordo
entre os codificadores (por exemplo, Norte, et al., 1963) é menos adequado para
avaliar a confiabilidade do que as estatísticas que controlam acordo por acaso.
Também quero ressaltar que a confiabilidade entre codificadores deve ser calculada
sobre variáveis, não categorias. Assim, por exemplo, deve-se relatar a
confiabilidade de mensagens de campanha política (composta de duas categorias,
por exemplo, a política e o caráter) e não a presença/ausência de política e a
presença/ausência de caráter. Critérios de avaliação de categorias são relevantes
para os propósitos, a integridade e a exclusividade mútua da pesquisa. Além disso,
a confiabilidade deve ser relatada para cada variável e não como uma média, o que
pode mascarar os baixos níveis de confiabilidade para algumas variáveis, ou até
mesmo um intervalo. Para interpretações da aceitabilidade de vários níveis de
confiabilidade, consulte Fleiss (1981) ou Landis e Koch (1977).1
É bastante comum na análise de conteúdo distinguir entre conteúdo manifesto e
latente (ver Riffe, Lacy, e Fico, 2005). Conteúdo manifesto é a natureza óbvia,
explícita, de superfície ou denotativa de textos. Identificar as fontes citadas em uma
notícia - se uma citação é de um funcionário do governo, um oficial corporativo, um
especialista acadêmico ou cidadão - é um exemplo de análise do conteúdo
manifesto. A questão abordada em uma mensagem de campanha - tais como a
guerra no Iraque, o desemprego, a saúde ou a educação - pode ser outra instância
do conteúdo manifesto. Por outro lado, aspectos sutis, implícitos, conotativos do
texto ilustram conteúdo latente, exigindo inferência ou julgamento sobre a natureza
do conteúdo - avaliação em oposição à identificação de conteúdo. Por exemplo, a
identificação de qual emoção (por exemplo, medo, esperança, raiva, orgulho) é
expressa em uma mensagem que pode ser considerada conteúdo latente. Sátira ou
ironia são outros exemplos de conteúdo latente: o significado pretendido pela fonte
pode ser o oposto do conteúdo literal (manifesto) das palavras expressas.
Avaliar a qualidade de um texto atribuindo, por exemplo, um valor numérico para
características de mensagens como quão rigoroso, útil ou pertinente um
determinado texto possa ser, constitui outro exemplo de conteúdo latente. A análise
das características do conteúdo manifesto ("superfície") do texto, ao contrário do
conteúdo latente, significados baseados mais na inferência do que na observação
de mensagens políticas, é provável que seja mais confiável. Mas a análise de
conteúdo latente também pode ser útil e importante. Conteúdo nesse sentido
encontra-se em um processo contínuo - conteúdo latente e manifesto não é uma
dicotomia mutuamente exclusiva - e por isso é impossível encontrar sempre um
nítido contraste entre estes dois polos. Estudiosos de comunicação provavelmente
10. realizam mais análises de conteúdo que gravitam em direção ao fim manifesto do
conteúdo contínuo, porque lidar com o conteúdo latente (e tentar alcançar alta
confiabilidade com tais análises) é mais difícil do que investigar o conteúdo
manifesto.
Validade, em contraste, é até que ponto os dados mensuram o que a análise de
conteúdo é projetada para medir (ver Krippendorff, 2004; Riffe, Lacy, e Fico, 2005).
Este critério de avaliação de dados analíticos de conteúdo é mais difícil de medir do
que a confiabilidade: alguns estudos utilizando análise de conteúdo falham em
apresentar confiabilidade, e ainda mais estudos falham em discutir a validade. A
maioria dos estudos analíticos de conteúdo implicitamente oferece validade
aparente, a ideia de que as categorias fazem sentido após simples reflexão sobre a
natureza das categorias. Validade também pode ser demonstrada com correlação.
Quando dois estudos analisam o mesmo tipo básico de conteúdo com diferentes
procedimentos analíticos, os dois conjuntos de dados podem ser correlacionados.
Se existe uma forte relação entre os dois conjuntos de dados produzidos, isso
fornece suporte para a validade de cada conjunto de procedimentos. Assim, Geer
(2006, p 36) defende a validade de sua análise de conteúdo da publicidade
televisiva presidencial com base em comparações com os resultados de outras
análises desses textos:
Antes de aceitarmos a medida de negatividade [em anúncios de TV
presidenciais] relatada. . . como soa, é importante comparar meus resultados
com outras medidas de negatividade em relação ao mesmo período de
tempo. . . . Minha medida, por exemplo, se correlaciona 0,78 com a de
Jamieson, um impressionante 0,93 com a de Kaid e Johnston, e um
desconcertante 0,97 com a de Benoit.
Geer conclui que "dada a forte correlação entre nossas medidas, estou confiante de
que nossos dados estão seguindo o que queremos muito bem" (2006, pp 37-38).
Validade previsível mantém-se sobre a suposição de que a variável de mensagem
a ser quantificada através da análise de conteúdo é empiricamente relacionada a
algum efeito sobre o público. Se tal efeito pode ser medido, por exemplo, com dados
da pesquisa, e relaciona-se como o esperado aos resultados da análise de
conteúdo, essa relação pode servir como evidência de validade para a análise de
conteúdo. Desta forma, por exemplo, quando um estudo de agenda-setting constata
a relação prevista entre o conteúdo de notícias e as atitudes do público, essa
conclusão tende a reforçar a validade da análise de conteúdo.
11. Análise de Conteúdo feita por Humano X feita por Computador
Vários textos discutem análise de conteúdo de computador (Krippendorff, 2004;
Neuendorf, 2002; Riffe, Lacy, e Fico, 2005; West, 2001a, 2001b, ver também
webpages como Janda, 2008; Klein, 2008). Porque/Como a análise de conteúdo
feita por humanos e a feita por computador usam o mesmo método básico - análise
de conteúdo - elas compartilham a necessidade de uma base lógica, categorias de
confiança, uma amostra adequada, e assim por diante. No entanto, existem vários
locais nos quais estas duas abordagens se afastam. Em primeiro lugar, a análise de
conteúdo por computador requer arquivos de textos de computador presentes na
amostra. (A maior parte da análise de conteúdo por computador ainda investiga
dados textuais, mas à medida que softwares de reconhecimento facial e outras
técnicas visuais se tornam mais sofisticados, com certeza veremos a análise de
mais do que arquivos de texto.) Enquanto o mundo se torna cada vez mais digital, a
disponibilidade de arquivos de texto de computador está aumentando rapidamente.
Lexis-Nexis é um recurso particularmente útil para a análise de conteúdo por
computador. Também é possível digitalizar textos impressos em arquivos de
computador - e a tecnologia para fazê-lo está melhorando em qualidade (textos
digitalizados, provavelmente, ainda precisam ser examinados com o software de
processamento de texto para corrigir erros na conversão do texto impresso em
arquivo eletrônico). Além disso, alguns softwares de análise de conteúdo têm
requisitos de arquivos particulares (por exemplo, os arquivos devem ser salvos
como arquivos *. txt antes que a concordância possa analisá-los). O fato de que a
análise de conteúdo por computador requer arquivos digitais tem implicações para a
análise de conteúdo de materiais não textuais (por exemplo, imagens). Ainda assim,
pode não ser possível ou prático empregar a análise de conteúdo do computador
em alguns textos. O pesquisador que está considerando usar a análise de conteúdo
do computador deve determinar se arquivos de computador apropriados estão
disponíveis ou podem ser criados para a finalidade do estudo.
Análise de conteúdo por computador tem duas vantagens importantes em relação à
codificação humana. Em primeiro lugar, é de confiança. Dado os mesmos
parâmetros (por exemplo, listas de termos de busca e procedimentos idênticos), a
análise de conteúdo por computador irá invariavelmente produzir os mesmos
resultados em uma determinada amostra de textos. Codificadores humanos, como
discutido em relação à confiabilidade, são susceptíveis a discordarem em algumas
decisões de codificação. Ao contrário de codificação humana, um estudo não
precisa calcular a confiabilidade entre codificadores ao utilizar a análise de conteúdo
por computador. Uma segunda vantagem é que os computadores podem analisar
12. textos significativamente (exponencialmente) mais rapidamente do que os humanos.
Isso significa que a tarefa de codificação pode ser concluída antes ou que uma
amostra maior de textos pode ser processada com o computador do que com a
codificação humana.
**Por outro lado, ao contrário de confiabilidade, a questão da validade surge tanto
com a análise de conteúdo por computador como por humanos. Codificadores
humanos podem atribuir significado aos textos, ao passo que os computadores não
podem. Isso pode significar que os seres humanos podem lidar melhor com textos
vagos, desajeitadamente formulados, ou ambíguos: os textos são criados por e para
os seres humanos, por isso codificadores humanos podem ser capazes de
identificar nuances no texto não identificáveis para um programa de software.
Algumas pesquisas compararam a análise de conteúdo feita por computador e a
feita por humanos, com resultados mistos (Conway, 2006; Nacos et al., 1991);
parece inevitável que essas duas abordagens teriam níveis similares de
confiabilidade em algumas questões de pesquisa, mas variando validade em outras.
Em geral, os computadores são mais adequados para os estudos que analisam
textos para as dimensões de conteúdo que são mais manifestos; os seres humanos
são mais adequados para a análise de textos para dimensões latentes.
Um pesquisador que se propõe utilizar a análise de conteúdo de computador deve
se perguntar: Um programa de análise de conteúdo disponível será capaz de testar
a hipótese ou responder às questões de pesquisa postuladas na pesquisa? Análise
de conteúdo por computador tem vantagens, bem como limitações. Riffe, Lacy e
Fico (2005, p. 208) Identificam sete formas comuns de análise de conteúdo por
computador: contagem de palavras, palavra-chave-em-contexto (KWIC) e
concordâncias, dicionários, estrutura da linguagem, legibilidade, inteligência
artificial, e análise de conteúdo dinâmica (J. Bryant, comunicação pessoal; Franzosi,
1995; Holsti, 1969; Krippendorff, 2004; Weber, 1990).
Contagem de palavras, como o nome indica, quantifica o número de vezes que uma
determinada palavra aparece em certo texto. Programas de palavra-chave-em-contexto
listam todas as ocorrências de uma palavra (ou palavras), juntamente com
o contexto (palavras antes e depois da palavra alvo). Isso parece mais útil como
uma ajuda para interpretar o texto: ao olhar para o contexto imediato, pode-se
determinar, por exemplo, se a palavra "drogas" é utilizada para discutir crime
(drogas ilícitas) ou cuidados de saúde (medicamentos). Dicionários vão um passo
além da contagem de palavras, quantificando o número de instâncias de uma lista
13. de palavras que representam uma característica, uma qualidade, ou um tópico
comuns. Análise de conteúdo da estrutura da linguagem é projetada para identificar
características gramaticais de textos. Legibilidade diz respeito a quão fácil é
compreender um texto (clareza, simplicidade) e esse tipo de software muitas vezes
identifica o nível de ensino escolar para o qual um texto é apropriado. Finalmente, a
análise de conteúdo dinâmico mais parece ser um programa para analisar dados,
em que os pesquisadores introduzem sua codificação de textos visuais e o
computador procura relações entre os dados.
Eu gostaria de destacar dois programas de análise de conteúdo (ver Skalski [2002]
para uma lista), para ilustrar como eles podem ser usados em pesquisas. Petrocik,
Benoit, e Hansen (2003-04) empregaram a concordância (Watt, 2004) para
investigar as questões relacionadas ao conteúdo dos endereços e comerciais de TV
sobre a aceitação da nomeação do candidato presidencial. A teoria da "questão da
propriedade" de Petrocik (1996) inclui uma previsão de que os candidatos dos
partidos Democrata e Republicano irão apresentar uma tendência para enfatizar e
expressar familiaridade com diferentes conjuntos de questões. Diferentes questões
são consideradas como "propriedade" pelos dois partidos: a maioria das pessoas
acha que os democratas podem fazer um trabalho lidando com a educação, a
segurança social e os cuidados de saúde, ao passo que a maioria acredita que os
republicanos podem fazer um trabalho melhor lidando com a segurança nacional, o
crime e a tributação.
Para o estudo de Petrocik et al. (2003-04), a Concordância foi usada pela primeira
vez para produzir uma lista de todas as palavras que apareceram em anúncios
presidenciais de 1952 a 2000 (chamada de "concordância total"). Essas palavras
foram então agrupadas por codificadores como questões de propriedade
democráticas ou republicanas, como defesa nacional, emprego, saúde e educação
(palavras para qualidades pessoais, tais como honestidade ou força, foram
ignoradas). Em segundo lugar, essas listas de termos de questões foram aplicadas
pela Concordância aos textos de aceitação de endereços e anúncios de TV para
determinar a frequência relativa com que essas questões (como medido pela
frequência de palavras nas listas de questões) ocorreram nesses textos. Eles
descobriram que, na verdade, os candidatos democratas discutiam questões
"democráticas" mais do que os republicanos, e vice-versa. Essa pesquisa
exemplifica uma abordagem à análise de conteúdo por computador que se encaixa
no fim manifesto do conteúdo contínuo.
O Programa Dicção de Hart (2005) representa a abordagem de dicionário para a
análise de conteúdo por computador. Hart desenvolveu listas de palavras que
14. representam as qualidades do discurso, como a segurança, o otimismo, a atividade,
e realismo. Esses dicionários são, por sua vez, baseados em outros dicionários. Por
exemplo, "certeza" é definida por Hart (1984, p. 16) como:
Declarações indicando resolutividade, inflexibilidade e integridade. Termos
de nivelamento (tudo, todos), substantivos coletivos (bureau, departamento)
e verbos rígidos (irá, deve) trazem declarações asseguradas, enquanto
termos de qualificação (quase, pode), especificidade (por exemplo, citações
numéricas), e pronomes na primeira pessoa sinalizaram recusa do indivíduo
para falar ex cathedra.
Por sua vez, os principais dicionários são criados através de combinações de sub-dicionários.
Certeza é calculada com esta fórmula: [rigidez + nivelamento + coletivos
+ fator de potência] - [frequência numérica + qualificação + auto-referência +
variedade] (Hart, 1984, p. 293). Essas categorias foram aplicadas usando Dicção
para identificar os estilos retóricos de todos os presidentes desde Truman até
Reagan. Outros programas de análise de conteúdo de computador têm sido
desenvolvidos, com aplicações únicas e habilidades personalizadas, assim esses
exemplos são mais ilustrativos de como a análise de conteúdo pode ser empregada
em pesquisa de comunicação política ao invés de exaustivos. Os estudos acima
exemplificam o uso de análise de conteúdo por computador para investigar o
conteúdo que se encontra mais no final latente do processo contínuo (ver Dicção,
2008).
CONCLUSÃO
A análise de conteúdo de textos irá, sem dúvida, continuar a ser um marco em
pesquisa em comunicação política. Tendo em conta que os estudiosos abordam
questões de pesquisa com diferentes propósitos, podemos esperar que tanto a
análise de conteúdo por computador quanto por humanos ocupam lugares
importantes neste trabalho. Pesquisa em comunicação política coloca textos e seu
conteúdo na vanguarda da teoria e pesquisa. A análise de conteúdo não é a única
maneira de lidar com textos, mas é uma técnica bem estabelecida e importante para
quantificar as dimensões do conteúdo de mensagens políticas.
Se eu tivesse que identificar as áreas em que a análise de conteúdo de textos de
comunicação tem o maior potencial para o progresso, elas seriam a análise de
textos visuais e de áudio. Não pode haver nenhuma dúvida de que esses elementos
de textos são de fundamental importância: esses aspectos de textos podem reforçar
a mensagem verbal (por exemplo, um candidato declarando seu patriotismo com a
bandeira americana ao fundo), contradizer a mensagem verbal (ironia ou sarcasmo
15. indicado pelo tom de voz), ou até mesmo enviar uma mensagem diferente (por
exemplo, sinais sutis de racismo em meio a protestos sobre a importância da
igualdade de oportunidades). O fato de que o Google, por exemplo, permite a busca
de imagens bem como de sequências de texto é um desenvolvimento
potencialmente promissor. No entanto, a análise de conteúdo por computador deve
desenvolver abordagens inteiramente novas para a análise de textos que não
consistem em sequências de palavras (eu suspeito que a importância do
processamento de texto via computador, e a acessibilidade pronta de arquivos de
texto, facilitam o desenvolvimento de programas de análise de conteúdo verbal).
A análise de conteúdo foi desenvolvida explicitamente como uma ferramenta de
pesquisa para investigar a natureza da comunicação em geral, bem como a
comunicação de massa. Esse método é de vital importância para a teoria e
pesquisa em comunicação política. Como um campo, desenvolvemos esse método,
considerando a confiabilidade e a validade, e a qualidade das pesquisas
empregando análise de conteúdo está em constante melhoria (por exemplo,
relatórios de confiabilidade entre codificadores controlando o acordo ao acaso, o
desenvolvimento de tabelas de codificação ou protocolos para codificadores). O uso
de computadores para a análise de conteúdo tem vantagens claras, apesar de que
limitações devem ser reconhecidas.
NOTA
1. Algumas pesquisas relatam confiabilidade como um coeficiente de correlação
(por exemplo, r de Pearson) que representa a relação entre os dados
produzidos por dois codificadores para o mesmo grupo de textos. Essa
abordagem de confiabilidade é mais adequada para os tipos de pesquisas
analíticas de conteúdo aqui descritas como estudos avaliativos de
"classificação", em que a um texto é atribuído um valor em uma escala (por
exemplo, 1-7), dependendo do grau em que ele possui ou exemplifica a
qualidade, do que para a pesquisa que atribui textos a categorias discretas.
No entanto, mesmo ali o problema é que a confiabilidade diz respeito à
questão de saber se os codificadores atribuem a mesma categoria para cada
unidade de codificação; estatísticas correlacionais respondem à questão
distinta de saber se duas variáveis variam conjuntamente (sendo possível ter
grandes correlações sem decisões de codificação idênticas).
16. REFERÊNCIAS
Benoit, W. L. (2007). Communication in political campaigns. New York: Peter Lang. Benoit,
W. L., & McHale, J. P. (2003). Presidential candidates’ television spots and personal
qualities.
Southern Communication Journal, 68, 319–334. Berelson, B. R. (1952). Content analysis in
communication research. New York: Free Press. Berg, B. L. (2006). Qualitative research
methods for the social sciences (6th ed.). Boston, MA: Allyn &
Bacon. Burgchardt, C. R. (2005). Readings in rhetorical criticism (3rd ed.). State College,
PA: Strata Publishing. Cohen, J. (1960). A coefficient of agreement for nominal scales.
Educational and Psychological
Measurement, 20, 37–46. Conway, M.T. (2006). The subjective precision of computers: A
methodological comparison with human coding. Journalism & Mass Communication
Quarterly, 83(1), 186–200. Creswell, J. W. (2007). Qualitative inquiry and research design:
Choosing among five traditions (2nd ed.).
Thousand Oaks, CA: Sage. Denzin, N. K., & Lincoln, Y. S. (2005). The Sage handbook of
qualitative research. Thousand Oaks, CA:
Sage. Diction. (2008). Diction 5.0. Retrieved June 3, 2008, from
http://www.dictionsoftware.com. Ferris, A. L., Smith, S. W., Greenberg, B. S., & Smith, S. L.
(2007). The content of reality dating shows and viewer perceptions of dating. Journal of
Communication, 57, 490–510. Fleiss, J. L. (1981). Statistical methods for ratios and
proportions. New York: John Wiley & Sons. Foss, S. K. (2008). Rhetorical criticism:
Exploration and practice (4th ed.). Long Grove, IL: Waveland
Press. Franzosi, R. (1995). Computer-assisted content analysis of newspapers: Can we
make an expensive research tool more efficient? Quality & Quantity, 29, 157–172. Geer, J.
G. (2006). In defense of negativity: Attack ads in presidential campaigns. Chicago:
University of Chicago Press.
Glaser, B. G., & Strauss, A. L. (1967). The discovery of grounded theory: Strategies for
qualitative research. Chicago: Aldine.
Grabe, M. E. (1996). The SABC’s coverage of 1987 and 1989 elections: The matter of visual
bias. Journal of Broadcasting & Electronic Media, 40, 1–27.
Grabe, M. E., & Bucy, E. P. (2009). Image bite politics: News and the visual framing of
17. elections. New York: Oxford University Press.
Hart, R. P. (1984). Verbal style and the presidency: A computer-based analysis. New York:
Academic Press. Hart, R. P. (2005). Diction. Retrieved May 1, 2008, from
http://www.dictionsoftware.com/. Hart, R. P., & Daughton, S. (2005). Modern rhetorical
criticism (3rd ed.). Boston, MA: Pearson Education. Holbert, R. L., & Zubric, S. J. (2000). A
comparative analysis: Objective and public journalism techniques.
Newspaper Research Journal, 21, 50–67. Holsti, R. R. (1969). Content analysis for the
social sciences and humanities. Reading, MA: Addison-
Wesley. Janda, K. (2008). Content analysis programs and references. Retrieved February
12, 2008, from http://janda.org/workshop/content%20analysis/programs.htm. Kaid, L. L., &
Johnston, A. (2001). Videostyle in presidential campaigns: Style and content of televised
political advertising. Westport, CT: Praeger. Kepplinger, H. M. (1991). The impact of
presentation techniques: Theoretical aspects and empirical findings. In F. Biocca (Ed.),
Television and political advertising: Psychological processes (vol. 1, pp. 173–194).
Hillsdale, NJ: Lawrence Erlbaum. Kepplinger, H. M., & Donsbach, W. (1987). The influence
of camera perspective on the perception of a politician by supporters, opponents, and
neutral viewers. In D. Paletz (Ed.), Political communication research: Approaches, studies,
assessments (pp. 63–71). Norwood, NJ: Ablex. Klein, H. (2008). Text analysis info page.
Retrieved February 12, 2008, from http://www.textanalysis.info/. Krippendorff, K. (2004).
Content analysis: An introduction to its methodology (2nd ed.). Thousand Oaks,
CA: Sage. Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for
categorical data.
Biometrica, 33, 159–174. Lindlof, T., & Taylor, B. C. (2002). Qualitative communication
research methods (2nd ed.). Thousand Oaks,
CA: Sage. Lombard, M., Snyder-Duch, J., & Bracken, C. C. (2002). Content analysis in
mass communication:
Assessment and reporting of intercoder reliability. Human Communication Research, 28,
587–604. McCombs, M. (2004). Setting the agenda: The mass media and public opinion.
Cambridge: Polity. McCombs, M. E., & Shaw, D. L. (1972). The agenda setting function of
the mass media. Public Opinion
Quarterly, 36, 176–187. Nacos, B. L., Shapiro, R. Y., Young, J. T., Fan, D. P., Kjellstrand, T.,
& McCaa, C. (1991). Content analysis of news reports: Comparing human coding and a
18. computer-assisted method. Communication, 12, 111–128. Neuendorf, K. A. (2002). The
content analysis guidebook. Thousand Oaks, CA: Sage. North, R. C., Holsti, O., Zaninovich,
M. G., & Zinnes, D. A. (1963). Content analysis: A handbook with applications for the study
of international crisis. Evanston, IL: Northwestern University Press. Petrocik, J. R. (1996).
Issue ownership in presidential elections, with a 1980 case study. American Journal of
Political Science, 40, 825–850. Petrocik, J. R., Benoit, W. L., & Hansen, G. J. (2003–04).
Issue ownership and presidential campaigning,
1952–2000. Political Science Quarterly, 118, 599–626. Riffe, D., Lacy, S., & Fico, F. G.
(2005). Analyzing media messages: Using quantitative content analysis in research (2nd
ed.). Mahwah, NJ: Lawrence Erlbaum. Robertson, T., Froemling, K., Wells, S., & McCraw,
S. (1999). Sex, lies, and videotape: An analysis of gender in campaign advertisements.
Communication Quarterly, 47, 333–341. Scott, W. A. (1955). Reliability of content analysis:
The case of nominal scale coding. Public Opinion
Quarterly, 19, 321–325. Skalski, P. D. (2002). Computer content analysis software. In K. A.
Neuendorf (Ed.), The content analysis
Análise de conteúdo, comunicação política
guidebook (pp. 225–239). Thousand Oaks, CA: Sage. Verser, R., & Wicks, R. H. (2006).
Managing voter impressions: The use of images on presidential candidate
websites during the 2000 campaign. Journal of Communication, 56, 178–197. Vidich, A. J.,
& Lyman, S. M. (1998). Qualitative methods: Their history in sociology and anthropology. In
N. K. Denzin & Y. S. Lincoln (Eds.), The landscape of qualitative research: Theories and
issues (pp. 41–110). Thousand Oaks, CA: Sage. Watt, R. (2004). Concordance. Retrieved
May 1, 2008, from http://www.dundee.ac.uk/english/wics/ wics.htm. Weber, R. P. (1990).
Basic content analysis (2nd ed.). Newbury Park, CA: Sage. West, M. D. (Ed.). (2001a).
Applications of computer content analysis. Westport, CT: Ablex. West, M. D. (Ed.). (2001b).
Theory, method, and practice in computer content analysis. Westport, CT:
Ablex. Westerstahl, J. (1983). Objective news reporting: General premises. Communication
Research, 10, 403–424. Wright, S. (1921). Correlation and causation. Journal of Agriculture
Research, 20, 557–585.