Este documento resume um banco de dados de financiamento de campanhas eleitorais no Brasil contendo dados de 2002 a 2016. Ele explica como os dados foram coletados, organizados e estruturados em tabelas para permitir perguntas complexas usando SQL. Algumas perguntas de exemplo são fornecidas para mostrar como buscar por candidatos, empresas e filiais específicas.
O documento discute jornalismo de dados e as ferramentas e experiências da Folha de S.Paulo com dados. Ele descreve o que é jornalismo de dados, como veículos de mídia usam dados, a experiência do projeto FolhaSPDados e exemplos de visualizações e ferramentas interativas criadas. Também fornece recursos para jornalistas trabalharem com dados.
RAC é o jornalismo investigativo que faz uso de técnicas como planilhas eletrônicas, bancos de dados e buscas avançadas na internet para analisar grandes quantidades de informação e produzir reportagens investigativas com mais precisão e rapidez. Sua história no Brasil teve início nos anos 1990 e cresceu com cursos e prêmios, mas ainda encontra resistência de alguns editores.
O documento apresenta vários métodos de análise de dados, incluindo boxplots para detecção de anomalias, análise de séries temporais, mineração de redes sociais e texto, agrupamento por similaridade e criação de mapas. É descrito o passo a passo para aplicação desses métodos utilizando a linguagem R.
O documento introduz o uso da linguagem R para análise de dados, descrevendo as principais etapas como a importação, tratamento e manipulação de dados, além de apresentar os principais tipos de dados em R como vetores, data frames e data tables.
1) O documento discute várias etapas da análise de dados, incluindo tratamento de dados, normalização, lidando com dados faltantes e reshaping dados.
2) É apresentado o conceito e uso de funções apply como apply(), lapply() e sapply() para aplicar funções em dados.
3) Técnicas como normalização, identificação e tratamento de dados faltantes e conversão entre formatos wide e long de dados são explicadas.
O documento discute vários métodos estatísticos para análise e visualização de dados, incluindo resumo estatístico, agrupamento, tabelas de contingência, séries temporais, histograma, gráficos de barras e dispersão, correlação e matrizes de dispersão. É apresentado o software R e seus comandos para aplicação destes métodos.
Este documento discute (1) o rápido aumento da informação disponível e a necessidade de bibliotecas organizarem grandes volumes de dados, (2) os objetivos de avaliar softwares de automação de bibliotecas comparando preços, interoperabilidade e outros fatores, e (3) a metodologia que inclui revisão da literatura, análise de catálogos online e entrevistas com bibliotecários.
O documento discute as fases de publicação de análises de dados, incluindo publicação estática localmente ou na web usando RMarkdown, além de publicação dinâmica usando a biblioteca Shiny do R, permitindo aplicativos interativos publicados na web.
O documento discute jornalismo de dados e as ferramentas e experiências da Folha de S.Paulo com dados. Ele descreve o que é jornalismo de dados, como veículos de mídia usam dados, a experiência do projeto FolhaSPDados e exemplos de visualizações e ferramentas interativas criadas. Também fornece recursos para jornalistas trabalharem com dados.
RAC é o jornalismo investigativo que faz uso de técnicas como planilhas eletrônicas, bancos de dados e buscas avançadas na internet para analisar grandes quantidades de informação e produzir reportagens investigativas com mais precisão e rapidez. Sua história no Brasil teve início nos anos 1990 e cresceu com cursos e prêmios, mas ainda encontra resistência de alguns editores.
O documento apresenta vários métodos de análise de dados, incluindo boxplots para detecção de anomalias, análise de séries temporais, mineração de redes sociais e texto, agrupamento por similaridade e criação de mapas. É descrito o passo a passo para aplicação desses métodos utilizando a linguagem R.
O documento introduz o uso da linguagem R para análise de dados, descrevendo as principais etapas como a importação, tratamento e manipulação de dados, além de apresentar os principais tipos de dados em R como vetores, data frames e data tables.
1) O documento discute várias etapas da análise de dados, incluindo tratamento de dados, normalização, lidando com dados faltantes e reshaping dados.
2) É apresentado o conceito e uso de funções apply como apply(), lapply() e sapply() para aplicar funções em dados.
3) Técnicas como normalização, identificação e tratamento de dados faltantes e conversão entre formatos wide e long de dados são explicadas.
O documento discute vários métodos estatísticos para análise e visualização de dados, incluindo resumo estatístico, agrupamento, tabelas de contingência, séries temporais, histograma, gráficos de barras e dispersão, correlação e matrizes de dispersão. É apresentado o software R e seus comandos para aplicação destes métodos.
Este documento discute (1) o rápido aumento da informação disponível e a necessidade de bibliotecas organizarem grandes volumes de dados, (2) os objetivos de avaliar softwares de automação de bibliotecas comparando preços, interoperabilidade e outros fatores, e (3) a metodologia que inclui revisão da literatura, análise de catálogos online e entrevistas com bibliotecários.
O documento discute as fases de publicação de análises de dados, incluindo publicação estática localmente ou na web usando RMarkdown, além de publicação dinâmica usando a biblioteca Shiny do R, permitindo aplicativos interativos publicados na web.
Esta é uma versão desatualizada dos slides. A versão aperfeiçoada está no link https://www.slideshare.net/MarcoAntonioFilgueir/workshop-meetup-viso-geral-sobre-big-data-88203595?trk=v-feed
O documento discute a recuperação de informação na web, definindo o termo como a identificação de documentos relevantes em um conjunto de acordo com a necessidade do usuário. Ele descreve as ferramentas iniciais como o Archie, criado em 1990, e como os tesauros podem auxiliar na organização e recuperação de informação ao normalizar termos. Por fim, apresenta exemplos de código Python para recuperar previsões climáticas a partir de uma URL específica.
1) O documento discute sistemas de apoio à decisão (SAD), como eles auxiliam na tomada de decisão a partir de dados;
2) Explica a evolução dos sistemas de informação, da capacidade de armazenamento de 5MB em 1956 para centenas de terabytes atualmente;
3) Destaca que SADs sistematizam processos decisórios empresariais e permitem análise de dados para tomada de decisão.
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
Watch full webinar here: https://bit.ly/31iF9Ot
Técnicas avançadas de ciência de dados, como o Machine Learning, provaram ser uma ferramenta extremamente útil para se obter valiosos insights a partir de dados existentes. Plataformas como RapidMiner e bibliotecas para R e Python simplificam partes do processo e colocam técnicas avançadas à disposição de cientistas de dados. Entretanto, estes profissionais passam até 80% de seu tempo procurando os dados corretos e preparando-os em um formato ideal para a aplicação do Machine Learning. Com isso, a virtualização de dados se torna uma nova alternativa para abordar estas questões de uma maneira mais eficiente e ágil.
Participe deste webinar e descubra:
- Como você pode usar a Plataforma Denodo com grandes volumes de dados de uma maneira eficiente
- Casos de uso do cliente e uma demonstração ao vivo de análise preditiva e virtualização de dados
Oportunidades e Desafios em Aplicativos de Dados Abertos (open data)Claudio Martins
Talk apresentada no Agile Trends Pocket - Belém 2016 (29/out). Nesta palestra vamos apresentamos e discutimos: o que são dados abertos, por que abrir e usar dados públicos, como criar aplicativos reutilizando dados de governo, exemplos de casos reais no ecossistema digital de dados abertos.
O documento apresenta uma introdução sobre Search as a Service (SAAS) e discute: 1) problemas comuns em buscas e desafios para resolvê-los; 2) motores de busca como Apache Lucene e Solr; 3) visão macro de uma arquitetura de busca incluindo indexação, ingestão e busca de documentos.
O documento discute o uso de bancos de dados NoSQL na globo.com. Ele descreve o tráfego e infraestrutura do site, características de bancos de dados relacionais e não-relacionais, e exemplos de bancos orientados a documentos, chave-valor e grafos. Apresenta também conceitos de Big Data e a abordagem de "persistência poliglota" adotada pela empresa.
Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...Claudio Martins
O documento discute os dados abertos e seu potencial para promover transparência e inovação. Apresenta conceitos como formatos abertos e exemplos de aplicações que utilizam dados públicos como o Basômetro, Para Onde Foi Meu Dinheiro e a Operação Serenata de Amor.
O documento discute as principais tendências em Big Data, Internet das Coisas e Web Semântica. A palestrante Regina Cantele apresenta os conceitos de Big Data e como os dados podem ser coletados, armazenados, analisados e visualizados. Ela também discute soluções como Hadoop e bancos de dados NoSQL. A Web Semântica é apresentada como uma forma de estruturar dados na web para que máquinas possam entendê-los.
O documento discute tarefas, técnicas e ferramentas de mineração de dados, incluindo definições de data mining e KDD, áreas de aplicação, casos de sucesso, abordagens metodológicas, tarefas e técnicas de data mining.
O documento descreve uma startup que oferece ferramentas digitais para lideranças políticas e organizações sociais. A empresa tem como missão ser líder no mercado brasileiro nesse segmento, oferecendo um produto chamado JUNTOS que permite estruturar contatos, fazer disparos de e-mails e mensagens, captar doações e realizar pesquisas. A empresa já fatura R$6 milhões e tem como objetivo crescer com uma rodada de investimento de R$1,4 milhão para aprimorar sua tecnologia e equipe de vend
O documento apresenta aplicações não convencionais de grafos, incluindo visualizações de dados usando gráficos Sankey, circulares e Treemap. Também discute um caso de uso de grafos para identificar padrões vencedores em jogos do tipo MOBA e menciona diversos algoritmos para grafos.
RAC - Reportagem com auxílio de computador - Palestra Bancos De Dados - Marc...Andre Deak
O documento discute o uso de bancos de dados no jornalismo para organizar informações de forma comparável e classificável, permitindo a extração de relatórios e análises. Também aborda ferramentas como planilhas, feeds RSS e mapas que auxiliam os jornalistas a obter e organizar dados de forma a apurar e apresentar informações de maneira sistemática.
7 lições sobre Data Analytics que as principais empresas do Vale do Silício e...Thiago Rocha
O documento fornece três lições principais sobre data analytics aprendidas com empresas de tecnologia:
1) Não existe uma regra única e é importante entender o contexto da própria empresa para escolher as melhores ferramentas e estratégias.
2) Times de data devem ter diferentes especialistas que trabalhem em conjunto, como cientistas de dados e engenheiros de dados.
3) É fundamental centralizar os dados da empresa em um repositório único antes de iniciarem análises, para garantir qualidade e consistência.
O documento discute ciência de dados em governo, descrevendo como o volume de dados gerados pelo governo cria necessidades de análise de dados. Apresenta o processo de ciência de dados e como ele é aplicado a soluções de TI do governo brasileiro, como a Nota Fiscal Eletrônica. Discute também as tecnologias necessárias para armazenar e analisar grandes volumes de dados governamentais.
Apresentação sobre como personalizamos a jornada do PicPay.
Explicamos sobre o uso de técnicas de big data e machine learning aplicado ao negócio.
Falamos sobre recomendação na home, problemas de NLP em busca e construção de plataformas.
Como começar uma startup - StartCamp #1 Ideiação e User ExperienceWelliton Oliveira
StartCamp #1 Ideiação e User Experience
http://evolvemvp.com
Escolhendo sua área de atuação e criando a segmentação:
Em qual área a sua ideia se encaixa? Qual recorte de segmentação você pretende atuar? Esse mercado tem um número de usuários que o torne viável?
Definir personagens envolvidos (Buyer Personas):
Quem são as pessoas envolvidas com esse mercado? Quais problemas elas enfrentam no dia-a-dia? O que poderia facilitar a vida dessas pessoas?
Jornada do usuário (Customer Journey):
Quais são as atividades que elas executam todos os dias? Quais são os pontos altos e baixos do seu dia? Vamos usar a Jornada do usuário para encontrar as melhores oportunidades de negócios.
Selecionando o cliente ideal e traçando a proposta de valor:
Utilizando o canvas de proposta de valor, vamos mapear de forma visual quais são as dores, ganhos e atividades que o seu cliente executa.
Brainstorm de soluções:
Com as informações da etapa anterior vamos gerar o maior número de ideias possível sobre os problemas do seu usuário, buscando encontrar a solução ideal.
Selecionando sua ideia:
Ela é financeiramente viável? Tecnologicamente factível? É desejável pelos clientes?
O documento fornece informações sobre otimização de sites para mecanismos de busca (SEO). Ele discute técnicas como definir palavras-chaves relevantes, estruturar o conteúdo da página usando elementos HTML apropriados, e registrar o site nos principais mecanismos de busca. O documento também alerta sobre práticas negativas como "keyword stuffing" e compra de links, que devem ser evitadas.
Slides Lição 11, Central Gospel, Os Mortos Em CRISTO, 2Tr24.pptxLuizHenriquedeAlmeid6
Slideshare Lição 11, Central Gospel, Os Mortos Em Cristo, 1Tr24, Pr Henrique, EBD NA TV, Revista ano 11, nº 1, Revista Estudo Bíblico Jovens E Adultos, Central Gospel, 2º Trimestre de 2024, Professor, Tema, Os Grandes Temas Do Fim, Comentarista, Pr. Joá Caitano, estudantes, professores, Ervália, MG, Imperatriz, MA, Cajamar, SP, estudos bíblicos, gospel, DEUS, ESPÍRITO SANTO, JESUS CRISTO, Com. Extra Pr. Luiz Henrique, 99-99152-0454, Canal YouTube, Henriquelhas, @PrHenrique
Mais conteúdo relacionado
Semelhante a Lidando com dados de financiamento de campanha em SQL
Esta é uma versão desatualizada dos slides. A versão aperfeiçoada está no link https://www.slideshare.net/MarcoAntonioFilgueir/workshop-meetup-viso-geral-sobre-big-data-88203595?trk=v-feed
O documento discute a recuperação de informação na web, definindo o termo como a identificação de documentos relevantes em um conjunto de acordo com a necessidade do usuário. Ele descreve as ferramentas iniciais como o Archie, criado em 1990, e como os tesauros podem auxiliar na organização e recuperação de informação ao normalizar termos. Por fim, apresenta exemplos de código Python para recuperar previsões climáticas a partir de uma URL específica.
1) O documento discute sistemas de apoio à decisão (SAD), como eles auxiliam na tomada de decisão a partir de dados;
2) Explica a evolução dos sistemas de informação, da capacidade de armazenamento de 5MB em 1956 para centenas de terabytes atualmente;
3) Destaca que SADs sistematizam processos decisórios empresariais e permitem análise de dados para tomada de decisão.
Virtualização de dados para Advanced Analytics e Machine LearningDenodo
Watch full webinar here: https://bit.ly/31iF9Ot
Técnicas avançadas de ciência de dados, como o Machine Learning, provaram ser uma ferramenta extremamente útil para se obter valiosos insights a partir de dados existentes. Plataformas como RapidMiner e bibliotecas para R e Python simplificam partes do processo e colocam técnicas avançadas à disposição de cientistas de dados. Entretanto, estes profissionais passam até 80% de seu tempo procurando os dados corretos e preparando-os em um formato ideal para a aplicação do Machine Learning. Com isso, a virtualização de dados se torna uma nova alternativa para abordar estas questões de uma maneira mais eficiente e ágil.
Participe deste webinar e descubra:
- Como você pode usar a Plataforma Denodo com grandes volumes de dados de uma maneira eficiente
- Casos de uso do cliente e uma demonstração ao vivo de análise preditiva e virtualização de dados
Oportunidades e Desafios em Aplicativos de Dados Abertos (open data)Claudio Martins
Talk apresentada no Agile Trends Pocket - Belém 2016 (29/out). Nesta palestra vamos apresentamos e discutimos: o que são dados abertos, por que abrir e usar dados públicos, como criar aplicativos reutilizando dados de governo, exemplos de casos reais no ecossistema digital de dados abertos.
O documento apresenta uma introdução sobre Search as a Service (SAAS) e discute: 1) problemas comuns em buscas e desafios para resolvê-los; 2) motores de busca como Apache Lucene e Solr; 3) visão macro de uma arquitetura de busca incluindo indexação, ingestão e busca de documentos.
O documento discute o uso de bancos de dados NoSQL na globo.com. Ele descreve o tráfego e infraestrutura do site, características de bancos de dados relacionais e não-relacionais, e exemplos de bancos orientados a documentos, chave-valor e grafos. Apresenta também conceitos de Big Data e a abordagem de "persistência poliglota" adotada pela empresa.
Dados Abertos: Oportunidades, Inovação e Transparência (2º Congresso Nacional...Claudio Martins
O documento discute os dados abertos e seu potencial para promover transparência e inovação. Apresenta conceitos como formatos abertos e exemplos de aplicações que utilizam dados públicos como o Basômetro, Para Onde Foi Meu Dinheiro e a Operação Serenata de Amor.
O documento discute as principais tendências em Big Data, Internet das Coisas e Web Semântica. A palestrante Regina Cantele apresenta os conceitos de Big Data e como os dados podem ser coletados, armazenados, analisados e visualizados. Ela também discute soluções como Hadoop e bancos de dados NoSQL. A Web Semântica é apresentada como uma forma de estruturar dados na web para que máquinas possam entendê-los.
O documento discute tarefas, técnicas e ferramentas de mineração de dados, incluindo definições de data mining e KDD, áreas de aplicação, casos de sucesso, abordagens metodológicas, tarefas e técnicas de data mining.
O documento descreve uma startup que oferece ferramentas digitais para lideranças políticas e organizações sociais. A empresa tem como missão ser líder no mercado brasileiro nesse segmento, oferecendo um produto chamado JUNTOS que permite estruturar contatos, fazer disparos de e-mails e mensagens, captar doações e realizar pesquisas. A empresa já fatura R$6 milhões e tem como objetivo crescer com uma rodada de investimento de R$1,4 milhão para aprimorar sua tecnologia e equipe de vend
O documento apresenta aplicações não convencionais de grafos, incluindo visualizações de dados usando gráficos Sankey, circulares e Treemap. Também discute um caso de uso de grafos para identificar padrões vencedores em jogos do tipo MOBA e menciona diversos algoritmos para grafos.
RAC - Reportagem com auxílio de computador - Palestra Bancos De Dados - Marc...Andre Deak
O documento discute o uso de bancos de dados no jornalismo para organizar informações de forma comparável e classificável, permitindo a extração de relatórios e análises. Também aborda ferramentas como planilhas, feeds RSS e mapas que auxiliam os jornalistas a obter e organizar dados de forma a apurar e apresentar informações de maneira sistemática.
7 lições sobre Data Analytics que as principais empresas do Vale do Silício e...Thiago Rocha
O documento fornece três lições principais sobre data analytics aprendidas com empresas de tecnologia:
1) Não existe uma regra única e é importante entender o contexto da própria empresa para escolher as melhores ferramentas e estratégias.
2) Times de data devem ter diferentes especialistas que trabalhem em conjunto, como cientistas de dados e engenheiros de dados.
3) É fundamental centralizar os dados da empresa em um repositório único antes de iniciarem análises, para garantir qualidade e consistência.
O documento discute ciência de dados em governo, descrevendo como o volume de dados gerados pelo governo cria necessidades de análise de dados. Apresenta o processo de ciência de dados e como ele é aplicado a soluções de TI do governo brasileiro, como a Nota Fiscal Eletrônica. Discute também as tecnologias necessárias para armazenar e analisar grandes volumes de dados governamentais.
Apresentação sobre como personalizamos a jornada do PicPay.
Explicamos sobre o uso de técnicas de big data e machine learning aplicado ao negócio.
Falamos sobre recomendação na home, problemas de NLP em busca e construção de plataformas.
Como começar uma startup - StartCamp #1 Ideiação e User ExperienceWelliton Oliveira
StartCamp #1 Ideiação e User Experience
http://evolvemvp.com
Escolhendo sua área de atuação e criando a segmentação:
Em qual área a sua ideia se encaixa? Qual recorte de segmentação você pretende atuar? Esse mercado tem um número de usuários que o torne viável?
Definir personagens envolvidos (Buyer Personas):
Quem são as pessoas envolvidas com esse mercado? Quais problemas elas enfrentam no dia-a-dia? O que poderia facilitar a vida dessas pessoas?
Jornada do usuário (Customer Journey):
Quais são as atividades que elas executam todos os dias? Quais são os pontos altos e baixos do seu dia? Vamos usar a Jornada do usuário para encontrar as melhores oportunidades de negócios.
Selecionando o cliente ideal e traçando a proposta de valor:
Utilizando o canvas de proposta de valor, vamos mapear de forma visual quais são as dores, ganhos e atividades que o seu cliente executa.
Brainstorm de soluções:
Com as informações da etapa anterior vamos gerar o maior número de ideias possível sobre os problemas do seu usuário, buscando encontrar a solução ideal.
Selecionando sua ideia:
Ela é financeiramente viável? Tecnologicamente factível? É desejável pelos clientes?
O documento fornece informações sobre otimização de sites para mecanismos de busca (SEO). Ele discute técnicas como definir palavras-chaves relevantes, estruturar o conteúdo da página usando elementos HTML apropriados, e registrar o site nos principais mecanismos de busca. O documento também alerta sobre práticas negativas como "keyword stuffing" e compra de links, que devem ser evitadas.
Semelhante a Lidando com dados de financiamento de campanha em SQL (20)
Slides Lição 11, Central Gospel, Os Mortos Em CRISTO, 2Tr24.pptxLuizHenriquedeAlmeid6
Slideshare Lição 11, Central Gospel, Os Mortos Em Cristo, 1Tr24, Pr Henrique, EBD NA TV, Revista ano 11, nº 1, Revista Estudo Bíblico Jovens E Adultos, Central Gospel, 2º Trimestre de 2024, Professor, Tema, Os Grandes Temas Do Fim, Comentarista, Pr. Joá Caitano, estudantes, professores, Ervália, MG, Imperatriz, MA, Cajamar, SP, estudos bíblicos, gospel, DEUS, ESPÍRITO SANTO, JESUS CRISTO, Com. Extra Pr. Luiz Henrique, 99-99152-0454, Canal YouTube, Henriquelhas, @PrHenrique
REGULAMENTO DO CONCURSO DESENHOS AFRO/2024 - 14ª edição - CEIRI /UREI (ficha...Eró Cunha
XIV Concurso de Desenhos Afro/24
TEMA: Racismo Ambiental e Direitos Humanos
PARTICIPANTES/PÚBLICO: Estudantes regularmente matriculados em escolas públicas estaduais, municipais, IEMA e IFMA (Ensino Fundamental, Médio e EJA).
CATEGORIAS: O Concurso de Desenhos Afro acontecerá em 4 categorias:
- CATEGORIA I: Ensino Fundamental I (4º e 5º ano)
- CATEGORIA II: Ensino Fundamental II (do 6º ao 9º ano)
- CATEGORIA III: Ensino Médio (1º, 2º e 3º séries)
- CATEGORIA IV: Estudantes com Deficiência (do Ensino Fundamental e Médio)
Realização: Unidade Regional de Educação de Imperatriz/MA (UREI), através da Coordenação da Educação da Igualdade Racial de Imperatriz (CEIRI) e parceiros
OBJETIVO:
- Realizar a 14ª edição do Concurso e Exposição de Desenhos Afro/24, produzidos por estudantes de escolas públicas de Imperatriz e região tocantina. Os trabalhos deverão ser produzidos a partir de estudo, pesquisas e produção, sob orientação da equipe docente das escolas. As obras devem retratar de forma crítica, criativa e positivada a população negra e os povos originários.
- Intensificar o trabalho com as Leis 10.639/2003 e 11.645/2008, buscando, através das artes visuais, a concretização das práticas pedagógicas antirracistas.
- Instigar o reconhecimento da história, ciência, tecnologia, personalidades e cultura, ressaltando a presença e contribuição da população negra e indígena na reafirmação dos Direitos Humanos, conservação e preservação do Meio Ambiente.
Imperatriz/MA, 15 de fevereiro de 2024.
Produtora Executiva e Coordenadora Geral: Eronilde dos Santos Cunha (Eró Cunha)
Atividade letra da música - Espalhe Amor, Anavitória.Mary Alvarenga
A música 'Espalhe Amor', interpretada pela cantora Anavitória é uma celebração do amor e de sua capacidade de transformar e conectar as pessoas. A letra sugere uma reflexão sobre como o amor, quando verdadeiramente compartilhado, pode ultrapassar barreiras alcançando outros corações e provocando mudanças positivas.
2. Um pouco de história (e links)...
-
- Campanha 'Quem são os proprietários do Brasil?'
http://proprietariosdobrasil.org.br/)
- Investigação para a Agência Pública sobre cartelização em grandes empreiteiras
e financiamento de campanha:
http://apublica.org/2014/06/um-jogo-para-poucos/ &&
https://apublica.org/2014/06/as-quatro-irmas/
- Repositórios organizados por Rafael Polo: https://mostre.me/ &&
https://mostre.me/eleicoes && https://github.com/rafapolo/tribuna
- Cruzamento automático para identificar doações da Odebrecht para o grupo
Connectas/The Intercept: http://github.com/belisards/match-tse-odb/ &&
https://theintercept.com/staff/adriano-belisario/
3. Alguns conceitos...
- Partidos, comitês e candidatos: possuem prestações de contas distintas.
Comitês são organizados de acordo com o cargo que se disputa. Já a Direção dos
Partidos divide-se pelos três níveis da federação.
- Doações estimada: prestação de serviços cujos valores são contabilizados
como receita pela prestação de contas.
- Doação direta/indireta: uma prática comum era a empresa doar para um
partido que então repassava este recurso aos candidatos. a partir de 2014, surge
o campo de 'Doador Originário' que vincula este recurso repassado pelo partido à
empresa/pessoa fonte do dinheiro.
- Doações empresariais: proibidas desde a eleição de 2016. Pessoas poderiam
doar até 10% do rendimento.
- Novas regras futuras: A partir de 2018, o limite de doação de pessoa física
para cada cargo ou chapa será de 10 salários mínimos. Autofinanciamento em
debate. Financiamento coletivo. Limite de gastos.
4. Quais dados são estes?
- Os dados brutos das receitas das campanhas eleitorais são disponibilizadas
pelo Tribunal Superior Eleitoral (TSE) em seu Repositório de Dados Eleitorais:
http://www.tse.jus.br/eleitor-e-eleicoes/estatisticas/repositorio-de-dados-
eleitorais-1/repositorio-de-dados-eleitorais
- Baseado na autodeclaração das receitas de campanhas oficiais: muitas vezes,
é a "ponta do iceberg". Dados oficiais, mas inconsistentes ou mesmo ausentes.
- Podem ser atualizados retroativamento por meio de retificações solicitadas
pelos candidatos e partidos, que depois de aceitas pelo TSE atualizam o
Repositório de Dados.
- Dividido por eleições de 2002 e 2016. De 1994 e 1998, quando não havia
sistema eletrônico, há dados transcritos pelo prof. norte-americano David
Samuels, que foram tratados pelo pesquisador Bruno Carazza:
http://leisenumeros.com.br/2016/06/dados-sobre-financiamento-de-
campanhas-eleitorais-producao-legislativa-e-comportamento-parlamentar/
5. Mais sobre o banco de dados....
- Nem o TSE tinha....
- Reúne informações de 2002 a 2016 de todas prestações de contas já
registradas no TSE
- Cerca de 26gb de dados brutos. Dump final compactado tem aprox. 600mb
- Script de importação auditável e aberto: ele automaticamente baixa,
descompacta, limpa e importa todas planilhas em um banco de dados SQL
- 1 tabela (doacoes) por ora. Abstração dos doadores e candidatos da tabela de
doação em fase avançada
- Colaboradores são bem vindos!
6. Quais dados são estes?
Os campos da
prestação de contas
variam de ano a ano.
Para unificar a prestação
de contas de todas
eleições, era preciso
então unificar os campos
comuns em um esquema,
que incluísse também as
particularidades
relevantes de cada
eleição.
7. Quais campos são estes?
id= ID única da doação no
banco
uf= Estado
cpf = CPF e CNPJ
numero=n. da candidatura
doador_original=a partir
de 2014, revela origem
das doações indiretas
fonte=origem do recurso;
recurso=Estimado,
financeiro, cheque, etc;
data=dia da doação
motivo= despesa atrelada;
valor=em R$, não
atualizado
valor_at = valor atualizado
pelo IPCA;
tipo=
partido/comite/candidato
10. Fazendo perguntas em SQL
Termos básicos
SELECT = defina separado por vírgulas quais serão os campos consultados
FROM = define a tabela onde será a feita consulta. no nosso caso, "doações"
WHERE = define condições para a consulta, com operadores como AND e OR
GROUP by = defina o agrupamento das colunas. necessário para realizar somas,
por exemplo
ORDER by = ordena os resultados de modo ascendente (ASC) ou descendente
(DESC)
LIMIT = limitar a quantidade de resultados;
11. Fazendo perguntas em SQL
Alguns operadores para incrementar as buscas
SUM(): soma
AVG(): média
LENGTH(): quantidade caracteres de um campo;
COUNT(): quantidade de resultados de um grupo;
MIN()/MAX(): valores mínimos/máximos de um grupo;
20. Buscando empresas e filiais
- A mesma empresa pode ter vários CNPJs: as filiais de uma mesma empresa-
matriz possuem um prefixo comum de oito dígito (tudo antes da barra):
XX.XXX.XXX/YYYY-ZZ
- O nome da empresa pode estar grafado de forma incorreta. Vale a pena
consultar considerando possíveis variações nos nomes, inclusive foneticamente;
- A utilização de curingas nos ajuda a contornar estes problemas nas consultas;
- Busque sempre utilizar curingas quando procurar por nomes e posicione-os
estrategicamente
- Em 2014 e 2016, considerar também o campo "doador_original" e
"cpf_doador_original"
28. Atualizando valores
- Para analisar a evolução temporal de doações em uma série histórica, é
útil corrigir os valores. Isto porque o valor de - por exemplo - R$ 1 milhão
doado em 2002 não tem o mesmo "peso" que R$ 1 milhão em 2017.
- Calculamos a média da inflação por ano pelo IPCA e criamos um campo
novo para ter o valor atualizado, além do valor original (ref. setembro de
2017) :
29. Cruzando listas
Passo a passo:
- Listar a razão social de empresas, candidatos, doadores, CPFs e etc, em
planilhas.
- Carregar estas tabelas no SQL e com JOIN cruzar com as doações
registradas, incluindo filiais
- Deletar falsos positivos;
- Exportar e analisar os resultados
Script de exemplo: http://github.com/belisards/match-tse-odb/