SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
MINERAÇÃO DE
DADOS TEXTUAIS
COM POSTGRESQL
Raissa Menezes Korehisa
São Paulo - SP
• Raissa da Silva de Menezes Korehisa
• De PortoVelho - RO
• Graduada em Sistemas de Informação (2010);
• Especialista em Geoprocessamento (2012);
• Atua na área de Bancos de Dados (Postgres e SQL Server);
• Se aventurando em águas misteriosas do Data Science.
ROADMAP
• Etapas do Data Mining;
• Técnicas:
• Coletor / Persistência /
Consultas / FTS / Indexação ...
• Análise Exploratória
ETAPAS DA MINERAÇÃO DE DADOS
Coleta
Análise
Armazenamento
Pré -
processamento
FERRAMENTAS
Designed by www.slon.pics / Freepik
Fonte de dados: API doTwitter
Coleta | Análises
Armazenamento |Pré - processamento | Análises
COLETA
PRÉ - PROCESSAMENTO
• Selecionar dados potencialmente importantes;
• Aplicar padronização:
• Tokenização;
• Remoção de stop words;
• Busca textual.
JSONB
TSVECTOR TSQUERY
• Armazenamento de
JSON válido
• Provê consultas nos
documentos sem dor
nem sofrimento
• Lista de lexemas para
agrupar variantes da
mesma palavra
• Remove duplicações;
• Retorna lexema e
sua posição
• Armazena lexemas a
serem pesquisados
dentro do tsvector
id
text
hastags
retweets_count
followers_count
DADOS POTENCIALMENTE
IMPORTANTES
INDEX
HASHTAGS
CRIANDO UMA NUVEM DE
PALAVRAS LEXEMAS NO PYTHON
OBRIGADA!
raissamennezes@gmail.com
raissa_menezes
/raissamennezes
/raissamenezes

Mais conteúdo relacionado

Semelhante a Mineração de dados textuais com Postgres

PostgreSql - Um banco de dados Open Source que figura entre os grandes
PostgreSql - Um banco de dados Open Source que figura entre os grandesPostgreSql - Um banco de dados Open Source que figura entre os grandes
PostgreSql - Um banco de dados Open Source que figura entre os grandesjoanio trade
 
Processos iniciais do mapeamento OR
Processos iniciais do mapeamento ORProcessos iniciais do mapeamento OR
Processos iniciais do mapeamento ORNécio de Lima Veras
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
Tecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveisTecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveisLuiz Bettega
 
iesp_inverno_slides_raspagem2.pptx
iesp_inverno_slides_raspagem2.pptxiesp_inverno_slides_raspagem2.pptx
iesp_inverno_slides_raspagem2.pptxMarceloAlves902106
 
iesp_inverno_slides_raspagem.pdf
iesp_inverno_slides_raspagem.pdfiesp_inverno_slides_raspagem.pdf
iesp_inverno_slides_raspagem.pdfMarceloAlves902106
 
Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dadoslrmodesto
 
Tecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensTecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensAlessandro Binhara
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Oracle EXPLICAÇÕES EM PDF
Oracle EXPLICAÇÕES EM PDFOracle EXPLICAÇÕES EM PDF
Oracle EXPLICAÇÕES EM PDFSergioSouza
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro WanderleyLeandro Couto
 
Elasticsearch - O motor de busca que está mudando o mercado! @ PHPeste 2019
Elasticsearch - O motor de busca que está mudando o mercado! @ PHPeste 2019Elasticsearch - O motor de busca que está mudando o mercado! @ PHPeste 2019
Elasticsearch - O motor de busca que está mudando o mercado! @ PHPeste 2019Thiago Barradas
 
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Adolfo Guimaraes
 
Curso de soluções tecnológicas em PD
Curso de soluções tecnológicas em PDCurso de soluções tecnológicas em PD
Curso de soluções tecnológicas em PDCariniana Rede
 
Palestra Tony Rodrigues - OctaneLabs WarpSpeed Project – Computação Forense e...
Palestra Tony Rodrigues - OctaneLabs WarpSpeed Project – Computação Forense e...Palestra Tony Rodrigues - OctaneLabs WarpSpeed Project – Computação Forense e...
Palestra Tony Rodrigues - OctaneLabs WarpSpeed Project – Computação Forense e...BHack Conference
 
aula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfaula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfssuser7a84f91
 

Semelhante a Mineração de dados textuais com Postgres (20)

PostgreSql - Um banco de dados Open Source que figura entre os grandes
PostgreSql - Um banco de dados Open Source que figura entre os grandesPostgreSql - Um banco de dados Open Source que figura entre os grandes
PostgreSql - Um banco de dados Open Source que figura entre os grandes
 
Processos iniciais do mapeamento OR
Processos iniciais do mapeamento ORProcessos iniciais do mapeamento OR
Processos iniciais do mapeamento OR
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Tecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveisTecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveis
 
iesp_inverno_slides_raspagem2.pptx
iesp_inverno_slides_raspagem2.pptxiesp_inverno_slides_raspagem2.pptx
iesp_inverno_slides_raspagem2.pptx
 
iesp_inverno_slides_raspagem.pdf
iesp_inverno_slides_raspagem.pdfiesp_inverno_slides_raspagem.pdf
iesp_inverno_slides_raspagem.pdf
 
Visualização de dados
Visualização de dadosVisualização de dados
Visualização de dados
 
Tecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensTecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvens
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Oracle EXPLICAÇÕES EM PDF
Oracle EXPLICAÇÕES EM PDFOracle EXPLICAÇÕES EM PDF
Oracle EXPLICAÇÕES EM PDF
 
Bigdata - Leandro Wanderley
Bigdata - Leandro WanderleyBigdata - Leandro Wanderley
Bigdata - Leandro Wanderley
 
Repositório de dados na U.PORTO: um fluxo de curadoria suportado numa extensã...
Repositório de dados na U.PORTO: um fluxo de curadoria suportado numa extensã...Repositório de dados na U.PORTO: um fluxo de curadoria suportado numa extensã...
Repositório de dados na U.PORTO: um fluxo de curadoria suportado numa extensã...
 
Elasticsearch - O motor de busca que está mudando o mercado! @ PHPeste 2019
Elasticsearch - O motor de busca que está mudando o mercado! @ PHPeste 2019Elasticsearch - O motor de busca que está mudando o mercado! @ PHPeste 2019
Elasticsearch - O motor de busca que está mudando o mercado! @ PHPeste 2019
 
Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016Otimizando a performance com in-memory no SQL 2016
Otimizando a performance com in-memory no SQL 2016
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
Web Scale Data Management
Web Scale Data ManagementWeb Scale Data Management
Web Scale Data Management
 
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
 
Curso de soluções tecnológicas em PD
Curso de soluções tecnológicas em PDCurso de soluções tecnológicas em PD
Curso de soluções tecnológicas em PD
 
Palestra Tony Rodrigues - OctaneLabs WarpSpeed Project – Computação Forense e...
Palestra Tony Rodrigues - OctaneLabs WarpSpeed Project – Computação Forense e...Palestra Tony Rodrigues - OctaneLabs WarpSpeed Project – Computação Forense e...
Palestra Tony Rodrigues - OctaneLabs WarpSpeed Project – Computação Forense e...
 
aula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdfaula01_Fundamentos de Banco de Dados.pptx.pdf
aula01_Fundamentos de Banco de Dados.pptx.pdf
 

Mineração de dados textuais com Postgres