Apresentação feita para o LINC (Laboratório de Inteligência Computacional) explicando a otimização do algoritmo de aprendizagem da estrutura da rede bayesiana em um grande volume de dados utilizando MapReduce
Mineração de Dados com Mapas de Kohonen: Uma Abordagem no Setor FinanceiroAnderson Pinho
O presente artigo objetivará a aplicação de Mapas de Kohonen na identificação de perfis de clientes, ou clusters, como estratégias de diferenciação no marketing empresarial. Clientes que decidem por investir em ações na Bolsa de Valores de São Paulo (Bovespa) podem optar por ações de empresas nos mais diversos ramos de atividade. Se gestores do marketing souberem explicitar o conhecimento necessário para diferenciar clientes de acordo com o setor em que operam na bolsa de valores, estes poderão incorporar este conhecimento nos processos da empresa, maximizando lucros e resultados. Mapas de Kohonen representam uma classe de modelos de redes neurais denominados mapas auto-organizáveis e seu potencial de aplicação em processos de descoberta de conhecimento representa alguma vantagem competitiva. Em nosso caso de aplicação isto significa separar clientes de acordo com suas concentrações de operações na Bovespa nos 10 possíveis mercados de ações. Os resultados mostrarão que clientes podem ser agrupados em 1 de 6 clusters diferentes, cada um com características bastante singulares.
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
Presented with Flavio Clésio at TDCSP2016 showing a Machine Learning solution for tracking and monitoring a critical billing platform.
Code repository:
https://github.com/eiti-kimura-movile/spark-mllib-sample
Mineração de Dados com Mapas de Kohonen: Uma Abordagem no Setor FinanceiroAnderson Pinho
O presente artigo objetivará a aplicação de Mapas de Kohonen na identificação de perfis de clientes, ou clusters, como estratégias de diferenciação no marketing empresarial. Clientes que decidem por investir em ações na Bolsa de Valores de São Paulo (Bovespa) podem optar por ações de empresas nos mais diversos ramos de atividade. Se gestores do marketing souberem explicitar o conhecimento necessário para diferenciar clientes de acordo com o setor em que operam na bolsa de valores, estes poderão incorporar este conhecimento nos processos da empresa, maximizando lucros e resultados. Mapas de Kohonen representam uma classe de modelos de redes neurais denominados mapas auto-organizáveis e seu potencial de aplicação em processos de descoberta de conhecimento representa alguma vantagem competitiva. Em nosso caso de aplicação isto significa separar clientes de acordo com suas concentrações de operações na Bovespa nos 10 possíveis mercados de ações. Os resultados mostrarão que clientes podem ser agrupados em 1 de 6 clusters diferentes, cada um com características bastante singulares.
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
Presented with Flavio Clésio at TDCSP2016 showing a Machine Learning solution for tracking and monitoring a critical billing platform.
Code repository:
https://github.com/eiti-kimura-movile/spark-mllib-sample
Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...wesleylouzeiro
Trabalho Acadêmico de Conclusão de Curso apresentado ao Colegiado Específico de TADS do Instituto Federal de Educação, Ciência e Tecnologia do Pará – IFPA.
Investigação de Predição de Fluxos em Redes de ComputadoresOrlando Junior
Um importante desafio na área de Redes Definidas por Software é a minimização das consultas enviadas pelo switch ao controlador, que produzem um atraso inicial na comunicação. Esse problema pode ser resolvido se o controlador instalar antecipadamente os fluxos nos switches, autorizando a comunicação antes da chegada do primeiro pacote. Com essa motivação, este trabalho investiga o problema da predição de fluxos em redes de computadores. Duas redes de aplicação são mapeadas em diversos modelos topológicos de Redes Complexas para representar o tráfego das informações das redes de aplicação nas redes físicas subjacentes. Diversos algoritmos tradicionais de Predição de Links são utilizados separadamente para predizer os fluxos em cada uma das redes e também como entrada para técnicas de Aprendizado de Máquina. O problema é ainda modelado em uma nova abordagem de Predição de Links que prediz em conjunto as conexões da rede que se manterão ou se formarão em um instante futuro. Os resultados experimentais mostram que as técnicas de Aprendizado de Máquina podem ser usadas para a predição de fluxos com desempenho significativo em muitas situações.
MapBiomas - Recortar Uso do Solo e Aplicar Simbologia no QGISJorge Santos
Mosaicos podem cobrir grandes áreas. Para reduzir o tamanho físico do Mosaico Brasil de Uso e Ocupação do Solo de propriedade da iniciativa MapBiomas, utilizaremos o método de processamento em lote no Sistema de Informações Geográficas QGIS.
TCC: Avaliação de Dependabilidade e Análise de Sensibilidade de uma Plataform...Ramon Santos
A computação em nuvem está cada dia mais presente em nosso quotidiano, tanto na vida de usuários domésticos, como em empresas, e organizações governamentais. Aconteceram grandes melhorias na quantidade e qualidade do uso deste modelo de serviços nos últimos anos, mas um fator de qualidade continua preocupando os provedores de serviços e usuário: a dependabilidade. Dentre as modalidades de serviços mais populares de computação em nuvem, encontram-se três: Infrastructure as a Service (IaaS), focado em administração de sistemas e infraestrutura; Platform as a Service (PaaS), que possibilita a implantação, hospedagem e gerenciamento de aplicações, onde os principais usuários são desenvolvedores e gerentes de configuração; Software as a Service (SaaS), que geralmente são aplicativos voltados ao usuário final. Nesse trabalho foram propostos cenários para a implantação da PaaS (Platform as a Service) Cloud Foundry. Esses cenários foram modelados de forma hierárquica e heterogênea com o uso de modelos analíticos de diagrama de bloco de confiabilidade e cadeias de Markov. Com base nesses modelos, foram feitas análises de disponibilidade, confiabilidade e de sensibilidade. Foram identificados gargalos para a disponibilidade da plataforma e possíveis soluções para os mesmos. Com a análise de sensibilidade, também foram mostrados cenários que suportavam alta disponibilidade como menor uso de componentes redundantes.
Avaliação NOSQL para indexação do TwitterCaliel Costa
A Gestão do Conhecimento, através de suas técnicas e ferramentas, busca ajudar as empresas a aprender e inovar para atingir melhores resultados e serem mais eficientes no mercado. No entanto, essas mesmas empresas possuem cada vez mais informações internas e externas disponíveis e, muitas vezes, essas diversas informações (dados relacionais, e-mails, vídeos, imagens, etc.) precisam ser analisadas em um intervalo curto de tempo. Esse cenário é denominado Big Data.
Os bancos de dados relacionais podem não estar preparados para suprir as necessidades desse cenário. Conforme o volume de dados aumenta, a capacidade de processamento do servidor também deve aumentar para continuar atendendo aplicações e usuários, necessitando de investimentos crescentes em infraestrutura. Para atender a essas necessidades surgiu um novo paradigma de banco de dados chamado NoSQL. O modelo de dados deixa de ser relacional e passa a ser representado como objetos, documentos ou grafos, e a arquitetura do sistema é voltada para múltiplos servidores, propiciando fácil escalabilidade e alta disponibilidade. O trabalho apresenta todo este contexto e caracteriza os principais sistemas de bancos de dados existentes no mercado.
Ele tem como objetivo avaliar a utilização de um banco de dados NoSQL para a indexação de mensagens do Twitter selecionadas através de uma Taxonomia.
CloudModelTest — Seminário de Andamento da Proposta de DissertaçãoMateus Aubin
Apresentação realizada no Seminário de Andamento do projeto de mestrado CloudModelTest: Um modelo de elasticidade de recursos em duas camadas aplicado ao problema de adequação de sistemas de substituição filogenética.
O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001 e com o apoio da FAPERGS no contexto do projeto Combinando Elasticidade Multi-Métrica em Nuvem nas Modalidades Vertical e Horizontal para Análise de Genes e Redução de Pragas Agrícolas, no Edital 02/2017.
Dissertação google inc act on general strike suzart Attain to cpf 051 812 95...Sandro Santana
Attain to cpf 051 812 955 17 Google Inc act in General Strick SUZART
CPF 051 812 955 17 Demonstrations, and Business between Sandro Suzart and Google Inc to Federal Reserve
QGIS 2.4: Recorte de Raster via Shapefile (Batch Mode)Jorge Santos
Com a evolução das demandas para Processamento de Imagens, precisamos adquirir equipamentos mais modernos e aperfeiçoar as técnicas até aqui conhecidas. Seguir adiante é o curso natural do desenvolvimento tecnológico e esta premissa está presente em todas as áreas do conhecimento.
No exercício anterior sobre recorte de raster na versão 2.0 do programa, nós realizamos longos procedimentos para edição de linha de comando.
Com a evolução do aplicativo SIG, o módulo Processamento está mais robusto e oferece opções mais consistentes. Um dia desses, fiz um ensaio para recorte de arquivo shapefile em lote e o programa correspondeu de forma satisfatória.
Gestão de Contexto aplicado a qualidade de serviço e experiência
Plataforma, arcabouço, framework destinada à coleta de dados, qualificação, arbirtragem, encaminhamento e gerenciamento de tráfego
Defesa de Artigo: "GPU-NB: A Fast CUDA -based Implementation of Naive Bayes"Andrew Edberg
Título Original:
GPU-NB: A Fast CUDA-based Implementation of Naive Bayes.
Título em Português:
GPU-NB: A Rápida Implementação da Naive Bayes baseada em CUDA.
Autores:
Viegas, F . et al. (Brazil).
Revista (publicação em October 2013):
Computer Architecture and High Performance Computing.
IEEE Transaction on Parallel and Distributed Systems.
Qualis CAPES:
A1 (Ciência da Computação e Engenharias IV), A2 (Interdisciplinar), B3 (Ciências Biológicas I).
A análise e compreensão das estratégias de ordenação são tarefas corriqueiras no processo de aprendizagem de complexidade computacional. Os métodos mais clássicos são debatidos e suas respectivas complexidades teóricas são confrontadas, porém muitas vezes, não há um aprofundamento e muitas características relevantes de determinadas técnicas são deixadas de lado não ocorrendo um confrontamento prático desses métodos.
Além disso não existe disponível, ate o momento, uma ferramenta gratuita para aferição da complexidade das estratégias de ordenação que leve em consideração a natureza das amostras a serem classificadas. Para preencher essa lacuna propomos um Assistente de Avaliação de Estratégias de Ordenação que possui como principais funcionalidades a geração de aglomerados numéricos aleatórios, a execução de determinadas estratégias sobre esses aglomerados e a exibição do esforço computacional e temporal necessários a execução.
O presente artigo tem como objetivo o estudo de modelos de Inteligência Artificial para sistemas de recomendação, case Santander do Kaggle, utilizando algoritmos de Machine Learning e Deep Learning para fazer a recomendação de produtos com base na história dos clientes do banco.
We are a company that delivers value to our customers by lowering costs with digital marketing and increasing the efficiency of campaigns and their conversions. Using the most advanced artificial intelligence models in the neuro-marketing perspective, we have been able to predict the effectiveness of a marketing campaign before it is published. After its publication, we evaluated the campaign, segmenting the public according to the standard extracted from each market segment, delivering information for strategic and efficient management.
Mais conteúdo relacionado
Semelhante a Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...wesleylouzeiro
Trabalho Acadêmico de Conclusão de Curso apresentado ao Colegiado Específico de TADS do Instituto Federal de Educação, Ciência e Tecnologia do Pará – IFPA.
Investigação de Predição de Fluxos em Redes de ComputadoresOrlando Junior
Um importante desafio na área de Redes Definidas por Software é a minimização das consultas enviadas pelo switch ao controlador, que produzem um atraso inicial na comunicação. Esse problema pode ser resolvido se o controlador instalar antecipadamente os fluxos nos switches, autorizando a comunicação antes da chegada do primeiro pacote. Com essa motivação, este trabalho investiga o problema da predição de fluxos em redes de computadores. Duas redes de aplicação são mapeadas em diversos modelos topológicos de Redes Complexas para representar o tráfego das informações das redes de aplicação nas redes físicas subjacentes. Diversos algoritmos tradicionais de Predição de Links são utilizados separadamente para predizer os fluxos em cada uma das redes e também como entrada para técnicas de Aprendizado de Máquina. O problema é ainda modelado em uma nova abordagem de Predição de Links que prediz em conjunto as conexões da rede que se manterão ou se formarão em um instante futuro. Os resultados experimentais mostram que as técnicas de Aprendizado de Máquina podem ser usadas para a predição de fluxos com desempenho significativo em muitas situações.
MapBiomas - Recortar Uso do Solo e Aplicar Simbologia no QGISJorge Santos
Mosaicos podem cobrir grandes áreas. Para reduzir o tamanho físico do Mosaico Brasil de Uso e Ocupação do Solo de propriedade da iniciativa MapBiomas, utilizaremos o método de processamento em lote no Sistema de Informações Geográficas QGIS.
TCC: Avaliação de Dependabilidade e Análise de Sensibilidade de uma Plataform...Ramon Santos
A computação em nuvem está cada dia mais presente em nosso quotidiano, tanto na vida de usuários domésticos, como em empresas, e organizações governamentais. Aconteceram grandes melhorias na quantidade e qualidade do uso deste modelo de serviços nos últimos anos, mas um fator de qualidade continua preocupando os provedores de serviços e usuário: a dependabilidade. Dentre as modalidades de serviços mais populares de computação em nuvem, encontram-se três: Infrastructure as a Service (IaaS), focado em administração de sistemas e infraestrutura; Platform as a Service (PaaS), que possibilita a implantação, hospedagem e gerenciamento de aplicações, onde os principais usuários são desenvolvedores e gerentes de configuração; Software as a Service (SaaS), que geralmente são aplicativos voltados ao usuário final. Nesse trabalho foram propostos cenários para a implantação da PaaS (Platform as a Service) Cloud Foundry. Esses cenários foram modelados de forma hierárquica e heterogênea com o uso de modelos analíticos de diagrama de bloco de confiabilidade e cadeias de Markov. Com base nesses modelos, foram feitas análises de disponibilidade, confiabilidade e de sensibilidade. Foram identificados gargalos para a disponibilidade da plataforma e possíveis soluções para os mesmos. Com a análise de sensibilidade, também foram mostrados cenários que suportavam alta disponibilidade como menor uso de componentes redundantes.
Avaliação NOSQL para indexação do TwitterCaliel Costa
A Gestão do Conhecimento, através de suas técnicas e ferramentas, busca ajudar as empresas a aprender e inovar para atingir melhores resultados e serem mais eficientes no mercado. No entanto, essas mesmas empresas possuem cada vez mais informações internas e externas disponíveis e, muitas vezes, essas diversas informações (dados relacionais, e-mails, vídeos, imagens, etc.) precisam ser analisadas em um intervalo curto de tempo. Esse cenário é denominado Big Data.
Os bancos de dados relacionais podem não estar preparados para suprir as necessidades desse cenário. Conforme o volume de dados aumenta, a capacidade de processamento do servidor também deve aumentar para continuar atendendo aplicações e usuários, necessitando de investimentos crescentes em infraestrutura. Para atender a essas necessidades surgiu um novo paradigma de banco de dados chamado NoSQL. O modelo de dados deixa de ser relacional e passa a ser representado como objetos, documentos ou grafos, e a arquitetura do sistema é voltada para múltiplos servidores, propiciando fácil escalabilidade e alta disponibilidade. O trabalho apresenta todo este contexto e caracteriza os principais sistemas de bancos de dados existentes no mercado.
Ele tem como objetivo avaliar a utilização de um banco de dados NoSQL para a indexação de mensagens do Twitter selecionadas através de uma Taxonomia.
CloudModelTest — Seminário de Andamento da Proposta de DissertaçãoMateus Aubin
Apresentação realizada no Seminário de Andamento do projeto de mestrado CloudModelTest: Um modelo de elasticidade de recursos em duas camadas aplicado ao problema de adequação de sistemas de substituição filogenética.
O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001 e com o apoio da FAPERGS no contexto do projeto Combinando Elasticidade Multi-Métrica em Nuvem nas Modalidades Vertical e Horizontal para Análise de Genes e Redução de Pragas Agrícolas, no Edital 02/2017.
Dissertação google inc act on general strike suzart Attain to cpf 051 812 95...Sandro Santana
Attain to cpf 051 812 955 17 Google Inc act in General Strick SUZART
CPF 051 812 955 17 Demonstrations, and Business between Sandro Suzart and Google Inc to Federal Reserve
QGIS 2.4: Recorte de Raster via Shapefile (Batch Mode)Jorge Santos
Com a evolução das demandas para Processamento de Imagens, precisamos adquirir equipamentos mais modernos e aperfeiçoar as técnicas até aqui conhecidas. Seguir adiante é o curso natural do desenvolvimento tecnológico e esta premissa está presente em todas as áreas do conhecimento.
No exercício anterior sobre recorte de raster na versão 2.0 do programa, nós realizamos longos procedimentos para edição de linha de comando.
Com a evolução do aplicativo SIG, o módulo Processamento está mais robusto e oferece opções mais consistentes. Um dia desses, fiz um ensaio para recorte de arquivo shapefile em lote e o programa correspondeu de forma satisfatória.
Gestão de Contexto aplicado a qualidade de serviço e experiência
Plataforma, arcabouço, framework destinada à coleta de dados, qualificação, arbirtragem, encaminhamento e gerenciamento de tráfego
Defesa de Artigo: "GPU-NB: A Fast CUDA -based Implementation of Naive Bayes"Andrew Edberg
Título Original:
GPU-NB: A Fast CUDA-based Implementation of Naive Bayes.
Título em Português:
GPU-NB: A Rápida Implementação da Naive Bayes baseada em CUDA.
Autores:
Viegas, F . et al. (Brazil).
Revista (publicação em October 2013):
Computer Architecture and High Performance Computing.
IEEE Transaction on Parallel and Distributed Systems.
Qualis CAPES:
A1 (Ciência da Computação e Engenharias IV), A2 (Interdisciplinar), B3 (Ciências Biológicas I).
A análise e compreensão das estratégias de ordenação são tarefas corriqueiras no processo de aprendizagem de complexidade computacional. Os métodos mais clássicos são debatidos e suas respectivas complexidades teóricas são confrontadas, porém muitas vezes, não há um aprofundamento e muitas características relevantes de determinadas técnicas são deixadas de lado não ocorrendo um confrontamento prático desses métodos.
Além disso não existe disponível, ate o momento, uma ferramenta gratuita para aferição da complexidade das estratégias de ordenação que leve em consideração a natureza das amostras a serem classificadas. Para preencher essa lacuna propomos um Assistente de Avaliação de Estratégias de Ordenação que possui como principais funcionalidades a geração de aglomerados numéricos aleatórios, a execução de determinadas estratégias sobre esses aglomerados e a exibição do esforço computacional e temporal necessários a execução.
O presente artigo tem como objetivo o estudo de modelos de Inteligência Artificial para sistemas de recomendação, case Santander do Kaggle, utilizando algoritmos de Machine Learning e Deep Learning para fazer a recomendação de produtos com base na história dos clientes do banco.
Semelhante a Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2 (20)
We are a company that delivers value to our customers by lowering costs with digital marketing and increasing the efficiency of campaigns and their conversions. Using the most advanced artificial intelligence models in the neuro-marketing perspective, we have been able to predict the effectiveness of a marketing campaign before it is published. After its publication, we evaluated the campaign, segmenting the public according to the standard extracted from each market segment, delivering information for strategic and efficient management.
Aplicações de Alto Desempenho com JHipster Full StackJoão Gabriel Lima
Palestra apresentada no Meetup da comunidade Sou Java Campinas sobre o JHipster, desmistificando muitas premissas e validando aquilo que temos de melhor no mercado de tecnologias Java.
Palestra apresentada no FEMUG-PE de Setembro! Mostro o ARKit Framework e algumas aplicações muito interessantes do uso de realidade aumentada. Por fim, apresento o React-Native-ArKit, biblioteca para que você, desenvolvedor React Native, também utilize o ARkit em seus projetos de forma facilitada e muito prática.
Com a crescente onda de dados gerados, está cada vez mais claro que tecnologias de preparação e processamento de Big Data precisam se apoiar em Inteligência Artificial. Nesta palestra apresento o estado da arte em Big Data e IA, mostro claramente a relação entre esses tópicos, dando um direcionamento de como esses conceitos devem ser aplicados. Foi mostrado um estudo de caso da Operação Serenata de Amor, proposta por cientistas de dados e jornalistas para o combate à corrupção no Brasil.
O modelo de regressão é então usado para prever o resultado de uma variável dependente desconhecida, dados os valores das variáveis independentes.
Nesta aula, mostro um passo a passo com a bordage teórica e prática de como fazer regressão linear utilizando o WEKA
Nesta apresentação, foram discutidos os principais casos que ocorreram entre 2015 e 2016, detalhando como cada um foi executado, as técnicas utilizadas e principalmente, dicas de como proteger-se delas.
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...João Gabriel Lima
Nesta palestra, vamos trabalhar uma abordagem passo a passo de como construir um modelo de classificação, para identificar os padrões de clientes de uma empresa de telefonia que cancelaram o serviço, de modo que a operadora possa prever o risco de cancelamento e iniciar um trabalho para evitar que isso aconteça.
Mineração de dados com RapidMiner + WEKA - ClusterizaçãoJoão Gabriel Lima
Nesta apresentação, apresento um passo a passo prático de como clusterizar e mais importante que isso, como interpretar os resultados aplicando isso para auxiliar a tomada de decisão.
No final temos um exercício de fixação muito interessante que nos dá a oportunidade de aplicar os conhecimentos adquiridos.
jgabriel.ufpa@gmail.com
Nessa apresentação apresento ambas arquiteturas e mostro que ao invés de escolher entre uma e outra, podemos tirar o que há de melhor em cada e utilizá-las de forma limpa, simples e objetiva.
Game of data - Predição e Análise da série Game Of Thrones a partir do uso de...João Gabriel Lima
Nesta apresentação mostro um estudo realizado pela universidade de Munique que visa prever a probabilidade de um personagem morrer na próxima temporada de acordo com 24 características pré-selecionadas
Apresentação sobre o aplicativo e-Trânsito cidadão: https://play.google.com/store/apps/details?id=com.huddle3.etranstitocidadaov2
Contendo notícias e provendo consulta sobre o IPVA
[Estácio - IESAM] Automatizando Tarefas com Gulp.jsJoão Gabriel Lima
Tutorial sobre Gulpjs
Especialização em Desenvolvimento Web - Instituto de Estudos Superiores da Amazônia
Neste tutorial apresento a facilidade proporcionada por automatizadores e abordo especificamente o [Gulp.js](gulpjs.com)
Palestra apresentada no JsDay Recife 2015, onde mostro uma visão geral sobre o cenário da Internet das Coisas com Javascript. Primeiramente destaco os conceitos gerais, em seguida justifico o uso de javascript, além disso, mostro as principais ferramentas, bibliotecas e API's. Cito os principais projetos na área e mostro um projeto na prática implementado em javascript, utilizando a tecnologia bluetooth para contrução de smarthomes, provendo a comunicação entre o dispositivo controlador e o smartphone do usuário.
Escalando o algoritmo de aprendizagem da estrutura da rede bayesiana k2
1. Escalando o Algoritmo de aprendizagem da
estrutura Bayesiana k2 utilizando MapReduce
e banco de dados NoSQL
J. Gabriel Lima
http://jgabriellima.in
jgabriel.ufpa@gmail.com
2. Revisão...
Redes Bayesianas:
Um dos principais métodos para a modelagem da incerteza, incerteza
permitindo tanto a previsão quanto o diagnóstico de eventos.
Modelos que codificam os relacionamentos probabilísticos entre
as variáveis que definem um determinado domínio e que são
utilizadas para representar processos probabilísticos e causais.
causais
grafo acíclico dirigido, composto por uma estrutura qualitativa,
dirigido qualitativa
representando as dependências entre suas variáveis; e quantitativa,
quantitativa
avaliando, em termos probabilísticos, essas dependências
3. Revisão...
Redes Bayesianas:
O aprendizado de estrutura é um importante problema a ser estudado pelo
fato de o tamanho do espaço de busca de possíveis estruturas aumentar
exponencialmente junto com o número de variáveis do modelo.
Esse crescimento exponencial pode ser visualizado pela fórmula:
4.
5. Algoritmo K2
Embora proposto em 1992, ainda se apresenta como uma grande
referência entre os algoritmos existentes para aprendizado de redes
Bayesianas, sendo um dos mais confiáveis e bem sucedidos
algoritmos de aprendizado.
Percorre todo o especo de possíveis estruturas candidatas
aplicando uma pontuação de acordo com a equação:
6.
7. Revisão...
MapReduce:
O cálculo toma um conjunto de pares de entradas de chave/valor, e
produz um conjunto de pares de saídas chave/valor.
O usuário que implementa o MapReduce expressa o cálculo como duas
funções: Map e Raduce.
8. Map
Escrito pelo usuário, leva um par de entrada e produz um conjunto de
pares intermediários de chave/valor.
Neste processo há uma junção de todos os valores intermediários
associados com uma mesma chave intermediária, afim de passá-los
para a função Reduce.
9. A função Reduce, também escrita pelo usuário, aceita
uma chave intermediária e um conjunto de valores para essa chave.
Ela faz uma fusão desses valores em conjunto, para formar um menor
conjunto de valores possível.
Tipicamente apenas zero ou um valor de saída é produzido por um método
Reduce.
Os valores intermédios são fornecidos para a função através de uma
iteração. Isto permite-nos lidar com listas de valores que são
demasiadamente grandes para caber na memória.
10.
11. Estudo de Caso
Base de Segurança Pública do Estado do Pará:
Nº Total de Registros: 769.254
Bairros: 46
Bairros
Crime: 388
Crime
Local: 32
Local
Logradouro: 3.312
Logradouro
Unidade Policial: 304
Policial
Classe Crime: 46
Crime
12. Problemáticas
BAIRRO → 46
BAIRRO, CRIME → 6.238
BAIRRO,CRIME,LOCAL → 26.772
Muitas iterações dentro de muitas combinações
457784406908348220669381056297854997416
34114232516550750301927014...
13. MapReduce e o estudo de caso
As etapas mais com maior custo computacional
foram todas substituidas por redução de mapa.
O fluxo do algoritmo foi modificado de modo a
invocar a redução de mapa no lugar da busca no
banco de dados
Cenário:
Banco de Dados NoSQL MongoDB2 que
implementa MapReduce nativamente utilizando seu
Grid File System interno.
14. MapReduce e o estudo de caso
As Reduções de mapa a seguir , representam a etapa
de busca por frequencia equivalente ao aijk do
algoritmo
15. Redução de Mapa por Bairro (Count: 46, Time:
17030ms)
17030ms
Processamento interno do banco de dados
117100/769254 15%
260800/769254 33%
400600/769254 52%
534600/769254 69%
667600/769254 86%
16.
17.
18. Redução de Mapa por CRIME (Count: 388, Time:
22393ms)
Processamento interno do banco de dados
82600/769254 10%
193800/769254 25%
307500/769254 39%
404900/769254 52%
517000/769254 67%
628800/769254 81%
734300/769254 95%
19.
20.
21.
22. Para as bucas compostas, onde o resultado é a
combinação entre estados de vários atributos:
Ex.:
BAIRRO,CRIME (Count: 6238, Time: 24348ms)
53800/769254 6%
141700/769254 18%
239300/769254 31%
330300/769254 42%
423300/769254 55%
513600/769254 66%
598800/769254 77%
690300/769254 89%
27. Considerações Finais
Conclusão
Melhor desempenho do algoritmo bayesiano
Maior aproveitamento dos dados
Maior capacidade de processamento de consultas
complexas
Apesar de aumentar o desempenho em relação às
buscas complexas, ainda temos as barreiras
matemáticas.
Produtórios, Somatórios...