O Vowpal Wabbit (VW) é uma ferramenta de machine learning capaz de analisar grandes volumes de dados e extrair padrões para resolver problemas de classificação e regressão. O VW implementa algoritmos como gradiente estocástico para aprender modelos lineares a partir de exemplos de treinamento contendo características e resultados esperados.
O documento descreve o Vowpal Wabbit (VW), uma ferramenta de machine learning capaz de analisar grandes volumes de dados e extrair padrões através de classificação, regressão e descoberta de padrões. O VW usa algoritmos como gradiente estocástico para aprender modelos preditivos a partir de exemplos de treinamento contendo características e resultados esperados. Ele permite modelagem flexível de dados de entrada para treinamento e predição de modelos.
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidadeCarlos Augusto Oeiras
O documento discute conceitos básicos de machine learning, incluindo o que é ML, tipos de algoritmos, o processo de aprendizagem e criação de modelos. Explica que ML automatiza a construção de modelos analíticos para análise de dados e que é essencial para quando não se pode codificar ou escalonar soluções. Detalha as etapas do processo de aprendizagem, incluindo treinamento, validação e teste.
Este documento descreve um projeto educacional sobre funções quadráticas utilizando o software Wimplot. O projeto visa mostrar aos alunos do 1o ano do ensino médio a importância das funções quadráticas no dia a dia através de exemplos e análise gráfica. Serão realizadas 6 aulas práticas no laboratório de informática para explorar conceitos como vértice, raízes e curvatura da parábola.
O documento descreve a técnica de teste de mesa para verificar algoritmos. Ele explica que o teste de mesa simula a execução de um algoritmo sem usar um computador, utilizando apenas papel e caneta. Também fornece instruções sobre como construir uma tabela para realizar o teste de mesa e preenchê-la com valores de variáveis ao longo da execução do algoritmo.
O documento apresenta um tutorial sobre funções e ferramentas do Excel, incluindo referência absoluta, funções como SE, CONT.SE e SOMASE, procura com PROCV, índice, autofiltro, subtotais, macros com botões, tabelas dinâmicas, proteção de planilhas e vínculo de dados entre aplicativos do Office.
Aula 6 - Estruturas de seleção encadeada - parte 1Pacc UAB
O documento apresenta uma aula sobre estruturas de seleção encadeadas. Ele explica o que são estruturas de seleção encadeadas, sua sintaxe em Portugol e como resolvê-las. Dois exemplos de problemas são dados para exemplificar o uso de estruturas de seleção encadeadas, um para classificar o conceito de um aluno baseado em sua média e outro para identificar o tipo de um triângulo com base nas medidas de seus lados.
O documento apresenta um resumo sobre aprendizado de máquina, incluindo: objetivos da disciplina de aprendizado de máquina, bibliografia recomendada, métodos de avaliação, programa, exemplos de aplicações e tipos de aprendizado de máquina.
Muitos devem ter ouvido/lido sobre Apache Solr(http://lucene.apache.org/solr), mecanismo utilizado para o desenvolvimento de páginas de busca em sites, mas o fato é que temos muito pouco/ou nenhum material em português sobre o assunto, o que deixa muitos somente na curiosidade.
Nessa apresentação, vemos um pouco mais em detalhes sobre:
* o que é o Apache Solr
* como usá-lo(configurações básicas e alternativas hospedadas)
* como ele se integra ao Drupal
* cases e possibilidades
O documento descreve o Vowpal Wabbit (VW), uma ferramenta de machine learning capaz de analisar grandes volumes de dados e extrair padrões através de classificação, regressão e descoberta de padrões. O VW usa algoritmos como gradiente estocástico para aprender modelos preditivos a partir de exemplos de treinamento contendo características e resultados esperados. Ele permite modelagem flexível de dados de entrada para treinamento e predição de modelos.
"Desaprendizado de maquina" - Desmistificando machine learning na sua realidadeCarlos Augusto Oeiras
O documento discute conceitos básicos de machine learning, incluindo o que é ML, tipos de algoritmos, o processo de aprendizagem e criação de modelos. Explica que ML automatiza a construção de modelos analíticos para análise de dados e que é essencial para quando não se pode codificar ou escalonar soluções. Detalha as etapas do processo de aprendizagem, incluindo treinamento, validação e teste.
Este documento descreve um projeto educacional sobre funções quadráticas utilizando o software Wimplot. O projeto visa mostrar aos alunos do 1o ano do ensino médio a importância das funções quadráticas no dia a dia através de exemplos e análise gráfica. Serão realizadas 6 aulas práticas no laboratório de informática para explorar conceitos como vértice, raízes e curvatura da parábola.
O documento descreve a técnica de teste de mesa para verificar algoritmos. Ele explica que o teste de mesa simula a execução de um algoritmo sem usar um computador, utilizando apenas papel e caneta. Também fornece instruções sobre como construir uma tabela para realizar o teste de mesa e preenchê-la com valores de variáveis ao longo da execução do algoritmo.
O documento apresenta um tutorial sobre funções e ferramentas do Excel, incluindo referência absoluta, funções como SE, CONT.SE e SOMASE, procura com PROCV, índice, autofiltro, subtotais, macros com botões, tabelas dinâmicas, proteção de planilhas e vínculo de dados entre aplicativos do Office.
Aula 6 - Estruturas de seleção encadeada - parte 1Pacc UAB
O documento apresenta uma aula sobre estruturas de seleção encadeadas. Ele explica o que são estruturas de seleção encadeadas, sua sintaxe em Portugol e como resolvê-las. Dois exemplos de problemas são dados para exemplificar o uso de estruturas de seleção encadeadas, um para classificar o conceito de um aluno baseado em sua média e outro para identificar o tipo de um triângulo com base nas medidas de seus lados.
O documento apresenta um resumo sobre aprendizado de máquina, incluindo: objetivos da disciplina de aprendizado de máquina, bibliografia recomendada, métodos de avaliação, programa, exemplos de aplicações e tipos de aprendizado de máquina.
Muitos devem ter ouvido/lido sobre Apache Solr(http://lucene.apache.org/solr), mecanismo utilizado para o desenvolvimento de páginas de busca em sites, mas o fato é que temos muito pouco/ou nenhum material em português sobre o assunto, o que deixa muitos somente na curiosidade.
Nessa apresentação, vemos um pouco mais em detalhes sobre:
* o que é o Apache Solr
* como usá-lo(configurações básicas e alternativas hospedadas)
* como ele se integra ao Drupal
* cases e possibilidades
Este documento descreve a modelação de previsão de income utilizando a ferramenta SAS e as análises de dados realizadas nas ferramentas Pentaho e SQL Server utilizando os dados fornecidos. O modelo de previsão de income foi construído no SAS Enterprise Miner e os resultados foram utilizados nas ferramentas de BI. As ferramentas Pentaho e SQL Server foram usadas para criar dashboards, relatórios e análises multidimensionais dos dados.
TDC2016SP - SparkMLlib Machine Learning na Práticatdc-globalcode
O documento apresenta um caso de uso de machine learning na Movile para monitoramento de sua plataforma de tarifação. Foi desenvolvido o Watcher-AI, que usa regressão linear com Spark MLlib para prever métricas e detectar possíveis problemas com base nos dados históricos. O modelo treinado é implementado em Java para notificar a equipe quando há discrepâncias.
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...Deep Tech Brasil
O documento apresenta uma introdução sobre inteligência artificial e machine learning. A agenda inclui tópicos como o mercado atual, definição de IA/ML, conhecimentos recomendados, tipos de aprendizagem, passos para treinamento de modelos, AutoML, problemas comuns e implementação de modelos. O palestrante também apresenta uma demonstração prática usando um conjunto de dados sobre clientes de cartão de crédito.
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
Presented with Flavio Clésio at TDCSP2016 showing a Machine Learning solution for tracking and monitoring a critical billing platform.
Code repository:
https://github.com/eiti-kimura-movile/spark-mllib-sample
O documento discute a criação e exploração de experimentos de machine learning automatizados no Azure Portal. Ele explica brevemente o que é machine learning e seu fluxo de trabalho, apresenta o Azure Machine Learning Service e sua capacidade de machine learning automatizado, e fornece uma demonstração da gestão de modelos no serviço.
Este documento discute métricas, estimativas e planejamento para projetos de software orientado a objetos. Ele apresenta métricas comuns como número de classes, casos de uso e subsistemas que podem ser usadas para estimar o esforço de desenvolvimento. Também fornece diretrizes como classificar o tipo de interface do produto e multiplicar o número de classes-chave por um fator para estimar classes de suporte.
Machine Learning: Do Notebook ao modelo em produçãoMarlesson Santana
O documento discute o pipeline completo de machine learning, desde a preparação dos dados até o deploy do modelo em produção. Ele introduz os principais conceitos de ML e descreve as etapas do pipeline, incluindo preparação dos dados, treinamento do modelo, deploy do serviço e feedback loop. Além disso, apresenta o MLflow como uma plataforma que organiza todo o pipeline de ML com reprodutibilidade, documentação e capacidade de deploy simplificado em diferentes ambientes.
Este documento resume uma apresentação sobre mineração de dados com SQL Server 2008 R2. Apresenta conceitos básicos de mineração de dados, como classificação, agrupamento, associação e regressão. Detalha os algoritmos de mineração disponíveis no SQL Server e em outros produtos da Microsoft como Excel e Visio. Demonstra como realizar mineração de dados no SQL Server, Integration Services e em add-ins para Office.
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...Aislan Honorato
O documento apresenta uma palestra sobre Inteligência de Negócios (BI) realizada pelo professor Aislan Honorato. A palestra abordou tópicos como banco de dados relacional e OLAP, framework de BI, levantamento de indicadores, data warehouse, ETL, cubos dimensionais e ferramentas de visualização como Power BI. O professor também apresentou seu currículo e realizou uma demonstração prática no Power BI.
O documento discute modelos de arquitetura de software, padrões de projeto e o framework Struts. Aborda os modelos de 2, 3 e 4 camadas, o padrão Model-View-Controller (MVC), padrões como Front Controller e patterns como o DAO. Explica como frameworks como Struts implementam esses padrões e discute casos de uso, modelagem, fluxos e o futuro das certificações em CMM.
O documento descreve um simulador de treinamento para despachantes (SITEDE) desenvolvido pela empresa Concert para a AES Brasil. O simulador permite treinar despachantes em cenários simulados com base em dados históricos para melhorar a eficiência e eficácia no atendimento de ocorrências.
O documento apresenta os principais tópicos sobre programação visual e console, modelos de desenvolvimento de software como RAD e cascata, e o que é uma IDE. O RAD é definido como um modelo incremental que enfatiza um curto ciclo de desenvolvimento de até 90 dias, dividido em 5 etapas. Uma IDE é descrita como um programa para desenvolver outros programas, com exemplos como Delphi, Visual Studio e NetBeans.
Carlos Augusto Oeiras é um analista de dados e data scientist com foco em análise de documentos fiscais, comportamentos de usuários e análise de sentimentos. Ele é competitivo no Kaggle com o título de "Master" e ativo em várias comunidades de data science. A apresentação discute machine learning, Azure ML Studio, Azure ML Services e como eles podem otimizar modelos, incluindo demonstrações.
TDC2016SP - Colocando modelos de Machine Learning em produção.tdc-globalcode
O documento discute como colocar modelos de machine learning em produção de forma eficiente. Primeiro, explica como os modelos são criados a partir de dados e algoritmos de treinamento. Em seguida, descreve os desafios de disponibilizar modelos para predições em aplicações reais e apresenta quatro soluções: exportação do modelo, projeção do modelo, microserviço e MLaaS. Por fim, demonstra como funciona uma plataforma MLaaS.
Ferramentas informáticas para a Gestão: ExcelVitor Gonçalves
- O documento descreve um curso de formação sobre empreendedorismo que aborda ferramentas informáticas para gestão, incluindo folhas de cálculo. O curso irá ensinar conceitos básicos e avançados do Excel, bem como aplicações práticas como planos de negócio.
1) O documento discute as Olimpíadas Nacionais de Informática em Portugal, que se realizaram recentemente sob circunstâncias difíceis devido à retirada de patrocínio.
2) Sem o principal patrocinador, a Caixa Geral de Depósitos, não haverá estágio de preparação para os alunos selecionados, pondo em risco a participação portuguesa nas Olimpíadas Internacionais de Informática.
3) Defende-se que é necessário melhorar a visibilidade dos patrocinadores para incentivar novos
O documento descreve o programa VisuALG, que permite editar, interpretar e executar algoritmos escritos em pseudocódigo. O VisuALG possui uma interface gráfica simples com editor de texto e ferramentas para executar e depurar algoritmos. O documento também fornece exemplos básicos de algoritmos em Portugol, incluindo um programa "Olá Mundo" e explicações sobre elementos fundamentais como declarações, variáveis, constantes e operadores.
Machine Learning Canvas: Da coleta de dados à geração de valorAlexandre Ray
Sistemas baseados em Machine Learning são complexos. É comum observar que alguns modelos não resolvem os problemas que deveriam resolver e acabam não sendo utilizados na prática. O Machine Learning Canvas visa levantar as informações principais para os projetos de Machine Learning. Neste mini talk, vamos explorar qual é esse caminho desde a coleta dos dados até a geração de valor.
Construindo um micro-serviço Java 100% funcional em 15 minutosRafael Chaves
O documento apresenta uma abordagem para construir rapidamente um microserviço Java usando modelagem em UML textual (TextUML) e geração de código. Apresenta uma aplicação exemplo de reembolso de despesas modelada em TextUML e discute como entidades, relacionamentos, ações e outros elementos seriam mapeados para código Java usando JPA, JAX-RS e outras tecnologias. A solução proposta visa aumentar a produtividade reduzindo o tempo de desenvolvimento inicial.
Este documento descreve a modelação de previsão de income utilizando a ferramenta SAS e as análises de dados realizadas nas ferramentas Pentaho e SQL Server utilizando os dados fornecidos. O modelo de previsão de income foi construído no SAS Enterprise Miner e os resultados foram utilizados nas ferramentas de BI. As ferramentas Pentaho e SQL Server foram usadas para criar dashboards, relatórios e análises multidimensionais dos dados.
TDC2016SP - SparkMLlib Machine Learning na Práticatdc-globalcode
O documento apresenta um caso de uso de machine learning na Movile para monitoramento de sua plataforma de tarifação. Foi desenvolvido o Watcher-AI, que usa regressão linear com Spark MLlib para prever métricas e detectar possíveis problemas com base nos dados históricos. O modelo treinado é implementado em Java para notificar a equipe quando há discrepâncias.
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...Deep Tech Brasil
O documento apresenta uma introdução sobre inteligência artificial e machine learning. A agenda inclui tópicos como o mercado atual, definição de IA/ML, conhecimentos recomendados, tipos de aprendizagem, passos para treinamento de modelos, AutoML, problemas comuns e implementação de modelos. O palestrante também apresenta uma demonstração prática usando um conjunto de dados sobre clientes de cartão de crédito.
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
Presented with Flavio Clésio at TDCSP2016 showing a Machine Learning solution for tracking and monitoring a critical billing platform.
Code repository:
https://github.com/eiti-kimura-movile/spark-mllib-sample
O documento discute a criação e exploração de experimentos de machine learning automatizados no Azure Portal. Ele explica brevemente o que é machine learning e seu fluxo de trabalho, apresenta o Azure Machine Learning Service e sua capacidade de machine learning automatizado, e fornece uma demonstração da gestão de modelos no serviço.
Este documento discute métricas, estimativas e planejamento para projetos de software orientado a objetos. Ele apresenta métricas comuns como número de classes, casos de uso e subsistemas que podem ser usadas para estimar o esforço de desenvolvimento. Também fornece diretrizes como classificar o tipo de interface do produto e multiplicar o número de classes-chave por um fator para estimar classes de suporte.
Machine Learning: Do Notebook ao modelo em produçãoMarlesson Santana
O documento discute o pipeline completo de machine learning, desde a preparação dos dados até o deploy do modelo em produção. Ele introduz os principais conceitos de ML e descreve as etapas do pipeline, incluindo preparação dos dados, treinamento do modelo, deploy do serviço e feedback loop. Além disso, apresenta o MLflow como uma plataforma que organiza todo o pipeline de ML com reprodutibilidade, documentação e capacidade de deploy simplificado em diferentes ambientes.
Este documento resume uma apresentação sobre mineração de dados com SQL Server 2008 R2. Apresenta conceitos básicos de mineração de dados, como classificação, agrupamento, associação e regressão. Detalha os algoritmos de mineração disponíveis no SQL Server e em outros produtos da Microsoft como Excel e Visio. Demonstra como realizar mineração de dados no SQL Server, Integration Services e em add-ins para Office.
PowerBI na Pártica com Indicadores Elicitados com MindMap e Canvas consumidos...Aislan Honorato
O documento apresenta uma palestra sobre Inteligência de Negócios (BI) realizada pelo professor Aislan Honorato. A palestra abordou tópicos como banco de dados relacional e OLAP, framework de BI, levantamento de indicadores, data warehouse, ETL, cubos dimensionais e ferramentas de visualização como Power BI. O professor também apresentou seu currículo e realizou uma demonstração prática no Power BI.
O documento discute modelos de arquitetura de software, padrões de projeto e o framework Struts. Aborda os modelos de 2, 3 e 4 camadas, o padrão Model-View-Controller (MVC), padrões como Front Controller e patterns como o DAO. Explica como frameworks como Struts implementam esses padrões e discute casos de uso, modelagem, fluxos e o futuro das certificações em CMM.
O documento descreve um simulador de treinamento para despachantes (SITEDE) desenvolvido pela empresa Concert para a AES Brasil. O simulador permite treinar despachantes em cenários simulados com base em dados históricos para melhorar a eficiência e eficácia no atendimento de ocorrências.
O documento apresenta os principais tópicos sobre programação visual e console, modelos de desenvolvimento de software como RAD e cascata, e o que é uma IDE. O RAD é definido como um modelo incremental que enfatiza um curto ciclo de desenvolvimento de até 90 dias, dividido em 5 etapas. Uma IDE é descrita como um programa para desenvolver outros programas, com exemplos como Delphi, Visual Studio e NetBeans.
Carlos Augusto Oeiras é um analista de dados e data scientist com foco em análise de documentos fiscais, comportamentos de usuários e análise de sentimentos. Ele é competitivo no Kaggle com o título de "Master" e ativo em várias comunidades de data science. A apresentação discute machine learning, Azure ML Studio, Azure ML Services e como eles podem otimizar modelos, incluindo demonstrações.
TDC2016SP - Colocando modelos de Machine Learning em produção.tdc-globalcode
O documento discute como colocar modelos de machine learning em produção de forma eficiente. Primeiro, explica como os modelos são criados a partir de dados e algoritmos de treinamento. Em seguida, descreve os desafios de disponibilizar modelos para predições em aplicações reais e apresenta quatro soluções: exportação do modelo, projeção do modelo, microserviço e MLaaS. Por fim, demonstra como funciona uma plataforma MLaaS.
Ferramentas informáticas para a Gestão: ExcelVitor Gonçalves
- O documento descreve um curso de formação sobre empreendedorismo que aborda ferramentas informáticas para gestão, incluindo folhas de cálculo. O curso irá ensinar conceitos básicos e avançados do Excel, bem como aplicações práticas como planos de negócio.
1) O documento discute as Olimpíadas Nacionais de Informática em Portugal, que se realizaram recentemente sob circunstâncias difíceis devido à retirada de patrocínio.
2) Sem o principal patrocinador, a Caixa Geral de Depósitos, não haverá estágio de preparação para os alunos selecionados, pondo em risco a participação portuguesa nas Olimpíadas Internacionais de Informática.
3) Defende-se que é necessário melhorar a visibilidade dos patrocinadores para incentivar novos
O documento descreve o programa VisuALG, que permite editar, interpretar e executar algoritmos escritos em pseudocódigo. O VisuALG possui uma interface gráfica simples com editor de texto e ferramentas para executar e depurar algoritmos. O documento também fornece exemplos básicos de algoritmos em Portugol, incluindo um programa "Olá Mundo" e explicações sobre elementos fundamentais como declarações, variáveis, constantes e operadores.
Machine Learning Canvas: Da coleta de dados à geração de valorAlexandre Ray
Sistemas baseados em Machine Learning são complexos. É comum observar que alguns modelos não resolvem os problemas que deveriam resolver e acabam não sendo utilizados na prática. O Machine Learning Canvas visa levantar as informações principais para os projetos de Machine Learning. Neste mini talk, vamos explorar qual é esse caminho desde a coleta dos dados até a geração de valor.
Construindo um micro-serviço Java 100% funcional em 15 minutosRafael Chaves
O documento apresenta uma abordagem para construir rapidamente um microserviço Java usando modelagem em UML textual (TextUML) e geração de código. Apresenta uma aplicação exemplo de reembolso de despesas modelada em TextUML e discute como entidades, relacionamentos, ações e outros elementos seriam mapeados para código Java usando JPA, JAX-RS e outras tecnologias. A solução proposta visa aumentar a produtividade reduzindo o tempo de desenvolvimento inicial.
2. Definição
O Vowpal Wabbit (VW) é uma ferramenta para criação de modelos de Machine
Learning capazes de extrair informações e padrões de grandes volumes de dados.
O VW pode ser usado para resolver problemas de Big Data rapidamente através de cases reais
através de problemas que envolvem classificação de dados, modelos de regressão e descoberta de padrões.
3. Principal developer of VW
http://research.yahoo.com http://research.microsoft.com
John Langford
jl@hunch.net
jcl@microsoft.com
5. O que é
Implementação de diversos algoritmos de machine learning.
• FEATURES – Subconjunto de dados com características relevantes.
• LABEL – Resultado esperado (o que se deseja prever)
• Job Description – Dado um conjunto de features, calcule (com certa precisão) o label correspondente.
• Entrada do VW – Textual (qualquer palavra pode ser utilizada como feature)
• Exemplo – nota, curso, professor, ...
8. Modelos
Modelos são simplificações da Realidade
Dados Brutos -> Features, Label
F(features) = Label
9. Aprendendo modelos
VW aproxima F da forma linear
F = C1*FEATURE1+C2*FEATURE2+C3*FEATURE3+...+Cn*FEATUREn
É basicamente um
somatório
dos pesos
multiplicados pelos
valores das features
10.
11. Stochastic Gradient Descent
É um algoritmo que busca aprender dado um conjunto de exemplos baseado no valor dos pesos correspondentes para as features.
Para isso, necessita de um “modelo de treino” (Aprendizagem Supervisionada).
Dentro da inteligência artificial, programas estocásticos* trabalham usando métodos probabilísticos para
solucionar problemas.
*Padrões estocásticos são aqueles que têm origem em processos não determinísticos, com origem em eventos aleatórios. Por
exemplo, o lançar de dados resulta num processo estocástico, pois qualquer uma das 6 faces do dado tem iguais probabilidades de
ficar para cima quando de seu arremesso.
12. Stochastic Gradient Descent
Aprendizagem Não Supervisionada O VW implementa apenas 1 algoritmo não supervisionado, mas não exploraremos neste
momento.
13. O treinamento
Partindo do modelo SUPERVISIONADO, criamos um modelo de treino com exemplos de
features e labels para que o sistema possa identificá-los.
Para isso precisamos definir uma pergunta para o vw prever a resposta:
Job Description: qual o tempo de compra para novos cadastros?
Features: Estado, DiaCadastro, MesCadastro, Idade, ...
Label: QtdeDiasAtéCompra
14. Modelo Preditivo
Modelagem:
O VW possui um modelo de entrada bastante flexível
[Label] [Importance [Tag]]|Namespace Features |Namespace Feature ....
Onde:
Namespace = String[:Value] (Pacotes de Features relacionadas)
Features = (String[:Value])*
15. Distribuição dos dados de entrada
2.025305865 |dados_cliente data_cadastro=30-09-2013 dia_cadastro:30.0
mes_cadastro=Setembro idade:24 cidade=passo_fundo estado=rs
data_nascimento=1990-07-02 recebe_mail_mkt:1.0 |dados_compras
data_primeira_compra=14-01-2014 quantidade_free_ate_agora:4.0
http://hunch.net/~vw/validate.html
17. Distribuição dos dados de entrada
2.025305865 |dados_cliente data_cadastro=30-09-2013 dia_cadastro:30.0
mes_cadastro=Setembro idade:24 cidade=passo_fundo estado=rs
data_nascimento=1990-07-02 recebe_mail_mkt:1.0 |dados_compras
data_primeira_compra=14-01-2014 quantidade_free_ate_agora:4.0
http://hunch.net/~vw/validate.html
18. Como otimizar essa grande quantidade de parâmetros?
Em geral os algoritmos de predição trabalham com números, e para converter as features em números eles traduzem usando
tabelas
1 | dia_cadastro:1.0
2 | dia_cadastro:2.0
3 | dia_cadastro:3.0
...
999 | mes_cadastro=Fevereiro
...
651468 | idade:37
* Isso acaba consumindo muito tempo e memória.
* Isso não acontece no VW pois ele utiliza HASHING TRICK!
19. Como otimizar essa grande quantidade de parâmetros?
Como converter esses números em palavras?
O VW, através da função hash, pega a String e faz um hash dela, e a utiliza como entrada na
função de otimização.
Isso é particularmente útil para os algoritmos de aprendizagem que consomem grandes
quantidades de dados. Assim aumenta a ESCALABILIDADE