A palestra "Uma breve introdução ao Big Data e Inteligência Artificial" aborda conceitos fundamentais, histórico e aplicações de Big Data e Inteligência Artificial (IA), destacando a importância dessas tecnologias no mundo atual e seu impacto em diversos setores. Inicia apresentando os palestrantes Leonardo de Souza Marques e Alessandro de Oliveira Binhara, profissionais com vasta experiência em dados, IA e sistemas computacionais.
A palestra destaca a evolução do Big Data, citando o aumento exponencial do volume de dados gerados, de 9 zettabytes em 2013 para 120 zettabytes em 2023, e a capacidade atual de processamento e análise de grandes volumes de dados, possibilitada pela computação em nuvem e avanços tecnológicos. Destaca-se a transformação digital em áreas como a genômica, onde o custo de sequenciamento de genes reduziu significativamente, permitindo avanços científicos e médicos.
Profissionais de dados são fundamentais nesse contexto, com a palestra elucidando as funções e a importância do cientista e do engenheiro de dados, além de apresentar dados salariais dos EUA para essas profissões em 2023. A discussão se estende para o mercado de Big Data, projetando um crescimento significativo para 2024, com o mercado de big data analytics alcançando $34956 bilhões.
Sobre a Inteligência Artificial, a palestra percorre desde suas bases filosóficas e matemáticas até aplicações modernas, como reconhecimento de padrões e aprendizado de máquina. Destaca marcos históricos da IA, como o Teste de Turing, a Conferência de Dartmouth, o desenvolvimento de sistemas especialistas, até avanços recentes em deep learning e linguagem natural processamento.
Aspectos técnicos são abordados, como a definição e funcionamento de neurônios artificiais, redes neurais, e o processo de treinamento de redes neurais, incluindo conceitos como feedforward, backpropagation e ajuste de pesos. A palestra também trata do aprendizado de máquina, diferenciando entre seus tipos (supervisionado, não supervisionado e por reforço) e destacando sua importância para o desenvolvimento de sistemas inteligentes.
O ChatGPT, desenvolvido pela OpenAI, é apresentado como exemplo de aplicação da IA, com ênfase em sua capacidade de gerar conversações realistas e aplicar conhecimentos em matemática e interpretação de imagem. A aplicação de IA em sistemas de recomendação é exemplificada pelo caso da Netflix, onde 75% das visualizações são baseadas em recomendações, evidenciando o impacto da tecnologia no entretenimento e na tomada de decisões comerciais.
A palestra conclui questionando a preparação das empresas para a integração da IA em suas operações e a abertura para perguntas, promovendo a discussão sobre o impacto das tecnologias apresentadas no futuro das organizações e da sociedade
2. Leonardo de Souza Marques
Curso de Especialização em Inteligência Artificial Aplicada (UFPR),
Graduado em Análise e Desenvolvimento de Sistemas (UFPR),
Cientista e Engenheiro de Dados, Especialista em Sistemas
Cognitivos.
Trabalho com visão computacional, principalmente com identificação
e classificação de objetos, aumento de resolução de imagens de
vídeo, RGBD. Também com NLP, text to speech, speech to text e
resumo (inglês/português). Projeção e classificação de dados
temporais, científicos, financeiros, biológicos entre outros.
Linkedin
3. Alessandro de Oliveira Binhara
É Engenheiro de Software com 24 anos de experiência na indústria de
TI com foco em ambiente open source como Hadoop e Projeto Mono.
Amplo conhecimento em Bigdata ao longo de +12 anos trabalhando
em Apache Hadoop e Hadoop EcoSystem para infraestrutura de
processamento e armazenamento de Bigdata. Instalou e colocou em
produção no Buscapé um dos primeiro cluster em Hadoop.
Atualmente é engenheiro de dados sênior da RDStation, datalake
hadoop da RDStation virou case internacional na Oracle Cloud em
2022.
Linkedin
5. Por que??? BigData ??? CloudComputing??
● Em 2001 :
○ Centenas de Milhares de dólares para sequenciar Um Gene
● Atualmente: menos de 6 mil dólares por Gene
● Atualmente o sequenciamento gera cerca de 50 petabytes de dados.
● 1 semana para decodificar 1 Gene
● Atualmente:
○ Se Faz o sequenciamento de 100 Gene por dia
6. O que é BigData ???
2023 - 120
zettabytes
2013 - 9 zettabytes
7. Curiosidades sobre ZetaBytes
O volume de
dados criados
mundialmente
em 2023 é de
120
zettabytes
Diariamente: 328,77 milhões TB que é equivalente: 0,33 ZB/dia
Considerando que uma Bíblia tem
cerca de 5 megabytes em formato
digital, teríamos aproximadamente
65,7 bilhões de Bíblias sendo
escritas todos os dia!
8. O que é Um Cientista de Dados ?
O cientista de dados é um especialista em análise de informações. A
característica mais importante desse profissional, portanto, é a
capacidade analítica. Por isso, quem tem uma sólida formação em
matemática e lógica, como engenheiros, economistas, estatísticos e
matemáticos, é forte candidato a se sair bem na carreira.
Salários nos EUA (2023):
● Cientista de Dados:
● Média: $127K
● Faixa: $79K - $207K
● Engenheiro de Dados:
● Média: $117K
● Faixa: $76K - $184K
10. Não confunda os conceitos
● CloudComputing – computação em nuvem
● BigData – Armazenamento e Processamento de Grandes Volumes de Dados
● BI Businnes Inteligence – Apresentar a informações de forma clara, sendo a fonte de
inteligência para os negócios
● Cientista de Dados – é a pessoa capaz de orquestrar todos esses conceitos
apresentando o valor que a empresa quer das informações.
● Engenheiro de Dados - é a pessoa que trabalha com a infra estrutuar de hardware e
software para suportar toda a manipulação de dados
11. Mercado em 2024
● Volume de Mercado:
○ $84 bilhões
● Mercado de big data analytics:
○ $349,56 bilhões
● Crescimento do Mercado:
○ 9%
12. O que é Inteligência Artificial ?
Refere-se à capacidade de sistemas computacionais de realizar
tarefas o que geralmente exigem inteligência humana.
Inclui
● Reconhecimento de padrões
● Aprendizado
● Planejamento
● Tomada de decisões.
13. Como nasceu a
inteligência artificial ???
● Fundação Filosófica:
○ Autômatos e máquinas pensantes desde a Antiguidade.
● Base Matemática:
○ Lógica booleana e teorias de computabilidade (Gödel, Church, Turing).
● Alan Turing:
○ Introduz máquina universal e propõe Teste de Turing em 1950.
● Advento dos Computadores:
○ Plataforma para testar ideias de IA pós-Segunda Guerra.
● Conferência de Dartmouth (1956):
○ Nascimento oficial da IA;
○ Termo "inteligência artificial" cunhado por John McCarthy.
● Investimento e Pesquisa:
○ Otimismo inicial e estabelecimento da IA como campo acadêmico. Teste de Turing
14. Marcos históricos
Inteligência Artificial ?
● 1950: Teste de Turing proposto por Alan Turing.
● 1956: Termo "inteligência artificial" cunhado na Conferência de Dartmouth por John McCarthy .
● 1960s: Primeiros programas conversacionais (ELIZA) e robôs (Shakey) primeiro robot move guiado por IA.
● 1980s:
a. Ascensão dos sistemas especialistas; retropropagação revigora redes neurais.
b. Avanços nos sistemas baseados em regras que são capazes de realizar tarefas específicas em níveis comparáveis
ou, em alguns casos, superiores aos humanos.
c. A introdução do algoritmo de retropropagação revigora o campo das redes neurais.
● 1997: Deep Blue da IBM derrota campeão mundial de xadrez.
● 2000:
a. Sistemas de Recomendação: Grandes empresas, como Amazon e Netflix, começam a usar IA para recomendar
produtos ou filmes.
b. Robótica e Automação: Robôs como o Roomba da iRobot começam a fazer parte da vida cotidiana.
● 2010s: Avanços em deep learning; AlphaGo vence no Go; introdução de BERT .
● 2020s: Modelos linguísticos avançados como GPT da OpenAI.
15. O que é um Neurônio Artificial ?
Definição
Representação matemática de um neurônio biológico.
Entradas
Dados recebidos pelo neurônio (como dendrites).
Pesos
Valores ajustáveis que determinam a importância da entrada.
Função de Agregação
Soma ponderada das entradas
Função de Ativação
Transforma a soma em uma saída
Saída
Resultado final (como axônio em neurônios biológicos).
Funcionamento Básico:
1) Cada valor de entrada é multiplicado pelo seu peso.
2) Os produtos resultantes são somados.
3) O valor somado é passado pela função de ativação para
produzir a saída final.
McCulloch & Pitts (1943): Primeiro modelo matemático de neurônio.
16. O que é uma Rede Neural ?
É um modelo computacional inspirado na forma como as redes neurais
biológicas funcionam no cérebro humano.
Funcionamento Básico:
1)Os dados são introduzidos na camada de entrada.
2)São processados sequencialmente através das camadas.
3)A transformação ocorre por meio da soma ponderada das
entradas, seguida pela função de ativação.
4)A camada de saída fornece o resultado final.
Pode ser uma classificação, uma regressão ou qualquer outro tipo
17. Como é o treinamento
de uma rede neural ?
Inicialização
Comece com pesos aleatórios pequenos.
Feedforward
Propague entradas pela rede até a saída.
Cálculo da Perda
Determine a diferença entre saída prevista e real.
Backpropagation
Calcule contribuição de cada peso para o erro.
Atualização de Pesos
Ajuste pesos usando algoritmos como descenso de gradiente.
Iteração
Repita processo para muitas entradas e épocas.
Validação/Teste
Avalia desempenho em dados não usados no treinamento.
Demonstração
Treinamento para reconhecimento de caracteres.
Muito utilizado em radares fotográficos para
reconhecimento de placas
18. O que é Machine Learning
Aprendizado de Máquina
É o processo que
permitir que
computadores
realizem tarefas
sem programação
explícita através do
aprendizado a partir de
exemplos de dados.
20. E o que é o GPTChat ?
(processo de treinamento)
21. IA Sistemas de Recomendação
Vitrines inteligentes para lojas online, Aumento em 60% o
volume de faturamento.
75% do que é visto é indicado pelo sistemas de
recomendação.
Ela seleciona filmes, cria conteúdo e tomar decisões
multimilionárias com a IA.
22. Case: IA na na Netflix
75% do que é visto é indicado pelo sistemas de recomendação.
Exemplos de métricas
● Quando você pausa, retrocede ou avança rapidamente
● A data e horas , onde (CEP)
● Quando você pausa e sai (e se voltar)
● As avaliações dadas (cerca de 4 milhões por dia)
● Pesquisas (cerca de 3 milhões por dia)
A Netflix também analisa os dados dos filmes. Eles tiram várias “capturas de tela” para observar as características “no momento”. A
Netflix confirmou que sabe quando os créditos começam a rolar; mas há muito mais do que apenas isso. Alguns imaginaram que essas
características podem ser o volume, as cores e o cenário que ajudam a Netflix a descobrir do que os usuários gostam.
Ela seleciona filmes, cria conteúdo e tomar decisões multimilionárias com a IA.
23. Qual grande
questão ?
A IA chegou!
Mas será que as
empresas estão
preparadas ???
Qual a sua opinião ?
24. Obrigado - Perguntas ???
Prompts usados nessa palestra
Escolha do título da palestra
https://chat.openai.com/share/0b077281-a254-4c57-ad8c-8cbb40ce4266
Promtps usado para ajudar na montagem dos slides
https://chat.openai.com/share/09fb445c-a1e9-4e09-9943-ee7069a2422a
Notas do Editor
65 Big Data Statistics For 2024 (Facts, Trends & More) (demandsage.com)
65 Big Data Statistics For 2024 (Facts, Trends & More) (demandsage.com)
Aprendizado de Máquina:
Subcampo da IA onde máquinas aprendem a partir de dados.
Reconhecimento de Padrões:
IA identifica e utiliza padrões em dados.
Processamento de Linguagem Natural:
Compreensão e geração de linguagem humana por máquinas.
Algumas Aplicações na Engenharia
Análise de Estruturas
Otimização de Projetos
Gestão de Tráfego
Automação de Equipamentos
Análise de Impacto Ambiental
Simulações
A história da inteligência artificial (IA) abrange várias décadas e é marcada por avanços teóricos, desafios e reviravoltas tecnológicas. Aqui está uma visão cronológica dos momentos mais significativos:
1950s:
Teste de Turing (1950): Alan Turing propõe um critério de "inteligência" para máquinas, conhecido como o Teste de Turing.
Início dos Trabalhos (1956): John McCarthy cunha o termo "inteligência artificial" e organiza a Conferência de Dartmouth, marcando o início da pesquisa de IA como disciplina acadêmica.
1960s:
Eliza (1964-1966): Joseph Weizenbaum cria ELIZA, um dos primeiros programas de computador que tenta simular uma conversa humana.
Shakey (fim dos anos 1960): O primeiro robô móvel controlado por IA desenvolvido no Stanford Research Institute.
1970s:
Marvin Minsky & Seymour Papert: Publicam "Perceptrons", que destaca as limitações das redes neurais da época, levando a uma redução no financiamento e interesse neste campo.
1980s:
Sistemas Especialistas: Avanços nos sistemas baseados em regras que são capazes de realizar tarefas específicas em níveis comparáveis ou, em alguns casos, superiores aos humanos.
Backpropagation (1986): A introdução do algoritmo de retropropagação revigora o campo das redes neurais.
1990s:
Máquina de xadrez Deep Blue (1997): A IBM's Deep Blue derrota o campeão mundial de xadrez Garry Kasparov, um marco para a IA.
2000s:
Sistemas de Recomendação: Grandes empresas, como Amazon e Netflix, começam a usar IA para recomendar produtos ou filmes.
Robótica e Automação: Robôs como o Roomba da iRobot começam a fazer parte da vida cotidiana.
2010s:
Deep Learning: Redes neurais profundas levam a avanços significativos em tarefas como reconhecimento de imagem e processamento de linguagem natural.
AlphaGo (2016): O programa AlphaGo da DeepMind derrota o campeão mundial de Go, um jogo considerado muito mais complexo que o xadrez em termos de possibilidades.
BERT (2018): Google introduz a arquitetura BERT, estabelecendo novos padrões no processamento de linguagem natural.
2020s:
Modelos GPT: OpenAI lança modelos de linguagem GPT que mostram capacidades impressionantes em gerar texto coerente e útil.
Estes são apenas alguns dos muitos marcos na história da IA. O campo tem sido caracterizado por avanços e desafios constantes, e sua trajetória mostra como a colaboração entre disciplinas – da matemática à neurociência – pode levar a inovações revolucionárias.
Treinamento jogo dino do google
https://www.youtube.com/watch?v=NZlIYr1slAk
Componentes
Neurônios organizados em camadas
Operação
Processa dados via soma ponderada e função de ativação.
Ajuste
Conexões com pesos ajustáveis durante treinamento.
Variações
Desde simples perceptrons até redes profundas
https://www.youtube.com/watch?v=nF5XDp5d_FA
Treinar uma rede neural envolve ajustar os pesos das conexões na rede de forma que ela possa realizar uma tarefa específica, como classificar imagens ou prever valores. O processo geralmente se baseia em um conjunto de dados de treinamento e utiliza algoritmos de otimização para minimizar um erro ou perda. Aqui está uma explicação simplificada do processo:
Inicialização:
Comece com um modelo de rede neural, que consiste em várias camadas de neurônios interconectados.
Inicialize os pesos da rede, geralmente com valores pequenos e aleatórios.
Feedforward:
Para uma entrada específica do conjunto de treinamento, propague-a através da rede. Cada neurônio processa a entrada, e a passa adiante até a camada de saída.
Cálculo da Perda:
Use uma função de perda (ou função de custo) para calcular a diferença entre a saída prevista pela rede e a saída real (ou desejada). Por exemplo, a "entropia cruzada" é frequentemente usada em tarefas de classificação.
Backpropagation (Retropropagação):
Este é o coração do treinamento. Utiliza-se o gradiente do erro em relação a cada peso para atualizar os pesos da rede. Basicamente, ele calcula o quanto cada peso contribuiu para o erro usando a regra da cadeia do cálculo diferencial.
Os pesos são então ajustados na direção que minimiza o erro.
Atualização de Pesos:
Com os gradientes calculados, os pesos são atualizados usando um algoritmo de otimização. O mais comum é o "descenso de gradiente" (e suas variantes, como o descenso de gradiente estocástico ou o Adam).
Iteração:
Repita os passos de feedforward, cálculo de perda, backpropagation e atualização de pesos para muitos exemplos no conjunto de treinamento, geralmente várias vezes (épocas).
Validação e Teste:
Periodicamente, a rede é testada em um conjunto de validação (diferente do conjunto de treinamento) para monitorar o desempenho e prevenir overfitting (sobreajuste).
Após o treinamento, a rede é testada em um conjunto de testes para avaliar seu desempenho geral.
O objetivo final do treinamento é ter uma rede que generalize bem para dados não vistos anteriormente, ou seja, que tenha um bom desempenho não apenas no conjunto de treinamento, mas também em novos dados.
Tipos:
Supervisionado: Treino com dados etiquetados.
Não Supervisionado: Identifica padrões sem etiquetas.
Por Reforço: Aprende via recompensas/punições.
Aplicações: Reconhecimento de imagem, processamento de linguagem natural, sistemas de recomendação, previsões.
Importância: Depende da qualidade e quantidade dos dados.
Ferramentas: TensorFlow, PyTorch, Scikit-learn.
O ChatGPT é uma tecnologia de conversação desenvolvida pela OpenAI, e é baseada em deeplearning, técnicas de supervisão humana, modelo GPT-3.5 e GPT-4.0 como fonte primária de LLM (large language model), e rankeamento.
Utiliza filtros e pós-treinamento para rankear respostas
Usa pós-fitros e treinamento baseado em rank para escolher respostas
Hoje possui redirecionamentos pra outras tecnologias para resolver questoes matemáticas e de imagem.
QRCode
https://blog.kissmetrics.com/how-netflix-uses-analytics/
Sistema de Recomendação:
Since 75% of viewer activity is based on these suggestions,
https://twitter.com/netflix/status/365577591563882496
https://forms.gle/MMmoqtySScsisodv7
Iniciativa de Grupo de Estudo em Big Data e Ciência de Dados
Ola pessoal estou criamdo um grupo de estudo focado em tecnologias emergentes no campo do Big Data e Ciência de Dados.
O campo da tecnologia da informação está em constante evolução e expansão, apresentando oportunidades para os profissionais do setor. Com a ascensão e a prevalência do Big Data, surge uma necessidade de nos mantermos atualizados com as mais recentes tecnologias e práticas do setor. A criação deste grupo de estudo visa atender a essa necessidade.
Os principais objetivos deste grupo de estudo serão:
1. Aprimoramento das habilidades técnicas: Este grupo irá auxiliar seus membros a aprimorar suas habilidades e conhecimentos em tecnologias de Big Data e Ciência de Dados, desde conceitos fundamentais até técnicas avançadas.
2. Realizar compartivos em diversos ambiente de cloud e tecnologias relacioandos ao interesse do grupo.
3. Compartilhamento de conhecimento: O grupo proporcionará uma plataforma para discussão e compartilhamento de ideias, incentivando o aprendizado colaborativo e o crescimento profissional de todos os membros.
4. Promoção e organização de eventos de bigdata e ciencia de dados: tenho interesse em lançar o evento DataSciencSummit que ja realizei 2 edições 2018 e 2019 em parceria com o Tecpar
2. Acompanhamento das tendências atuais: O grupo se esforçará para manter seus membros atualizados com as últimas tendências e desenvolvimentos no campo do Big Data e Ciência de Dados.
4. Projetos práticos: Vamos realizar projetos em conjunto empresas e fornecedores para obter uma experiência prática das tecnologias e técnicas aprendidas. Realizando provas de conceitos nas empresas participantes e discutindo os resultados dentro do grupo.
Atualmente eu estou testando o DataBricks com Azure aqui na RD.
Os benefícios de se juntar a este grupo de estudos incluem:
1. Desenvolvimento de habilidades: Os membros do grupo terão a oportunidade de aprimorar suas habilidades técnicas, tornando-se mais qualificados e competitivos no mercado de trabalho.
2. Networking: Esta será uma grande oportunidade para se conectar e colaborar com profissionais e entusiastas semelhantes no campo.
3. Aprendizado contínuo: A aprendizagem colaborativa incentiva a exploração e a compreensão de novos conceitos, proporcionando um ambiente de aprendizagem contínua.
Já tenho uma lista de pessoas interessadas em participar que ja podemos iniciar uma agenda de atividades informais para começar a gerar nosso networking.
Você tem interesse em participar desso novo grupo na SUCESU - PR ?