O documento discute máquinas estocásticas e suas aproximações baseadas na mecânica estatística. Aborda conceitos como neurônios estocásticos, algoritmo de Metropolis, simulated annealing, amostragem de Gibbs, máquina de Boltzmann, máquina de Helmholtz e redes sigmoid belief. Fornece exemplos de como esses modelos inspirados na física podem ser usados para modelar distribuições de probabilidade e realizar tarefas como classificação e complementação de padrões.
Aula 3: Princípio da Complementariedade e o papel do observador na Mecânica Q...Adriano Silva
Este documento discute um experimento sobre a interferência de elétrons através de uma fenda dupla. Quando os elétrons são observados por fótons, o padrão de interferência desaparece. Diminuindo a intensidade da luz, alguns elétrons ainda mostram interferência, enquanto outros não. Isso levou ao Princípio da Complementaridade, que afirma que objetos quânticos podem se comportar como partículas ou ondas, dependendo da medição.
Este documento descreve um experimento de interferência com elétrons passando por uma fenda dupla. Ao contrário do que se esperaria para partículas, os elétrons exibem um padrão de interferência mesmo quando passam um de cada vez pela fenda, indicando que cada elétron "interfere consigo mesmo". Isso contradiz a intuição de que as partículas devem passar por apenas um buraco ou outro.
Aula 4: Função de onda e Equação de SchrödingerAdriano Silva
Este documento apresenta os conceitos fundamentais da mecânica quântica, introduzindo a função de onda e a equação de Schrödinger. A função de onda descreve o estado de uma partícula microscópica e satisfaz a equação de Schrödinger, que é uma equação em derivadas parciais. A interpretação probabilística da função de onda permite calcular a probabilidade de se encontrar a partícula em determinadas regiões do espaço.
O documento discute problemas que levaram ao desenvolvimento da mecânica quântica, incluindo a radiação do corpo negro. A radiação do corpo negro levantou questões sobre por que um corpo não pode esfriar até o zero absoluto. Vários pesquisadores contribuíram para explicar esse fenômeno, incluindo Prevost com sua teoria de troca de calor e Kirchoff com suas leis mostrando que a relação entre emissão e absorção de um corpo depende apenas da frequência e temperatura.
O documento discute os princípios fundamentais da mecânica quântica. Primeiramente, apresenta a necessidade de uma nova teoria para explicar fenômenos envolvendo radiação e partículas subatômicas. Em seguida, descreve os dois principais postulados da mecânica quântica: 1) a função de onda representa o estado do sistema e 2) a interpretação de Born, onde o módulo da função de onda ao quadrado representa a probabilidade de localização da partícula.
Demonstração da equação de schrodingerRayane Sodré
1) Erwin Schrödinger formulou a equação de onda, chamada Equação de Schrödinger, que descreve o comportamento de partículas subatômicas.
2) A Equação de Schrödinger surgiu da necessidade de conciliar a dualidade onda-partícula observada na física quântica. Ela relaciona a função de onda de uma partícula com a sua energia sob determinados potenciais.
3) A equação pode descrever tanto partículas livres quanto partículas sob a influência de um pot
1) O documento discute a segunda lei da termodinâmica e o conceito de entropia. 2) A entropia é uma medida da desordem de um sistema e processos espontâneos num sistema isolado fazem a entropia aumentar (dS>0). 3) A segunda lei da termodinâmica afirma que a entropia de um sistema isolado sempre aumenta durante uma mudança espontânea.
Aula 1 experiências com projetéis e ondasAdriano Silva
O documento descreve uma aula sobre experiências com projéteis e ondas passando por uma fenda dupla. A aula apresenta experimentos usando projéteis, onde eles se comportam como partículas, e ondas, onde há interferência. A aula também introduz a mecânica quântica, onde objetos microscópicos como elétrons se comportam como partículas e ondas.
Aula 3: Princípio da Complementariedade e o papel do observador na Mecânica Q...Adriano Silva
Este documento discute um experimento sobre a interferência de elétrons através de uma fenda dupla. Quando os elétrons são observados por fótons, o padrão de interferência desaparece. Diminuindo a intensidade da luz, alguns elétrons ainda mostram interferência, enquanto outros não. Isso levou ao Princípio da Complementaridade, que afirma que objetos quânticos podem se comportar como partículas ou ondas, dependendo da medição.
Este documento descreve um experimento de interferência com elétrons passando por uma fenda dupla. Ao contrário do que se esperaria para partículas, os elétrons exibem um padrão de interferência mesmo quando passam um de cada vez pela fenda, indicando que cada elétron "interfere consigo mesmo". Isso contradiz a intuição de que as partículas devem passar por apenas um buraco ou outro.
Aula 4: Função de onda e Equação de SchrödingerAdriano Silva
Este documento apresenta os conceitos fundamentais da mecânica quântica, introduzindo a função de onda e a equação de Schrödinger. A função de onda descreve o estado de uma partícula microscópica e satisfaz a equação de Schrödinger, que é uma equação em derivadas parciais. A interpretação probabilística da função de onda permite calcular a probabilidade de se encontrar a partícula em determinadas regiões do espaço.
O documento discute problemas que levaram ao desenvolvimento da mecânica quântica, incluindo a radiação do corpo negro. A radiação do corpo negro levantou questões sobre por que um corpo não pode esfriar até o zero absoluto. Vários pesquisadores contribuíram para explicar esse fenômeno, incluindo Prevost com sua teoria de troca de calor e Kirchoff com suas leis mostrando que a relação entre emissão e absorção de um corpo depende apenas da frequência e temperatura.
O documento discute os princípios fundamentais da mecânica quântica. Primeiramente, apresenta a necessidade de uma nova teoria para explicar fenômenos envolvendo radiação e partículas subatômicas. Em seguida, descreve os dois principais postulados da mecânica quântica: 1) a função de onda representa o estado do sistema e 2) a interpretação de Born, onde o módulo da função de onda ao quadrado representa a probabilidade de localização da partícula.
Demonstração da equação de schrodingerRayane Sodré
1) Erwin Schrödinger formulou a equação de onda, chamada Equação de Schrödinger, que descreve o comportamento de partículas subatômicas.
2) A Equação de Schrödinger surgiu da necessidade de conciliar a dualidade onda-partícula observada na física quântica. Ela relaciona a função de onda de uma partícula com a sua energia sob determinados potenciais.
3) A equação pode descrever tanto partículas livres quanto partículas sob a influência de um pot
1) O documento discute a segunda lei da termodinâmica e o conceito de entropia. 2) A entropia é uma medida da desordem de um sistema e processos espontâneos num sistema isolado fazem a entropia aumentar (dS>0). 3) A segunda lei da termodinâmica afirma que a entropia de um sistema isolado sempre aumenta durante uma mudança espontânea.
Aula 1 experiências com projetéis e ondasAdriano Silva
O documento descreve uma aula sobre experiências com projéteis e ondas passando por uma fenda dupla. A aula apresenta experimentos usando projéteis, onde eles se comportam como partículas, e ondas, onde há interferência. A aula também introduz a mecânica quântica, onde objetos microscópicos como elétrons se comportam como partículas e ondas.
Este documento apresenta uma série de exercícios relacionados aos tópicos de mecânica quântica estudados nas aulas anteriores, como barreiras de potencial, poços de potencial finitos e infinitos e oscilador harmônico. As questões abordam cálculos de probabilidade de transmissão através de barreiras, estimativas de energia de estados ligados em poços e cálculos de valores esperados para diferentes estados quânticos. Resoluções detalhadas são fornecidas para cada exercício como forma de
Aula 12: Barreira de potencial: Exemples e aplicaçõesAdriano Silva
Discutir alguns exemplos e aplicações do efeito-túnel que podem ser modelados pela barreira de potencial, tais como o microscópio de tunelamento, a emissão de partículas alfa, a fusão nuclear e a emissão de elétrons por metais frios.
O documento discute os princípios fundamentais da mecânica quântica, incluindo: (1) partículas se comportam como ondas estacionárias; (2) o princípio da incerteza de Heisenberg que limita a precisão com que podemos medir simultaneamente a posição e momento de uma partícula; (3) a interpretação da função de onda Ψ como a probabilidade de encontrar uma partícula em determinado ponto.
O documento discute métodos para resolver equações de diferenças, incluindo encontrar as soluções homogênea, particular e total. A solução homogênea assume a forma de uma exponencial e depende das raízes do polinômio característico, enquanto a solução particular é uma constante multiplicada pela entrada. A solução total é a soma da solução homogênea e particular.
1) Se a função Hamiltoniana não varia com translação, o momento é conservado.
2) A função de Hamilton para um oscilador anarmônico é dada por H=(p^2)/(2m)+(1/2)kx^2+(1/4)λx^4.
3) Para uma partícula com H=(p^2)/(2m)+(1/2)kx^2, a equação de movimento é x''+kx=0. Para H=px, a equação é x'=v0.
1) O documento apresenta a resolução de três exercícios envolvendo transformações canônicas e colchetes de Poisson.
2) No primeiro exercício, é calculado o colchete de Poisson entre duas variáveis e mostrado que elas formam variáveis canônicas. Uma função geratriz é obtida e a correspondente Hamiltoniana.
3) No segundo, é encontrada a função geratriz de uma transformação que leva de posição e momento a novas variáveis para o movimento de uma partícula livre.
4) No terceiro, é mostrado que uma dada
O documento descreve conceitos fundamentais da física nuclear, incluindo: (1) A descoberta do núcleo atômico por Rutherford em 1910; (2) Propriedades dos núcleos como número atômico, número de massa e isótopos; (3) Decaimento radioativo por emissão alfa e beta e a conservação de carga e número de núcleons; (4) Cálculo da energia de ligação e da energia Q de reações nucleares.
Este documento resume pontos importantes sobre análise qualitativa de pontos de equilíbrio em sistemas não-lineares de primeira ordem. Discute conceitos como atratores, repulsores, selas e centros, e métodos para determinar o tipo de equilíbrio como uso da matriz jacobiana e busca por leis de conservação. Apresenta exemplos como o pêndulo com e sem atrito.
O documento apresenta a resolução de três questões sobre a formulação de Hamilton-Jacobi. A primeira questão deriva a equação de Hamilton-Jacobi usando uma transformação canônica do tipo 1. A segunda obtém as equações de movimento quando a função característica de Hamilton é usada como função geradora. A terceira completa o cálculo para derivar a fórmula analítica do movimento de uma partícula em um potencial central newtoniano do tipo 1/r.
A equação de Schrödinger implica a hipótese de De Broglie de que a função de onda determina o estado de um sistema. A função de onda deve ser contínua, ter derivada primeira contínua, ser única e ser quadraticamente integrável. A equação de Schrödinger envolve operadores hermitianos cujos autovalores são reais e autofunções ortogonais, confirmando a hipótese de De Broglie.
1. O documento apresenta uma lista de exercícios sobre física quântica e atômica. Os exercícios envolvem o princípio da incerteza de Heisenberg, a equação de Schrödinger e funções de onda para diferentes sistemas quânticos unidimensionais.
O documento apresenta uma introdução aos principais modelos nucleares, incluindo o modelo da gota líquida, o modelo de gás de Fermi, o modelo de camadas e modelos coletivos. Discutem-se propriedades como densidade nuclear, números mágicos e como esses modelos explicam observações experimentais sobre núcleos atômicos.
O documento explica as regras da cadeia para derivar funções compostas de uma e várias variáveis. A regra da cadeia para funções de uma variável estabelece que a derivada de uma função composta é o produto da derivada da função externa pela derivada da função interna. As regras da cadeia para funções de várias variáveis generalizam esse princípio para derivadas parciais. Exemplos ilustram como aplicar essas regras para calcular velocidades e derivadas de funções definidas por equações.
1) Se a função Hamiltoniana não varia com translação, o momento é conservado.
2) A função de Hamilton para um oscilador anarmônico é dada por H=(p^2)/(2m)+(1/2)kx^2+(1/4)λx^4.
3) Para uma partícula com H=(p^2)/(2m)+(1/2)kx^2, a equação de movimento é mx''+kx=0. Para H=px+x^2/2, a equação é x'=p0 e x''=1.
Este documento apresenta o resumo de uma dissertação de mestrado sobre aplicações das bases de Groebner. O documento discute homomorfismos entre anéis de polinômios e determina o núcleo e condições para sobrejetividade de tais homomorfismos. Também apresenta aplicações para encontrar polinômios minimais em extensões de corpos e soluções para problemas de programação inteira.
Aula 8: O degrau de potencial. Caso I: Energia menor que o degrauAdriano Silva
Este documento descreve um caso de mecânica quântica envolvendo uma partícula que incide sobre um potencial em forma de degrau. O documento apresenta:
1) A equação de Schrödinger para este problema é resolvida separadamente para as regiões x<0 e x>0 do potencial.
2) As soluções são "costuradas" impondo condições de continuidade na interface.
3) Isto mostra que a probabilidade de encontrar a partícula na região classificamente proibida é não-nula, diferentemente da
O documento discute o Princípio da Incerteza de Heisenberg em física quântica. Apresenta exemplos como o experimento das duas fendas e o Gato de Schrödinger para ilustrar como a física quântica difere da física clássica ao impor limites na precisão com que podemos medir simultaneamente certas propriedades. Também discute como a natureza da medição muda na física quântica e como conceitos como dualidade onda-partícula surgem dessa abordagem.
O documento resolve a equação de Schrödinger para diversos tipos de potenciais atuando sobre uma partícula, incluindo poços de potencial infinito e finito. A solução para um poço infinito mostra que a energia da partícula é quantizada em valores discretos. A solução para um poço finito é similar, mas com funções de onda não nulas fora do poço devido ao potencial finito.
O documento discute os métodos quantitativos e qualitativos de pesquisa de mercado e opinião pública, apresentando casos reais de pesquisas realizadas por empresas em diferentes setores.
Ignacio Vazquez-Elliott has over 30 years of experience in global business, international marketing, and leadership roles. He has worked as a global business consultant, dean and professor of international business, and held marketing and logistics management positions. He has a Master of International Management degree from Thunderbird School of Global Management and an MBA from ITSON in Mexico.
Este documento apresenta uma série de exercícios relacionados aos tópicos de mecânica quântica estudados nas aulas anteriores, como barreiras de potencial, poços de potencial finitos e infinitos e oscilador harmônico. As questões abordam cálculos de probabilidade de transmissão através de barreiras, estimativas de energia de estados ligados em poços e cálculos de valores esperados para diferentes estados quânticos. Resoluções detalhadas são fornecidas para cada exercício como forma de
Aula 12: Barreira de potencial: Exemples e aplicaçõesAdriano Silva
Discutir alguns exemplos e aplicações do efeito-túnel que podem ser modelados pela barreira de potencial, tais como o microscópio de tunelamento, a emissão de partículas alfa, a fusão nuclear e a emissão de elétrons por metais frios.
O documento discute os princípios fundamentais da mecânica quântica, incluindo: (1) partículas se comportam como ondas estacionárias; (2) o princípio da incerteza de Heisenberg que limita a precisão com que podemos medir simultaneamente a posição e momento de uma partícula; (3) a interpretação da função de onda Ψ como a probabilidade de encontrar uma partícula em determinado ponto.
O documento discute métodos para resolver equações de diferenças, incluindo encontrar as soluções homogênea, particular e total. A solução homogênea assume a forma de uma exponencial e depende das raízes do polinômio característico, enquanto a solução particular é uma constante multiplicada pela entrada. A solução total é a soma da solução homogênea e particular.
1) Se a função Hamiltoniana não varia com translação, o momento é conservado.
2) A função de Hamilton para um oscilador anarmônico é dada por H=(p^2)/(2m)+(1/2)kx^2+(1/4)λx^4.
3) Para uma partícula com H=(p^2)/(2m)+(1/2)kx^2, a equação de movimento é x''+kx=0. Para H=px, a equação é x'=v0.
1) O documento apresenta a resolução de três exercícios envolvendo transformações canônicas e colchetes de Poisson.
2) No primeiro exercício, é calculado o colchete de Poisson entre duas variáveis e mostrado que elas formam variáveis canônicas. Uma função geratriz é obtida e a correspondente Hamiltoniana.
3) No segundo, é encontrada a função geratriz de uma transformação que leva de posição e momento a novas variáveis para o movimento de uma partícula livre.
4) No terceiro, é mostrado que uma dada
O documento descreve conceitos fundamentais da física nuclear, incluindo: (1) A descoberta do núcleo atômico por Rutherford em 1910; (2) Propriedades dos núcleos como número atômico, número de massa e isótopos; (3) Decaimento radioativo por emissão alfa e beta e a conservação de carga e número de núcleons; (4) Cálculo da energia de ligação e da energia Q de reações nucleares.
Este documento resume pontos importantes sobre análise qualitativa de pontos de equilíbrio em sistemas não-lineares de primeira ordem. Discute conceitos como atratores, repulsores, selas e centros, e métodos para determinar o tipo de equilíbrio como uso da matriz jacobiana e busca por leis de conservação. Apresenta exemplos como o pêndulo com e sem atrito.
O documento apresenta a resolução de três questões sobre a formulação de Hamilton-Jacobi. A primeira questão deriva a equação de Hamilton-Jacobi usando uma transformação canônica do tipo 1. A segunda obtém as equações de movimento quando a função característica de Hamilton é usada como função geradora. A terceira completa o cálculo para derivar a fórmula analítica do movimento de uma partícula em um potencial central newtoniano do tipo 1/r.
A equação de Schrödinger implica a hipótese de De Broglie de que a função de onda determina o estado de um sistema. A função de onda deve ser contínua, ter derivada primeira contínua, ser única e ser quadraticamente integrável. A equação de Schrödinger envolve operadores hermitianos cujos autovalores são reais e autofunções ortogonais, confirmando a hipótese de De Broglie.
1. O documento apresenta uma lista de exercícios sobre física quântica e atômica. Os exercícios envolvem o princípio da incerteza de Heisenberg, a equação de Schrödinger e funções de onda para diferentes sistemas quânticos unidimensionais.
O documento apresenta uma introdução aos principais modelos nucleares, incluindo o modelo da gota líquida, o modelo de gás de Fermi, o modelo de camadas e modelos coletivos. Discutem-se propriedades como densidade nuclear, números mágicos e como esses modelos explicam observações experimentais sobre núcleos atômicos.
O documento explica as regras da cadeia para derivar funções compostas de uma e várias variáveis. A regra da cadeia para funções de uma variável estabelece que a derivada de uma função composta é o produto da derivada da função externa pela derivada da função interna. As regras da cadeia para funções de várias variáveis generalizam esse princípio para derivadas parciais. Exemplos ilustram como aplicar essas regras para calcular velocidades e derivadas de funções definidas por equações.
1) Se a função Hamiltoniana não varia com translação, o momento é conservado.
2) A função de Hamilton para um oscilador anarmônico é dada por H=(p^2)/(2m)+(1/2)kx^2+(1/4)λx^4.
3) Para uma partícula com H=(p^2)/(2m)+(1/2)kx^2, a equação de movimento é mx''+kx=0. Para H=px+x^2/2, a equação é x'=p0 e x''=1.
Este documento apresenta o resumo de uma dissertação de mestrado sobre aplicações das bases de Groebner. O documento discute homomorfismos entre anéis de polinômios e determina o núcleo e condições para sobrejetividade de tais homomorfismos. Também apresenta aplicações para encontrar polinômios minimais em extensões de corpos e soluções para problemas de programação inteira.
Aula 8: O degrau de potencial. Caso I: Energia menor que o degrauAdriano Silva
Este documento descreve um caso de mecânica quântica envolvendo uma partícula que incide sobre um potencial em forma de degrau. O documento apresenta:
1) A equação de Schrödinger para este problema é resolvida separadamente para as regiões x<0 e x>0 do potencial.
2) As soluções são "costuradas" impondo condições de continuidade na interface.
3) Isto mostra que a probabilidade de encontrar a partícula na região classificamente proibida é não-nula, diferentemente da
O documento discute o Princípio da Incerteza de Heisenberg em física quântica. Apresenta exemplos como o experimento das duas fendas e o Gato de Schrödinger para ilustrar como a física quântica difere da física clássica ao impor limites na precisão com que podemos medir simultaneamente certas propriedades. Também discute como a natureza da medição muda na física quântica e como conceitos como dualidade onda-partícula surgem dessa abordagem.
O documento resolve a equação de Schrödinger para diversos tipos de potenciais atuando sobre uma partícula, incluindo poços de potencial infinito e finito. A solução para um poço infinito mostra que a energia da partícula é quantizada em valores discretos. A solução para um poço finito é similar, mas com funções de onda não nulas fora do poço devido ao potencial finito.
O documento discute os métodos quantitativos e qualitativos de pesquisa de mercado e opinião pública, apresentando casos reais de pesquisas realizadas por empresas em diferentes setores.
Ignacio Vazquez-Elliott has over 30 years of experience in global business, international marketing, and leadership roles. He has worked as a global business consultant, dean and professor of international business, and held marketing and logistics management positions. He has a Master of International Management degree from Thunderbird School of Global Management and an MBA from ITSON in Mexico.
Sunwells India is a division of Sunwells Japan, established in 2007, that provides technical staffing and talent support services. It has over 125 engineers in India working across various locations. Sunwells aims to be a key global player through high-end engineering, IT, and manufacturing execution system services. It offers quality and cost-competitive services including staffing, design and development. Sunwells engages clients through various models including onsite, offshore, and dedicated teams to provide quick turnaround, customized solutions, and pan-India support.
Paul Trew is an experienced site manager with 16 years of experience managing security and car parking operations at the University of South Wales campus. He oversees a team of 16 staff and is responsible for all security and parking aspects. He has numerous qualifications in facilities management, health and safety, security, and parking enforcement. Prior to his current role, he held positions as a machine operator for various manufacturing companies and a youth trainee role.
Apache SystemML is a machine learning framework that allows users to write machine learning algorithms in a declarative way using a high-level language similar to R or Python. It includes a compiler and optimizer that can translate the high-level code into optimized low-level operations. The framework supports both single-machine and distributed execution using Spark. Current work is focused on improving usability for deep learning tasks and adding support for GPUs and new backends like Flink.
The document summarizes hydrocracking, which converts higher boiling petroleum fractions to gasoline and jet fuels using a catalyst. Key points include:
- Hydrocracking involves hydrogenation and cracking reactions over a dual functional catalyst.
- It allows refineries to meet demand for gasoline and jet fuel by processing heavier feedstocks like coker distillates.
- The process involves hydrotreating to remove contaminants, followed by one or two hydrocracking reactors operating at high temperatures and pressures.
The document discusses apartheid in South Africa and Nelson Mandela's role in fighting it. Under apartheid, the black majority was oppressed by the white minority through racist laws and policies. Nelson Mandela co-founded the African National Congress political party and was imprisoned for 27 years for his anti-apartheid efforts. He learned many languages and studied while in prison. Mandela was eventually released in 1990 amid growing domestic and international pressure, and became president in South Africa's first democratic election in 1994, coming to symbolize the triumph over apartheid.
The document discusses the classification and labelling of glyphosate. It summarizes glyphosate's toxicological profile based on numerous studies. For human health, it finds glyphosate unlikely to cause cancer, genetic damage, or reproductive toxicity. It proposes classification as STOT RE 2 (H373) based on repeated dose toxicity. For the environment, it finds glyphosate toxic to aquatic life with long-lasting effects based on acute and chronic toxicity values, proposing classification as Aquatic Chronic 2 (H411). The document concludes by comparing the classification approaches of different regulatory agencies.
Dokumen tersebut merangkum beberapa eksperimen yang dilakukan dalam praktikum biokimia blok 23 tentang geriatri, termasuk tes untuk enzim peroksidase, dehidrogenase, dan fosfatase pada susu, tes untuk mendeteksi darah, dan eksperimen untuk mempelajari sifat protein dan membran sel darah merah.
Honorcraft has over 55 years of experience providing donor recognition services and products to leading institutions. They offer a full range of services including recognition program planning, design, manufacturing, installation, and software solutions. Their LegacyCurator program and donor recognition software helps institutions ensure accurate donor records, increase donor retention and loyalty, and gain donor insights.
1) O documento introduz os conceitos fundamentais da termodinâmica, incluindo sistema, vizinhança, propriedades extensivas e intensivas, e estado do sistema.
2) A primeira lei da termodinâmica é explicada, estabelecendo que a energia interna de um sistema pode ser alterada por meio do trabalho ou do calor.
3) A diferença entre trabalho realizado pelo sistema e trabalho realizado sobre o sistema é definida com exemplos.
O documento discute os conceitos de entalpia, entropia e energia livre de Gibbs no contexto de reações químicas. Explica que a entalpia mede a troca de energia em uma reação, enquanto a entropia está relacionada à probabilidade e desordem do sistema. A energia livre de Gibbs leva em conta ambos os fatores para determinar a espontaneidade de uma reação.
O documento discute sequências e séries numéricas. No capítulo 1, apresenta conceitos básicos de aritmética infinitesimal. No capítulo 2, trata de propriedades e testes de convergência de sequências numéricas, incluindo o teste da subsequência e o teorema de sanduíche. No capítulo 3, aborda propriedades e testes de convergência de séries numéricas, como séries geométricas e alternadas.
O documento discute sistemas de controle e fornece exemplos de diferentes tipos de sistemas, incluindo mecânicos, elétricos, fluídicos e térmicos. Apresenta conceitos-chave como modelo matemático, sistema linear, função de transferência e transformada de Laplace. Fornece exemplos de resolução de exercícios envolvendo sistemas mecânicos e elétricos.
Desenvolvimento análise de sistemas linearesMaique Mateus
1. O documento apresenta um estudo sobre o comportamento de um sistema de pêndulo de torção, definindo suas componentes e modelo matemático.
2. O exercício proposto para análise envolve um pêndulo de torção com momento de inércia J, atrito B e elastância K, cujo comportamento é modelado por uma equação diferencial.
3. A memória de cálculo apresenta os passos para se obter a função de transferência do sistema e representá-lo no espaço de estados, analisando também características como frequ
1) O documento discute conceitos fundamentais da termodinâmica como entropia, energia livre de Gibbs e suas relações com a espontaneidade de processos.
2) A segunda lei da termodinâmica estabelece que a entropia do universo sempre aumenta, levando sistemas para estados de maior probabilidade e dispersão de energia.
3) A variação da energia livre de Gibbs (ΔG) de uma reação indica sua espontaneidade, sendo que reações são espontâneas quando ΔG é negativo.
O documento descreve os fundamentos teóricos da análise dinâmica por elementos finitos. Aborda equações do movimento para sistemas de um e múltiplos graus de liberdade, vibrações livres e forçadas, análise modal, determinação do amortecimento e princípios de Hamilton. O objetivo é homogeneizar os conceitos para permitir a simulação numérica de vibrações em corpos sólidos pelo método de elementos finitos.
1) O documento descreve os conceitos termodinâmicos fundamentais para o equilíbrio químico, incluindo energia interna, trabalho, entalpia e entropia.
2) A segunda lei da termodinâmica é explicada usando entropia para determinar a espontaneidade de processos químicos.
3) A energia livre de Gibbs é derivada e é igual a zero no equilíbrio químico, permitindo prever a direção de reações.
O documento descreve as três principais ciências térmicas: termodinâmica, mecânica dos fluidos e transferência de calor. A termodinâmica estuda as transformações de energia em sistemas, enquanto a mecânica dos fluidos lida com o transporte de energia durante o escoamento de fluidos. A transferência de calor descreve a transferência de energia devido a diferenças de temperatura.
Mini-Curso: Campos de gauge clássicos: Maxwell e Chern-SimonsMaria Teresa Thomaz
A partir do princípio de mínima ação reobtemos as equações de movimento clássicas reescritas através das
equações de Lagrange. Mostramos como estender esse princípio para obter as equações de movimento dos campos clássicos e o
aplicamos ao caso dos campos eletromagnéticos de Maxwell. Como apoio ao formalismo que iremos desenvolver, estudaremos a noção de tensores que utilizaremos para descrever
as leis de transformação da Relatividade Restrita e escrever as equações de Maxwell de uma forma mais simples (forma covariante).
Finalmente discutiremos os campos elétrico e magnético em termos dos campos escalar e vetor e mostrar como a invariância de calibre
é implementada nestes campos.
O documento discute redes neurais artificiais, incluindo sua história, princípios, aplicações e modelos. Aborda conceitos como perceptrons, mapas de Kohonen, backpropagation e redes neurais recorrentes, além de aplicações como reconhecimento de padrões, imagens, voz e simulação/controle de sistemas dinâmicos.
Projeto de Controle de Posição entre veículos, Análise de Sistemas IIICiro Marcus
Análise de Sistemas III
Projeto de Controle de Posição entre veículos
Documentação apresentada à disciplina de Análise de Sistemas III, do curso de Engenharia Eletrônica e de Telecomunicação da Pontifícia Universidade Católica de Minas Gerais.
Professor: Ciro Marcus Monteiro Campos
O documento descreve a análise vibratória de um sistema composto por duas barras interligadas por uma mola em suas extremidades. O sistema foi modelado matematicamente e resolvido numericamente no MatLab para diferentes condições iniciais, gerando gráficos dos deslocamentos e velocidades das barras. O sistema apresenta dois modos vibratórios devido a seus dois graus de liberdade.
1. O documento apresenta 5 exercícios sobre sistemas termodinâmicos. Os exercícios 1 e 2 tratam de sistemas de partículas com spin, enquanto os exercícios 3, 4 e 5 tratam de sistemas de osciladores harmônicos e partículas de dois níveis de energia.
2. Nos exercícios, são obtidas expressões para a energia, número de estados, densidade de energia e calor específico em função de variáveis como temperatura, número de partículas e energia.
Aula 6: O caso estacioário em uma dimensãoAdriano Silva
1) O documento discute o formalismo quântico no caso de sistemas unidimensionais sob a influência de potenciais independentes do tempo. 2) Nesse caso, a equação de Schrödinger tem uma forma simplificada e soluções podem ser encontradas separando as variáveis espaço e tempo. 3) A constante de separação E corresponde à energia do sistema e as soluções são autoestados do hamiltoniano.
O documento descreve três estudos de caso sobre sistemas dinâmicos modelados por equações diferenciais ordinárias (EDOs). O primeiro caso analisa o modelo presa-predador de Volterra-Lotka usando métodos numéricos com passos fixo e adaptativo. O segundo caso estuda o modelo atmosférico de Lorenz usando o método de Runge-Kutta. O terceiro caso descreve uma fonte intermitente modelada por uma EDO com variável booleana.
1. O documento discute redes elétricas equivalentes e teoremas aplicados a análises de circuitos, incluindo associação de resistores em série e paralelo, transformações Y-Delta e Delta-Y, teorema da superposição, teorema de Thévenin e teorema de Norton.
2. É apresentado um exemplo de cálculo para cada teorema para facilitar a compreensão dos conceitos discutidos.
3. O objetivo é descrever diferentes métodos para analisar circuitos elétricos complexos de forma sistemática e
1) A lei da conservação da energia estabelece que em sistemas isolados a quantidade total de energia permanece constante, podendo ocorrer apenas transferências ou transformações de energia.
2) Existem três tipos principais de energia: cinética, potencial e mecânica, que dependem de fatores como massa, velocidade e altitude.
3) A energia pode ser transferida através de calor, trabalho e radiação, sendo o calor definido como a transferência de energia devido à diferença de temperatura entre sistemas.
1) A lei da conservação da energia estabelece que a quantidade total de energia em um sistema isolado permanece constante, sem importar as transformações ou transferências de energia dentro do sistema.
2) Existem três tipos principais de energia: cinética, potencial e mecânica. A energia cinética está associada ao movimento e depende da massa e velocidade de um corpo. A energia potencial está associada às forças entre corpos e depende da massa e posição de um corpo. A energia mecânica é a soma da
1. Universidade de São Paulo
Instituto de Ciências Matemáticas e de Computação
Máquinas Estocásticas e suas
Aproximações Baseadas na Mecânica
Estatística
Redes Neurais 2006
Prof. Dr. Zhao Liang
Grupo:
Fabrício Breve
João R. Bertini Jr.
Renato Fernandes
2. Sumário
1. Introdução 1
2.Mecânica Estatística 1
2.1 Energia Livre e Entropia 2
2.2 Neurônios Estocásticos 3
3. Algoritmo de Metropolis 4
4. Simulated Annealing 6
4.1 Descrição do Algoritmo 6
5. Amostragem de Gibbs 7
6. A Máquina de Boltzmann 9
6.1 Aprendizado na máquina de Boltzmann 10
7. A Máquina de Helmholtz 11
8. Sigmoid Belief Network 13
8.1 Motivações 14
8.2 Propriedades Fundamentais 14
8.3 Procedimento de Aprendizado 15
9. Teoria Mean - Field 16
10. Maquina de Boltzmann Determinística 18
Referencias Bibliográficas 20
3. 1
Máquinas Estocásticas e suas
Aproximações Baseadas na Mecânica
Estatística
1. Introdução
O tema mecânica estatística abrange o estudo formal das propriedades macroscópicas
do equilíbrio de grandes sistemas de elementos que estão sujeitos às leis microscópicas da
mecânica. São usados métodos probabilísticos devido ao alto número de graus de liberdade
nesses sistemas.
O interesse na utilização da mecânica estatística como base para o estudo de redes
neurais se iniciou com a máquina de Boltzmann, a primeira máquina de aprendizagem em
múltiplas camadas inspirada pela mecânica estatística. Basicamente, a máquina de Boltzmann
é um dispositivo para modelar a distribuição de densidade de probabilidade de um
determinado conjunto de dados, de modo que possam ser derivadas distribuições condicionais
que possam ser usadas em tarefas como complementação e classificação de padrões.
2. Mecânica Estatística
Dado um sistema físico com muitos graus de liberdade, podendo residir em qualquer
estado de um grande número de estados possíveis, temos que a probabilidade de ocorrência de
um estado i é dado por:
0≥ip para todo i
e
∑ =
i
ip 1
Considerando que iE representa a energia do sistema quando está no estado i. a probabilidade
de ocorrência de um estado é dada por
⎟
⎠
⎞
⎜
⎝
⎛
−=
T
E
Z
p i
i exp
1
4. 2
onde T é uma temperatura que controla as flutuações térmicas que representam o efeito de
ruído sináptico de um neurônio. Também temos uma quantidade normalizadora Z, chamada
de soma dos estados ou função de partição, dada por:
∑ ⎟
⎠
⎞
⎜
⎝
⎛
−=
i
i
T
E
Z exp
Essa distribuição de probabilidade é chamada distribuição de Gibbs e tem como
características:
• Estados de baixa energia têm maior probabilidade de ocorrência que estados de alta
energia
• Conforme a temperatura T é reduzida, a probabilidade é concentrada em um conjunto
menor de estados de baixa energia
2.1 Energia Livre e Entropia
A energia livre de um sistema físico, representada por F, é dada por:
ZTF log−=
A energia média do sistema é dada por:
∑>=<
i
ii EpE
Portanto a energia livre é dada por:
∑=−><
i
ii ppTFE log
O lado direito da equação, com execeção de T, é a entropia do sistema, dada por H como
segue:
∑−=
i
ii ppH log
Assim podemos reescrever da seguinte forma:
THEF −>=<
A energia livre do sistema, F, tende a diminuir e se tornar mínima na situação de
equilíbrio térmico do sistema. O mínimo de energia de um sistema estocástico em relação às
variáveis do sistema é alcançado no equilíbrio térmico, onde então o sistema é governado pela
distribuição de Gibbs.
5. 3
2.2 Neurônios Estocásticos
Os neurônios estocásticos, diferentemente dos tradicionais, mudam seus estados de
maneira probabilística, em vez de apenas determinística. Podem estar ligados (+1) ou
desligados (-1). A vantagem é que a rede nunca fica parada em um estado estável, pois os
neurônios estarão sempre mudando, mesmo que a entrada não mude. Com a rede rodando
livremente podemos gravar os estados por quais ela passa e construir uma distribuição de
probabilidade destes estados.
Para exemplificar o funcionamento de um neurônio estocástico considere uma rede de
Hopfield tradicional, onde cada neurônio muda para o estado cujo energia for menor,
conforme a regra abaixo:
( ) ( )
ativoficaneurônio0Se
inativoficaneurônioo0Se
11
>Δ
<Δ
=+−−=Δ ∑
E
E
swEEE
j
jijiii
Se modificarmos a regra de atualização para fazer desse neurônio um neurônio estocástico,
ela ficaria assim:
TEii
e
p /
1
1
)1( Δ
+
=+
onde T é uma “temperatura” da rede, seguindo a nomenclatura do modelo físico em que foi
inspirada.
Dessa forma o neurônio normalmente irá para o estado que reduz a energia do sistema,
mas algumas vezes ele irá para o “estado errado” (da mesma forma que um sistema físico às
vezes vai para estados de maior energia). Quanto maior for a temperatura T maior é a
probabilidade de que o sistema possa ir para um estado de maior energia. Com temperatura
zero o comportamento será igual ao neurônio determinístico.
Deixando a rede rodar por tempo suficiente é possível obter a distribuição de
probabilidade dos estados que ela visita, porém é necessário esperar o equilíbrio térmico para
fazer essa medida, ou seja, quando a média ativação do i-ésimo neurônio <Si> não estiver
mais mudando com o tempo. A distribuição de probabilidade no equílibro térmico pode ser
similar ao mundo real se mudarmos os pesos de conexões na rede de maneira correta.
Uma das principais vantagens dessa versão estocástica é que o estado inicial é
irrelevante, pois enquanto a temperatura for relativamente alta sempre será possível “escapar”
dos mínimos locais. Enquanto que usando neurônios determinísticos tradicionais o estado
inicial é crucial para definir se a solução encontrada será ótima ou apenas um mínimo local.
6. 4
3. Algoritmo de Metropolis
O algoritmo de Metropolis foi apresentado inicialmente por Metropolis em
[Metropolis et al. 1953] e generalizado por Hastings [Hasting 1970] resultando no algoritmo
de Metropolis-Hastings. Esse método é usado geralmente quando é difícil gerar amostras da
condicional completa a posteriori . Neste caso, gera-se valores do parâmetro a partir de uma
distribuição proposta e esse é aceito ou não com uma certa probabilidade de aceitação.
Suponha que a variável randômica Xn representa uma cadeia de Markov arbitraria
que está no estado xi no tempo n. Será gerado um novo estado xj, representando a realização
de outra variável randômica Yn. É assumido que a geração deste nova estado satisfaz a
condição simétrica:
P(Yn = xj | Xn = xi ) = P(Yn=xi | Xn = xj)
Seja ΔE a diferença de energia resultante da transição do sistema do estado Xn=xi para o
estado Yn = xj:
• Se a diferença é negativa, então a transição esta levando para um estado com menor
energia e a transição é aceita.
• Se a diferença é positiva, então o algoritmo procede em uma maneira probabilista para
este ponto:
o Primeiro, seleciona um numero randômico ξ uniformemente distribuído entre
[0,1]
o Se ξ < exp (-ΔE/T), a transição é aceita e Xn+1 = Yn
o Se não a transição é rejeitada e Xn+1 = Xn (que é a configuração antiga será
utilizada na próxima iteração)
Escolhendo a probabilidade de transição
Seja uma cadeia de Markov que tem uma probabilidade de transição inicial de τij que satisfaz
três condições:
1) Não-negatividade
τij ≥ 0 para todo (i,j)
2) Normalização
∑ =
j
ij 1τ para todo i
7. 5
3) Simetria
τij = τji todo (i,j)
steady state
Seja πi a probabilidade que a cadeia de Markov esta no estado xi, i=1,2,...,K. Nos podemos
usar a simétrica τijs e a taxa de distribuição de probabilidade πj /πi para formular o desejado
conjunto de probabilidade de transição como:
⎪
⎪
⎩
⎪
⎪
⎨
⎧
≥
<⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
=
1
1
i
j
ij
i
j
i
j
ij
ij
para
para
p
π
π
τ
π
π
π
π
τ
K
Na transição temos:
∑≠
−=
ij
ijijijp τα1
onde
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛
=
i
j
ij
π
π
α ,1min e a probabilidade de movimento
Agora é necessário escolher a taxa
i
j
π
π
. Caso escolhemos a distribuição de probabilidade
desejada para convergir como sendo uma distribuição de Gibbs, então:
⎟
⎠
⎞
⎜
⎝
⎛ Δ
−=
T
E
i
j
exp
π
π
A probabilidade de transição é o modelo probabilístico do “passo randômico” do algoritmo de
metropolis. O “passo” é seguido de uma decisão randômica. A probabilidade de transição pij
definida em termos da probabilidade de transição a priori τij e da probabilidade de estado fixo
πj são de fato as escolhas que vão fazer o algoritmo Metropolis ter sucesso ou não.
8. 6
4. Simulated Annealing
Em uma rede neural, o objetivo é muitas vezes de minimizar a função custo definida
como a energia global de uma rede. O numero de neurônios contidos na rede é muito grande.
Assim, encontrar a solução de energia mínima de uma rede não é diferente do que encontrar o
estado de temperatura mínima de um sistema físico.
Algoritmo determinísticos usado para a minimização de energia sofre de uma falha
fundamental do procedimento de gradiente descente, onde o algoritmo pode ficar “parado” em
um “mínimo local” que não é ótimo globalmente. Este problema aparece principalmente
quando alguns dos neurônios da rede são externamente forçados a “segurar” algum padrão de
entrada e é necessário encontrar uma solução de energia mínima compatível com aquele
padrão de entrada particular. Neste caso, a rede precisa ser capaz de escapar do mínimo local,
para alcançar a configuração que representa o mínimo global, para conseguir chegar no
padrão de entrada desejado.
Simulated Annealing é uma classe de meta-heurística proposta originalmente por
Kirkpatrick [Kirkpatrick et al. 1983], sendo uma técnica de busca local probabilística, que se
fundamenta em uma analogia com o procedimento em sistemas físicos com muitos graus de
liberdade em equilíbrio térmico, operação conhecida como recozimento. Neste processo
físico, um sólido (por exemplo na fabricação de pecas de cristal) é aquecido a uma
temperatura alta (ate um valor Máximo) onde todas as partículas do sólido são auto arranjadas
randomicamente na fase liquida. Então a temperatura é diminuída lentamente, permitindo
todas as partículas se arranje de forma a encontrar o melhor arranjo. Se a temperatura descer
bruscamente o sólido pode apresentar falhas (no caso o cristal não terá uma ordem cristalina,
ficando um objeto com defeitos).
4.1 Descrição do Algoritmo
Esta técnica começa sua busca a partir de uma solução inicial qualquer. O
procedimento principal consiste em um loop que gera aleatoriamente, em cada iteração, um
único vizinho s´ da solução corrente s.
A cada geração de um vizinho s´ de s, é testada a variação Δ do valor da função objetivo (f),
isto é: Δ = f(s´) – f(s).
Se Δ < 0, o método aceita a solução e s´ passa a ser a nova solução corrente.
9. 7
Se Δ ≥ 0, a solução vizinha candidata também poderá ser aceita, mas neste caso, com uma
probabilidade exp(-Δ/T), onde T é um parâmetro do método, chamado de temperatura e que
regula a probabilidade de aceitação de soluções com custo pior.
A temperatura T assume, inicialmente, um valor elevado T0. Após um numero fixo de
iterações (o qual representa o numero de iterações necessárias para o sistema atingir o
equilíbrio térmico em uma dada temperatura), a temperatura é gradativamente diminuída por
uma razão de resfriamento α, tal que :
Tn α * Tn-1 , sendo 0 < α < 1.
Com este procedimento , dá-se, no inicio uma chance maior para escapar de mínimos
locais e, à medida que T aproxima-se de zero, o algoritmo comporta-se como o método de
descida, uma vez que diminui a probabilidade de se aceitar movimentos de piora
(para T 0 entao exp(-Δ/T), 0.
O procedimento pára quando a temperatura chega a um valor próximo de zero e
nenhuma solução que piore o valor da melhor solução é mais aceita, isto é, quando o sistema
esta estável. A solução obtida quando o sistema encontra-se nesta situação evidencia o
encontro de um mínimo local.
Os parâmetros de controle do procedimento são a razão de resfriamento α, o numero
de iterações para cada temperatura e a temperatura inicial To.
5. Amostragem de Gibbs
Considere um vetor aleatório X de dimensionalidade K constituído das componentes
KXXX ,...,, 21 . Suponha que tenhamos conhecimento da distribuição condicional de kX ,
dado os valores de todas as outras componentes de X para Kk ,...,2,1= . O amostrador de
Gibbs atua gerando um valor para a distribuição condicional para componente do vetor
aleatório X , dados os valores de todas as outras componentes de X. Por exemplo, partindo de
uma configuração qualquer ( ) ( ) ( ){ }0,...,0,0 21 Kxxx , a primeira iteração da amostragem de
Gibbs é dada por:
10. 8
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )1,...,1,1dados,Xdeãodistribuiçdaretiradoé1
0,...,...0,1,...,1dados,Xdeãodistribuiçdaretiradoé1
0,...0,1dados,Xdeãodistribuiçdaretiradoé1
0,...,0,0dados,Xdeãodistribuiçdaretiradoé1
121K
111k
3122
3211
−
+−
kK
Kkkk
K
K
xxxx
xxxxx
xxxx
xxxx
M
M
Procedemos da mesma maneira na segunda e demais iterações. Dois pontos devem ser
considerados:
• Cada componente do vetor aleatório X é “visitada” na ordem natural, com o resultado
de K novas variantes geradas a cada iteração
• O novo valor da componente XK-1 é usado imediatamente quando um novo valor de
XK é retirado para k = 2, 3, ..., K
Portanto dizemos que o amostrador de Gibbs é um esquema adaptativo iterativo. Após n
iterações de seu uso, chegamos a K variantes: )(),...,(),( 21 nXnXnX K .
Sob condições suaves são válidos três teoremas para a amostragem de Gibbs:
1. Teorema de Convergência: a variável aleatória ( )nX k converge em distribuição para
as distribuições verdadeiras de kX para Kk ,...,2,1= quando n se aproxima do
infinito; ou seja,
( )
( )( ) ( ) KkxFxxXP kXk
n
k
n
,...,2,1para0|lim ==≤
∞→
onde ( )xF kX é a função distribuição de probabilidade marginal de KX .
2. Teorema da taxa de convergência: A distribuição de probabilidade conjunta das
variáveis aleatórias ( ) ( ) ( )nXnXnX K,...,, 21 converge para a distribuição de
probabilidade conjunta verdadeira de KXXX ,,,,,, 21 em uma taxa geométrica de n.
3. Teorema Ergódico: Para qualquer função mensurável g, por exemplo, das variáveis
aleatórias KXXX ,,,,,, 21 cujo valor esperado exista, temos
( ) ( ) ( )( ) ( )[ ]K
n
i
k
n
XXXgEiXiXiXg
n
,...,,,...,,
1
lim 21
1
21 →∑=
∞→
com probabilidade 1 (quase certeza)
11. 9
6. A Máquina de Boltzmann
A máquina é composta por neurônios estocásticos conectados por ligações
bidirecionais. Um neurônios está sempre um de dois estados, ativado (1) ou desativado (-1), e
esses estados é dado por uma função probabilística de acordo com a equação abaixo.
( )
( )T/Eexp1
1
1p
i
i
Δ+
=+
Onde T é o parâmetro temperatura. Os pesos podem tomar valores reais positivos ou
negativos. O peso em uma ligação representa uma restrição fraca entre duas hipóteses. Um
peso positivo indica que as duas hipóteses tendem a suportar um outro; se um for aceito
atualmente, aceitar o outro deve ser mais provável. De maneira análoga, um peso negativo
sugere, outras coisas que são iguais, que as duas hipóteses não devem ser aceitas. Os pesos
das ligações são simétricos, tendo a mesma força em ambos os sentidos [Hinton & Sejnowski,
1983]. Um modelo geral da máquina de Boltzmann é mostrado na Figura 1.
Figura 1 – Arquitetura geral de uma máquina de Boltzmann
Considere um conjunto de padrões α e a distribuição real Pα sobre esses padrões. Para
cada atributo nestes vetores de padrão, é criado um neurônio visível na máquina de
Boltzmann cuja atividade é associada ao valor deste neurônio. A camada oculta da máquina é
criada com um número maior de neurônios usados na camada visível, na verdade para que a
1 2 3 L
21 3 K
. . .
. . .
Camada oculta
Camada visível
12. 10
representação de todos os padrões do conjunto seja armazenada corretamente o número de
neurônios na camada oculta é dado por uma função exponencial da entrada. Todas as
unidades em uma máquina de Boltzmann computam uma diferença de energia (energy gap):
∑=−=Δ +−
j
jij11i SwEEE
Se a rede executar por tempo suficiente, o sistema alcançará um ponto de baixa
temperatura chamado ponto de equilíbrio térmico. Neste ponto a probabilidade da rede estar
em qualquer estado depende somente de sua energia dividido por sua temperatura. Pode-se
estimar a distribuição de probabilidade sobre as unidades visíveis nesta fase em que a rede
executa livremente calculando as atividades médias < S > de todas as unidades visíveis. Seja
esta medida de distribuição denotada por Pβ. Deseja-se que esta distribuição esteja próxima à
distribuição desejada Pα. Para medir o quão próximo está às distribuições de probabilidades e
consequentemente o desempenho da máquina, usa-se a distância de Kullback-Leibler
[Kullback & Leibler 1951] entre as a distribuições Pα e Pβ:
∑α β
α
α ⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
=
P
P
lnPG
Intuitivamente para aproximar as distribuições de probabilidades Pα e Pβ , e assim
melhorar a representação do modelo em questão, basta minimizar a função distancia G como
mostrado na equação a seguir, onde 〈sisj〉+
é probabilidade do neurônio i e do neurônio j
estarem ativos na fase positiva e 〈sisj〉–
é o análogo na fase negativa.
( )−+
−−=
∂
∂
jiji
ij
ssss
T
1
w
G
6.1 Aprendizado na máquina de Boltzmann
Na máquina de Boltzmann toda a informação sobre como uma mudança particular do
peso altera a energia G do sistema está disponível localmente. O procedimento de
13. 11
aprendizagem para a máquina de Boltzmann tem duas fases, positiva e negativa. Na fase
positiva, as unidades visíveis têm seu estado definido de acordo com o valor de um padrão de
treinamento particular, e a rede é permitida a alcançar o estado térmico equilíbrio térmico.
Então incrementa-se os pesos das conexões entre quaisquer dois neurônios que estejam ambos
ativos, como na aprendizagem Hebbiana [Hebb 1949]. Esta fase é repetida um grande número
vezes, para cada padrão de treinamento sendo apresentado de acordo com a distribuição de
probabilidade que a rede deve aprender.
Já na fase negativa, a rede funciona livremente (nenhum neurônio de entrada tem seu
estado imposto) e os estados dos neurônios são coletados até que a rede atinja o equilíbrio
térmico.
Se as fases positiva e negativa forem alternadas com freqüência aproximadamente
igual (na verdade a fase positiva deve ocorrer mais frequentemente), então o procedimento de
aprendizado reduzirá, em média, a entropia cruzada entre a fase positiva e negativa da rede.
Dessa forma os pesos da rede são atualizados como segue, onde η é a taxa de aprendizado,
similar à usada no backpropagation.
( )−+
−η=Δ jijiij ssssw
7. A Máquina de Helmholtz
A máquina de Helmholtz [Dayan et al. 1995] e [Hinton et al. 1995] fornece uma
estrutura em múltiplas camadas para representar e aprender as relações estatísticas de ordem
mais alta entre as entradas sensoriais de interesse de uma maneira não-supervisionada, sem
usar a amostragem de Gibbs.
Ela utiliza dois conjuntos totalmente diferentes de conexões sinápticas, conforme
ilustrado na Figura 2, onde é mostrada uma rede com duas camadas de neurônios estocásticos
e binários.
14. 12
Figura 2. Grafo arquitetural da máquina de Helmholtz consistindo de neurônios conectados
com conexões de reconhecimento (linhas sólidas) e de geração (linhas tracejadas)
As conexões para frente constituem o modelo de reconhecimento e inferem uma
distribuição de probabilidade relacionada com as causas do vetor de entrada. As conexões de
realimentação constituem o modelo de geração, e reconstroem uma aproximação do vetor de
entrada original a partir das representações subjacentes capturadas pelas camadas ocultas da
rede. Ambos os modelos de reconhecimento e geração trabalham exclusivamente com
alimentação para frente (sem realimentação) interagindo apenas através do processo de
aprendizagem.
O aprendizado se dá em duas fases, uma fase acordada e uma fase adormecida. Na
fase acordada, a rede é acionada para frente pelos pesos de reconhecimento produzindo uma
representação do vetor de peso na primeira camada oculta da rede. A segunda camada oculta
produz uma segunda representação da primeira representação, e assim por diante. O conjunto
dessas representações fornece uma representação global do vetor de entrada pela rede.
Embora os neurônios sejam ajustados pelo peso de reconhecimento, apenas os pesos de
geração são ajustados nessa fase usando a informação disponível localmente.
Na fase adormecida os pesos de reconhecimento são desligados. A rede é acionada na
direção contrária pelos pesos de geração, iniciando na camada oculta mais externa e
terminando na camada visível. Pelo fato de os neurônios serem estocásticos, a repetição desse
processo provocaria tipicamente o surgimento de vetores “fantasiosos” na camada de entrada.
15. 13
Estas fantasias forneceriam uma amostra sem viés do modelo de geração da rede sobre
o mundo. Uma vez produzida a fantasia, os pesos de reconhecimento são ajustados por uma
regra delta simples de modo a maximizar o logaritmo da probabilidade de recuperar as
atividades ocultas que realmente causaram a fantasia. Nessa fase também é usada apenas
informação disponível localmente.
A regra de aprendizagem para os pesos de geração também utiliza a regra delta
simples, mas em vez de seguir o gradiente da função logaritmo da verossimilhança, segue o
gradiente de uma função logaritmo da verossimilhança penalizada. O termo de punição é a
divergência de Kullback-Leibler entre a distribuição a posteriori verdadeira e a distribuição
real produzida pelo modelo de reconhecimento. O processo de aprendizagem tenta ajustar os
pesos de geração para trazer a distribuição a posteriori real tão perto quanto possível da
distribuição realmente calculada pelo modelo de reconhecimento. Aprender os pesos de
reconhecimento não corresponde precisamente a função de verossimilhança penalizada, assim
não é garantido que o procedimento de aprendizagem acordado-adormecido funcione em
todas as situações práticas, ele falha algumas vezes.
8. Sigmoid Belief Network
Inicialmente sigmoid belief network (SBN) [Neal 1992] foi desenvolvida para
compartilhar com a máquina de Boltzmann (BM) a capacidade de aprender a distribuição de
probabilidade arbitrária sobre vetores binários, sem a necessidade da fase negativa no
procedimento de aprendizado da BM.
Desta forma alterando as conexões simétricas da BM com conexões diretas que
formam um gráfico acíclico (GAD). Portanto SBN tem uma arquitetura multi-camadas com
neurônios estocásticos binários. A natureza acíclica a faz fácil de realizar cálculos
probabilísticos. A Figura 3 ilustra a arquitetura geral de uma rede SBN.
16. 14
Figura 3 – Arquitetura geral de uma rede SBN
8.1 Motivações
• Treinamento supervisionado de modelos complexos (por exemplo, com redes de
muitas camadas) é dificilmente realizado (problemas de otimização )
• Modelos superficiais (Support vector machines, redes com uma camada, boosting,
etc...) são candidatos a aprender alto nível de abstração necessário para inteligência
artificial.
• Aprendizado não supervisionado pode fazer um “aprendizado-local”, onde cada
módulo tenta seu melhor para modela o que ele vê.
• Inferência (+aprendizado) é intratável nos modelos gráficos diretos com muitas
variáveis escondidas.
Métodos de aprendizados atuais não estendem o aprendizado facilmente para os múltiplos
níveis da representação
8.2 Propriedades Fundamentais
O projeto de uma SBN é altamente dependente da forma que os neurônios visíveis e
escondidos são arranjados, portanto, diferentes arranjos resultam em diferentes configurações.
Seja o vetor X, consistindo de variáveis randômicas de 2 valores X1,X2,....XN, composto de N
neurônios estocásticos. Os “pais” de Xj em X é:
17. 15
},...,,{)( 121 −⊆ jj XXXXpa
Que é um conjunto Menor que X, então
))pa(X|xX()xX,....,xX|xX( jjj1-j1-j11jj ===== PP
Em particular a probabilidade que o j-ésimo neurônio estar ativado é definido pela função
sigmoid
)xw
T
x
(=))pa(X|xP(X
ji
iji
j
jjj ∑<
= ϕ (mesma do BM)
A probabilidade condicional P(Xj = xj |pa(Xj)) depende somente de pa(Xj) através de
uma soma de pesos de entrada. Então, as seguintes propriedades são importantes:
1) 0=jiw para todo iX não pertence ao )( jXpa segue da definição dos “pais”
2) 0=jiw para todo ji ≥ segue da definição do GAD
Diferente de BM, a SBN precisa somente uma fase de aprendizado. A razão para esta
simplificação é que a normalização da distribuição de probabilidade sobre os vetores de
estado é completado pelo nível local de cada neurônio via a função sigmoid, ao invés de
globalmente via a função de partição Z que envolve todas as possíveis configurações de
estado.
Vantagens em relação ao BM
1) SBN é capaz de aprender de modelos de distribuição não trivial
2) Ela pode aprender mais rápido que a BM
3) Eliminação da Fase Negativa da BM do procedimento de aprendizado.
8.3 Procedimento de Aprendizado
• Inicializar a rede ajustando os valores dos pesos wji para valores randômicos
distribuídos uniformemente.
• Dado um conjunto de treinamento T, segurar os neurônios visíveis da rede para xα
• Para cada xα realizar uma simulação de amostragem Gibbs da rede para uma
temperatura de operação T e observar o estado de x (de toda a rede). A simulação deve
ser longa o suficiente para garantir que os valores de x para os diferentes casos do
18. 16
conjunto de treinamento deverão vir da distribuição condicional do correspondente
vetor X.
• Calcular a média ρji,
• Incrementar cada peso sináptico wji através da equação:
• Este ajuste nos pesos wji deverá mover os pesos da rede para um Máximo local da
função L(w).
9. Teoria Mean - Field
Na Maquina de Boltzmann o aprendizado é feito usando duas fases. Primeiro a rede é
rodada com tanto as entradas quanto as saídas fixadas. As probabilidades são medidas após o
sistema ter realizado o mínimo global de energia. Este procedimento é então repetido com
apenas as unidades de entrada fixada. Os pesos são então ajustados de acordo com o
gradiente-descendente. Para realizar um mínimo de energia global em cada fase deste
processo, é necessário usar o método de Simulated-Annealing que consome muito tempo.
Também o fato de que em maquinas estocásticas é desejável saber o estado de todos os
neurônios da rede a todo tempo, mas que em uma rede com um grande numero de neurônio o
estado neural contem muito mais informação do que é necessário na pratica. A teoria de
Mean-Field é uma forma de derivar a aproximação determinística para acelerar o processo de
aprendizado em maquinas estocásticas.
Existem 2 métodos podem ser seguidos:
1) Correlações são substituídas por suas médias; (aplicado a BM)
2) Um modelo intratável é substituído por um modelo tratável através de um principio
variacional – aplicável a SBN e Helmholtz
Método 1) Em [Peterson & Anderson 1987] demonstrou que o processo de Simulate-
Annealing estocástico nas Maquinas de Boltzmann pode ser substituído por um conjunto de
equações determinísticas chamada de aproximação da teoria de Mean-Field. Em uma rede
com um grande numero de neurônios os estados neurais contem mais informação do que é
necessário na pratica. Na verdade, a informação dos valores médios do estado do neurônio já
jijiw ηρ=Δ
19. 17
é suficiente. Este algoritmo de aprendizado da teoria Mean-Field (MFT) tipicamente provém
um substancial aumento de velocidade sobre a Maquina de Boltzmann.
Em um neurônio estocástico o mecanismo de gatilho é descrito por uma regra estocástica.
)exp(1
1
)(
,
)(11
)(1
T
v
vP
onde
vPadeprobabilidcom
vPadeprobabilidcom
X
j
j
j
j
j
−
+
=
⎪⎩
⎪
⎨
⎧
−−
+
=
Podemos expressar a media <Xj> para um especifico valor do campo local induzido vj da
forma:
<Xj> = P(xj = +1) (+1) + P(xj = -1) (-1)
<Xj> = (+1) P(vj) + (-1) [1 - P(vj)]
<Xj> = 2* P(vj) -1
<Xj> = Tanh(vj / 2T) onde j=1,2,...n (1)
Onde a media “Mean” de Xj (<Xj>) é também considerada a media “Térmica”, desde que o
ruído sináptico é geralmente modelado em termos de flutuações térmicas.
A figura abaixo mostra o gráfico do <Xj> pelo Vj, onde para valores T 0 tem-se
0)sgn( →→>< Tparavx jj
Isto para um neurônio estocástico. Para o caso de uma maquina estocástica composta de
muitos neurônios, a dificuldade deste método ocorre devido aos seguintes fatores:
1) a probabilidade P(vj) que o neurônio j esta “on” é uma função não-linear do campo
local induzido vj.
2) Vj é uma variável randômica, sendo influenciada pela ação estocástica de outros
neurônios conectados a entrada do neurônio j.
20. 18
Para resolver este caso é usada uma “aproximação de mean-field” que muitas vezes traz bons
resultados. A idéia nesta aproximação é substituir a atual flutuação do campo local induzido vj
por cada neurônio j pela sua media <vj> da seguinte forma:
∑∑ ><=>=<=
i
iji
i
ijij
aprox
j xwxwvv (2)
Então substituindo (2) em (1) tem-se:
)
2
1
tanh()
2
1
tanh()
2
1
tanh( ∑ ><=><=>=<
i
ijij
aprox
jj xw
T
v
T
v
T
x para j=1,2,..,n (3)
O sistema agora é determinístico e é aproximado pelo n medias equações
representadas pela equação (3). É importante notar que a equação (3) é significante apenas
quando a rede esta no equilíbrio térmico, que significa que toda a quantidade <Xj> converge
(ou seja,, torna-se invariante no tempo).
10. Maquina de Boltzmann Determinística
Peterson e Anderson [Peterson & Anderson 1987] propuseram um método para acerar
o processo de aprendizado da Maquina de Boltzmann baseado na Mean-Field Theory. Este
método consiste em substituir as correlações na regra de aprendizado da máquina de
Boltzmann por uma aproximação da Mean-Field como é mostrado abaixo:
−−++−+
>=<>=<−=Δ ijjiijjijijiji xxxxondew ρρρρη ,)( Regra BM
Kjixxxx ijij ,....,2,1),( =><><=><
Então, a regra de aprendizado da Maquina de Boltzmann Determinística fica da forma:
)( −−++
−=Δ ijijji UUUUw η
jvisivelneuroniodosaidasdasmédiasassãoUeUonde jj
−+
nas condições de “clamped” e
“free-running” para um determinado padrão.
21. 19
Este método se aplica apenas em casos supervisionados, que é, quando alguns dos
neurônios visíveis são assinalados as regras dos neurônios de saída. No aprendizado não
supervisionado não funciona para todo mundo o regime de “Media” porque o estado médio
tem uma representação muito pobre na fase do aprendizado “free-running”.
No aprendizado supervisionado, o uso da Maquina de Boltzmann determinística esta
restrita a redes com uma camada escondida. Apesar de na teoria não existir nenhuma razão
para carregar múltiplas camadas escondidas, na pratica mostrou ter problemas quando coloca-
se mais de 1 camada escondida.
Devido a sua formula simples, a maquina de Boltzmann determinística tem uma gama
de aplicações em larga escala em hardware.
22. 20
Referencias Bibliográficas
[Bilbro & Snyder 1991] Bilbro, G.L., Snyder, W.E., Mean-field approximation minimizes
relative entropy, J. Opt.Soc.Am, Vol. 8, No.2, 1991.
[Dayan et al. 1995] Dayan, P., Hinton, G.E, Neal, R.M., Zemel, R.S. The Helmholtz machine,
Neural Computation, Vol 7, pp. 889-904, 1995.
[Hasting 1970] Hasting, W. K., Monte Carlo sampling methods using Markov chains and
their applications, Biometrika, Vol. 87, pp. 177-221, 1970.
[Haykin 1999] Haykin, S., Neural Networks A comprehensive Foundation – Second Edition.
Prentice Hall, 1999.
[Hebb 1949] Hebb, D.O., The organization of behavior: A Neuropsychological Theory, New
York, Wiley, 1949.
[Hinton & Sejnowski, 1983] Hinton, G.E., Sejnowski, T.J., Optimal perceptual inference, In:
Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern
Recognition, pp. 448-453, Washington, D.C., 1983.
[Hinton et al. 1995] Hinton, G.E, Dayan, P., Frey, B.J., Neal, R.M. The ‘wake-sleep’
algorithm for unsupervised neural networks, Science, Vol. 268, pp. 1158-1161, 1995.
[Kirkpatrick et al. 1983] Kirkpatrick, S., Gellat, C.D., Vecchi, M.P., Optimization by
simulated annealing, Science, Vol. 220, pp. 671-680, 1983.
[Kullback & Leibler 1951] Kullback, S., Leibler, R. A., On information and sufficiency,
Annals of Mathematical Statistics, Vol. 22, pp. 79-86, 1951
[Metropolis et al. 1953] Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H.;
Teller, E, Equations of state calculations by fast computing machines, J. Chem. Phys Vol. 21,
1087-1092. 1953.
[Neal 1992] Neal, R.M., 1992, “Connectionist learning of belief network”, Artificial
Intelligence, vol.56, pp.71-113, 1992.
[Peterson & Anderson 1987] Peterson, C., Hartman, E., 1989 – “Explorations of the Mean
Field Theory Learning Algorithm”, Neural Networks, vol 2, pp. 475-494, 1987.
[Roweis 1995] Roweis, S., Boltzmann Machines. Lecture Notes, 1995