SlideShare uma empresa Scribd logo
1 de 33
Baixar para ler offline
Fundamentos Matemáticos para Inteligência Artificial
1
FUNDAMENTOS MATEMÁTICOS PARA IA
Copyright©
2016 by Leandro Nunes de Castro
Este material foi desenvolvido com base na seguinte referência bibliográfica: DE CASTRO,
L. N.; FERRARI, D. G. Introdução à Mineração de Dados: Conceitos Básicos, Algorit-
mos e Aplicações, Ed. Saraiva, 2006, p. 351. O uso deste material para fins acadêmicos é li-
vre e gratuito, desde que sejam mantidas as informações originais de autoria. Material dispo-
nível no Slideshare do autor: http://www.slideshare.net/lndecastro.
Sumário
1 CONCEITOS ELEMENTARES EM ÁLGEBRA LINEAR ...................................................................................3
1.1 CONJUNTOS E OPERAÇÕES COM CONJUNTOS ............................................................................................3
1.1.1 Conjuntos........................................................................................................................................3
1.1.2 Operações com Conjuntos ..............................................................................................................3
1.2 ESCALARES, VETORES E MATRIZES ..........................................................................................................4
1.2.1 Escalar.............................................................................................................................................4
1.2.2 Vetor ...............................................................................................................................................4
1.2.3 Matriz..............................................................................................................................................4
1.2.4 Conceitos Adicionais para Matrizes................................................................................................5
1.3 OPERAÇÕES ELEMENTARES ENTRE VETORES E MATRIZES........................................................................6
1.4 ESPAÇO VETORIAL LINEAR.......................................................................................................................7
1.4.1 Axiomas (Propriedades Vetoriais)...................................................................................................8
1.4.2 Subespaço Vetorial Linear...............................................................................................................8
1.4.3 Combinação Linear e Combinação Convexa ...................................................................................8
1.4.4 Dependência Linear de um Espaço Vetorial....................................................................................9
1.5 PRODUTO INTERNO ...................................................................................................................................9
1.6 PRODUTO EXTERNO ................................................................................................................................10
1.7 NORMA, SEMI-NORMA E QUASE-NORMA ................................................................................................10
1.8 ÂNGULO ENTRE DOIS VETORES ..............................................................................................................11
1.9 ORTOGONALIDADE E ORTONORMALIDADE ENTRE DOIS VETORES ..........................................................11
1.10 ESPAÇOS ORTOGONAIS ......................................................................................................................11
2 CONCEITOS ELEMENTARES EM TEORIA DOS GRAFOS ...........................................................................12
2.1 DEFINIÇÕES.............................................................................................................................................12
2.2 ÁRVORES ................................................................................................................................................13
3 CONCEITOS ELEMENTARES EM REDES NEURAIS ARTIFICIAIS ................................................................14
3.1 BASE BIOLÓGICA DAS RNAS ..................................................................................................................14
3.1.1 O Sistema Nervoso........................................................................................................................14
3.1.2 Base Biológica e Física da Aprendizagem e Memória...................................................................16
4 RESOLUÇÃO DE PROBLEMAS VIA MÉTODOS DE BUSCA........................................................................17
4.1 OTIMIZAÇÃO ...........................................................................................................................................17
4.2 OTIMIZAÇÃO VIA MÉTODOS DE BUSCA...................................................................................................18
Fundamentos Matemáticos para Inteligência Artificial
2
4.3 DEFINIÇÃO DE UM PROBLEMA DE BUSCA................................................................................................19
5 CONCEITOS ELEMENTARES EM ESTATÍSTICA.........................................................................................20
5.1 POPULAÇÃO, AMOSTRA, VARIÁVEIS.......................................................................................................20
5.2 PROBABILIDADE......................................................................................................................................21
5.2.1 Evento e Espaço Amostral.............................................................................................................21
5.2.2 Probabilidade................................................................................................................................21
5.2.3 Probabilidade Condicional ............................................................................................................22
5.2.4 Teorema de Bayes.........................................................................................................................22
5.2.5 Contagem......................................................................................................................................22
5.3 VARIÁVEIS ALEATÓRIAS.........................................................................................................................23
5.3.1 Variável Aleatória .........................................................................................................................23
5.3.2 Variável Aleatória Discreta ...........................................................................................................23
5.3.3 Distribuições de Probabilidade .....................................................................................................23
5.4 MEDIDAS RESUMO..................................................................................................................................25
5.4.1 Medidas de Tendências Central....................................................................................................25
5.4.2 Medidas de Dispersão...................................................................................................................26
5.4.3 Medidas de Forma ........................................................................................................................26
5.5 MEDIDAS DE ASSOCIAÇÃO......................................................................................................................28
5.6 ENTROPIA DA INFORMAÇÃO....................................................................................................................29
5.7 A CURVA NORMAL .................................................................................................................................30
5.8 INTERVALO DE CONFIANÇA ....................................................................................................................31
6 BIBLIOGRAFIA.......................................................................................................................................32
Fundamentos Matemáticos para Inteligência Artificial
3
“O instinto do empreendedor é explorar o mundo natural. O ins-
tinto do engenheiro é mudá-lo. O instinto do cientista é tentar
compreendê-lo - entender o que realmente está acontecendo. O
instinto do matemático é estruturar esse processo de entendi-
mento buscando generalidades que vão além de subdivisões ób-
vias. Há um pouco de cada um desses instintos em todos nós.”
I. Stewart (1995), Nature's Numbers - The Unreal Reality of
Mathematics, Basic Books, p. 13.
1 CONCEITOS ELEMENTARES EM ÁLGEBRA LINEAR
A álgebra linear é o ramo da matemática preocupada com o estudo de vetores, matrizes, es-
paços vetoriais, transformações lineares e sistemas de equações lineares. Todos esses concei-
tos são centrais para um bom entendimento da mineração de dados e serão brevemente revi-
sados nesta seção.
1.1 CONJUNTOS E OPERAÇÕES COM CONJUNTOS
1.1.1 Conjuntos
Um conjunto pode ser definido como uma agregação ou coleção de objetos, chamados de
elementos ou membros do conjunto. Os conjuntos são denotados aqui por letras maiúsculas
em itálico do alfabeto Romano. Alguns conjuntos particulares serão denotados por símbolos
específicos:
o : conjunto dos numerous naturais.
o : conjunto dos numerous reais.
o c: conjunto dos numerous complexos.
O estado lógico ou associação de um elemento x a um conjunto X é representado por:
x  X: x pertence à X.
x  X: x não pertence à X.
Um conjunto pode ser especificado listando seus elementos:
X = {x1, x2,..., xn},
ou descrevendo as propriedades que caracterizam seus elementos:
X2 = {x  X1 tal que P(x) é verdadeiro} ou X2 = {x  X1: P(x)}
1.1.2 Operações com Conjuntos
As principais operações com conjuntos são:
o União: X1  X2 = {x : x  X1 ou x  X2}
o Interseção: X1  X2 = {x : x  X1 e x  X2}
X1  X2 =  (conjunto vazio) se X1 e X2 são conjuntos disjuntos.
Fundamentos Matemáticos para Inteligência Artificial
4
O complemento de um conjunto X é representado por X e é definido como
 X X x x: .
S é um subconjunto de X se cada elemento em S é também um elemento de X. Neste caso,
diz-se que S está contido em X (S  X) ou que X contém S (X  S).
1.2 ESCALARES, VETORES E MATRIZES
1.2.1 Escalar
Uma variável que assume valores no eixo dos números reais é denominada escalar. Os esca-
lares são descritos por letras minúsculas do alfabeto romano expressas em itálico, ou do alfa-
beto grego. O conjunto de todos os escalares reais é representado por  ou 1
. O módulo de
um escalar real x é dado na forma:






0se
0se
xx
xx
x .
1.2.2 Vetor
Um arranjo ordenado de n escalares xi   (i = 1,2,...,n) é denominado vetor de dimensão n.
Os vetores são descritos por letras minúsculas do alfabeto romano expressas em negrito e as-
sumem a forma de vetores-coluna ou vetores-linha. Os vetores geralmente são representados
por vetores-coluna, na forma:













nx
x
x

2
1
x
ou  T
nxxx 21x .
O conjunto de todos os vetores de dimensão n com elementos reais é representado por n
.
Diz-se então que x  n
. Um escalar é um vetor de dimensão 1.
Alguns vetores de particular interesse são:
o Vetor 0n: é o vetor nulo de dimensão n, com todos os elementos iguais a zero. O subs-
crito n é suprimido quando não há margem à dúvida.
o Vetor 1n: é o vetor de dimensão n com todos os elementos iguais a 1.
o Vetor ei: é o vetor normal unitário de dimensão n (a dimensão deve ser indicada pelo
contexto) com todos os elementos iguais a 0, exceto o i-ésimo elemento que é igual a
1. Neste caso, 1  i  n.
1.2.3 Matriz
Um arranjo ordenado de m.n escalares xij (i=1,2,...,m; j=1,2,...,n) é denominado matriz de di-
mensão mn. As matrizes são descritas por letras maiúsculas do alfabeto romano expressas
em itálico (ou apenas em negrito), e assumem a forma:
Fundamentos Matemáticos para Inteligência Artificial
5













mnmm
n
n
xxx
xxx
xxx




21
22221
11211
X .
O conjunto de todas as matrizes mn com elementos reais é representado por m
 n
ou
mn
. Diz-se então que X  mn
. As colunas da matriz X são vetores-coluna descritos por:













mi
i
i
i
x
x
x

2
1
x
, i=1,...,n.
As linhas da matriz X são vetores-linha descritos por:
 jnjjj xxx 21)( x , j=1,...,m.
Um vetor é uma matriz com número unitário de linhas ou colunas.
1.2.4 Conceitos Adicionais para Matrizes
A transposta de uma matriz A, escrita AT
, é a matriz obtida escrevendo as colunas de A, em
ordem, como linhas. Ou seja, se A = [aij] é uma matriz mn, então AT
= [bij] é a matriz nm
onde bij = aji. O transposto de um vetor linha é um vetor coluna, e vice-versa.
Dada uma matriz A de dimensão nn, o cofator do elemento aij (i,j=1,2,...,n) é dado na
forma:
  ij
ji
ij mc 
 1 ,
onde mij é o determinante da matriz formada eliminando-se a i-ésima linha e a j-ésima coluna
da matriz A.
Dada uma matriz A de dimensão nn, o determinante de A é dado na forma:
 










ica
jca
n
j ijij
n
i ijij
qualquerpara,
ou
qualquerpara,
det
1
1
AA ,
onde cij é o cofator do elemento aij.
Com isso, se B é uma matriz obtida a partir de A pela troca de duas de suas colunas, então
det(B) = det(A).
Dada uma matriz A de dimensão nn, a adjunta de A, representada por adj(A), é dada na
forma:
adj(A) = {
ija },
Fundamentos Matemáticos para Inteligência Artificial
6
onde
ija = cji, o cofator do elemento aji.
São válidas as seguintes igualdades:
   
   
 
 A
A
A
AAA
AAA
det
adj
.det=.adj
.det=.adj 1



 
I
I
.
A inversa de uma matriz A  nn
é uma matriz M  nn
tal que
AM = MA = I.
A notação adotada para a matriz M é: M = A1
.
Para que uma matriz seja inversível, ela tem que ser quadrada e não singular. Vale a se-
guinte propriedade: (A1
)T
= (AT
)1
.
Um operador linear é uma transformação que pode ser descrita por formas matriciais, de
modo que D  X. Um operador linear, que mapeia vetores do n
no m
, pode ser descrito por
uma matriz A  mn
, tal que
y = Ax, x  n
e y  m
.
Seja A uma matriz de dimensão n  n. Um scalar   C (conjunto dos números complexos) é
um autovalor de A se existe um vetor não nulo x  Cn
, chamado de autovetor associado, tal
que
Ax = x
o Ax = x pode ser reescrito como (I  A)x = 0.
o x  Cn
, x  0 tal que (I  A)x = 0 se e somento se det(I  A) = 0.
o    

  det I A é o polinômio característico de A.
o Como o grau de () é n, a matriz A possui n autovalores.
1.3 OPERAÇÕES ELEMENTARES ENTRE VETORES E MATRIZES
Dados dois vetores x, y  m
, x = [x1, x2,..., xm]T
e y = [y1, y2,..., ym]T
, a adição e subtração
(Figura I.1) deles é feita como a seguir:
o Adição Vetorial: x + y = [x1+y1, x2+y2,..., xm+ym]T
.
o Subtração Vetorial: x  y = [x1y1, x2y2,..., xmym]T
.
Fundamentos Matemáticos para Inteligência Artificial
7
x
y
x + y
x
y
x  y
(a) (b)
Figura I.1: Adição vetorial (a) e subtração vetorial (b).
A multiplicação de um vetor x  m
por um escalar a   é feita da seguinte forma:
o Multiplicação por um escalar: a.x = [a.x1, a.x2,..., a.xm]T
.
Uma matriz A  mn
pode ser multiplicada por outra matriz B  rl
se, e somente se,
n = r; e o resultado é uma matriz C  ml
. Dadas:













mnmm
n
n
aaa
aaa
aaa




21
22221
11211
A ,













rlrr
l
l
bbb
bbb
bbb




21
22221
11211
B .
Cada elemento cij da matriz C  ml
, C = A.B, é obtido como a seguir:
.,...,1;,...,1,
1
ljmibac
n
k
kjikij  
A multiplicação de uma matriz A  mn
por um escalar b   é feita simplesmente multi-
plicando cada elemento da matriz A pelo escalar, de maneira similar à multiplicação de um
vetor por um escalar. Da mesma forma, a soma ou subtração de duas matrizes pressupõe que
elas sejam de mesma dimensão e é feita somando-se ou subtraindo-se elemento a elemento
das matrizes.
1.4 ESPAÇO VETORIAL LINEAR
Um campo é uma estrutura algébrica na qual as operações de adição, subtração, multiplicação
e divisão (exceto divisão por zero) podem ser feitas e onde também valem as regras da asso-
ciatividade, comutatividade e distributividade. Os campos são objetos importantes de estudo,
pois eles fornecem uma generalização apropriada dos domínios dos números, como os con-
juntos dos números racionais, conjunto dos números reais e conjunto dos números comple-
xos.
O espaço vetorial é a estrutura básica da álgebra linear. A definição de um espaço vetorial
V, cujos elementos são denominados vetores, envolve um campo arbitrário F, cujos elemen-
tos são denominados escalares. Ao considerarmos vetores, suas operações (p. ex., adição e
Fundamentos Matemáticos para Inteligência Artificial
8
multiplicação por escalar) e algumas de suas propriedades, chegamos a uma descrição de uma
estrutura matemática denominada espaço vetorial.
Um espaço vetorial X, associado a um campo F, consiste em um conjunto de elementos
(vetores) sobre os quais estão definidas duas operações:
1. Adição (X  X  X): (x + y)  X,  x, y  X;
2. Multiplicação por escalar (F  X  X): (x)  X,  x  X e   F.
1.4.1 Axiomas (Propriedades Vetoriais)
(1) x + y = y + x (comutatividade)
(2) (x + y) + z = x + (y + z) (associatividade)
(3) (x + y) = x + y (distributividade)
(4) x + 0 = x (vetor nulo)
(5) ()x = (x) (associatividade)
(6) ( + )x = x + x (distributividade)
(7) 1x = x (elemento neutro)
1.4.2 Subespaço Vetorial Linear
Um subespaço vetorial é um espaço vetorial “menor” dentro de um espaço vetorial “maior”.
Por exemplo, uma reta w que passa pela origem do espaço vetorial V = 2
é um subespaço de
V. Um subconjunto não vazio S de um espaço vetorial linear X é um subespaço de X se
.x + .y  S sempre que x e y  S.
Dito de outra forma, seja (X,F) um espaço vetorial linear e S um subconjunto de X. Diz-se
então que (S,F) é um subespaço vetorial de (X,F) se S forma um espaço vetorial sobre F atra-
vés das mesmas operações definidas sobre (X,F). Exemplos:
1. S  {0}
2. S  n
é subespaço de X  n
Se M e N são subespaços de X, então M  N   também é um subespaço de X. Todo espaço
é um subespaço de si mesmo.
1.4.3 Combinação Linear e Combinação Convexa
Seja S = {x1, x2, ..., xn} um conjunto de vetores de um espaço vetorial linear (X,). O vetor
v  V é dito uma combinação linear de x1, x2, ..., xn se
v = a1x1 + a2x2 + ... + anxn,
onde a1, a2, ..., an  .
Fundamentos Matemáticos para Inteligência Artificial
9
A combinação linear de vetores permite a obtenção de novos vetores a partir de vetores
dados. Se os escalares a1, a2, ..., an   são tais que ai  0 (i=1,2,...,n) e i ai = 1, então a
combinação linear é chamada combinação convexa dos elementos x1, x2, ..., xn  X.
Nota: Genericamente, expressar um vetor v  Fn
como uma combinação linear dos vetores
u1, u2,..., um, ui  Fn
, i = 1,...,m, é equivalente a resolver um sistema de equações lineares
Ax = b, onde v é o vetor coluna b de constantes, e ui, i = 1,...,m, são os vetores-coluna da ma-
triz de coeficientes A.
1.4.4 Dependência Linear de um Espaço Vetorial
Considere {x1, x2, ..., xn} um conjunto de vetores pertencentes a X. O conjunto S  [x1, x2, ...,
xn], chamado subespaço gerado pelos vetores {x1, x2, ..., xn}, consiste de todos os vetores em
X escritos como combinação linear de vetores em {x1, x2, ..., xn}. Neste caso, S é um subes-
paço vetorial de X.
Um conjunto de vetores {x1, x2, ..., xn} é dito linearmente independente se e somente se
i ai xi = 0 implica ai = 0, i=1,...,n. Caso contrário eles são ditos linearmente dependentes.
Um conjunto de vetores linearmente independentes {x1, x2, ..., xn} forma uma base para X
se X  [x1, x2, ..., xn]. Neste caso, diz-se que X tem dimensão n. Se n é finito, então X é um
espaço vetorial de dimensão finita.
O posto de uma matriz A  mn
é dado pelo número de colunas (ou linhas) linearmente
independentes, de modo que posto(A)  min(m,n). Se posto(A) = min(m,n), então diz-se que a
matriz tem posto completo.
1.5 PRODUTO INTERNO
Considere x,y  X e   . O produto interno x,y é um número real que satisfaz:
(1) x,y = y,x
(2) x+y,z = x,z + y,z
(3) x,y = x,y
(4) x,x  0  x  X, e x,x = 0  x = 0
Para X  n
e x,y  X, tem-se que x = [x1, x2, ..., xn]T
e y = [y1, y2, ..., yn]T
, e o produto interno
assume a forma:
yxyx T
n
i
ii yx  
1
, .
Fundamentos Matemáticos para Inteligência Artificial
10
1.6 PRODUTO EXTERNO
O produto externo entre dois vetores x  n
e y  m
é uma matriz de dimensão n  m de
posto unitário. Sendo x = [x1, x2, ..., xn]T
e y = [y1, y2, ..., ym]T
, o produto externo assume a
forma:













mnn
m
T
yxyx
yxyx
yxyxyx




1
2212
12111
xy
.
Em contraste com o caso do produto interno, os vetores x e y podem ter dimensões distintas.
Mesmo quando as dimensões são as mesmas, ou seja, n = m, a matriz quadrada resultante po-
de não ser simétrica.
1.7 NORMA, SEMI-NORMA E QUASE-NORMA
As definições até agora apresentadas permitem relacionar propriedades algébricas. Introdu-
zindo-se a noção de norma (medida de distância), é possível tratar propriedades topológicas,
como continuidade e convergência.
Norma é uma função |||| que associa a cada elemento x  X um número real ||x||, obede-
cendo aos seguintes axiomas:
(1) 0xxxx  0;,0 X ;
(2) X yxyxyx ,, (desigualdade triangular);
(3)   ,, Xxxx .
Toda vez que se associa uma norma a um espaço vetorial (sendo que a este espaço já está as-
sociado um campo), diz-se que se tem um espaço vetorial normado.
Uma semi-norma satisfaz todas as propriedades de norma, com exceção do primeiro axi-
oma. Para X  n
, o subespaço linear X0  n
, cujos elementos obedecem ||x|| = 0, é denomi-
nado espaço nulo da semi-norma.
Uma quase-norma satisfaz todas as propriedades de norma, com exceção do segundo axi-
oma (desigualdade triangular), o qual assume a forma:
   bXb com,,, yxyxyx .
Exemplos de normas e relações entre normas X  n
(Figura I.2):
o pn
i
p
ip
x
1
1






 

x , p  1 é um número real.
o
212
xxx n
Fundamentos Matemáticos para Inteligência Artificial
11
o

 xxx n2
o

 xxx n1
.
o 2
1
,xx é a conhecida norma euclidiana, pois 2
12
1
1
2
2
,xxx 





 

n
i
ix .
A relação entre o produto interno e a norma euclidiana (desigualdade de Cauchy-Schwartz-
Buniakowsky) é dada por: |x,y|2
 x,x . y,y → |x,y|  ||x||2.||y||2.
x1
x2
+1
+1
1
1 x1
x2
+1
+1
+1
1
1
p=2p=1
x1
x2
+1
1
1
p=+
Figura I.2: Topologia das normas em duas dimensões (n = 2): p = 1, p = 2 e p = + .
1.8 ÂNGULO ENTRE DOIS VETORES
Para qualquer inteiro n  2, dados dois vetores x,y  X  n
, x,y  0, o coseno do ângulo 
formado pelos vetores x e y é dado na forma:
 
22
cos
yx
yx


T
.
1.9 ORTOGONALIDADE E ORTONORMALIDADE ENTRE DOIS VETORES
Se cos() = 0, isto implica que x,y = xT
y = 0. Então se diz que x e y são ortogonais entre si,
condição representada na forma: x  y. Além disso, se x,x = y,y = 1, então os vetores x, y
 X  n
são ortonormais entre si.
1.10 ESPAÇOS ORTOGONAIS
Um vetor x é ortogonal a um espaço vetorial Y se for ortogonal a todos os vetores pertencen-
tes a Y, condição representada na forma: x  Y. Os espaços vetoriais X e Y são ortogonais en-
tre si se cada vetor pertence a X for ortogonal a todos os vetores pertencentes a Y, condição
representada na forma: X  Y.
Fundamentos Matemáticos para Inteligência Artificial
12
2 CONCEITOS ELEMENTARES EM TEORIA DOS GRAFOS
A teoria dos grafos estuda os grafos, estruturas matemáticas usadas na modelagem de rela-
ções entre pares de objetos. Ela constitui uma ferramenta poderosa em matemática e teoria da
computação e também apresenta diversas aplicações práticas em áreas como processamento
de imagens, otimização combinatória e análise de dados.
Considere o mapa apresentado na Figura I.3 ilustrando diversas cidades brasileiras e suas
possíveis conexões em linha reta. Cada cidade nesta figura corresponde a um vértice, ponto
ou nó, e cada ligação conectando os nós é denominada de arco. Este tipo de objeto ou repre-
sentação gráfica é denominado de grafo e representa um conjunto de nós possivelmente liga-
dos por arcos.
Figura I.3: Mapa do Brasil com algumas cidades representadas como nós em um grafo e ligadas entre
si por arcos.
Um grafo G pode, portanto, ser definido como sendo um conjunto V de vértices (nós) e um
conjunto E de arcos ligando pares de vértices de V: G = V,E. Dito de outra forma, um grafo
é uma 2-tupla dada por G = V,E. Portanto, V = {v0,v1,…,vN} é o conjunto de nós de G, e
E = {(vi,vj) : i  j} é o conjunto de arcos de G.
2.1 DEFINIÇÕES
Uma série de conceitos em teoria dos grafos é particularmente relevante em análise de dados,
a saber:
 Caminho: um caminho em um grafo G corresponde a uma sequência alternada de
vértices e arcos. Quando não há ambiguidade, um caminho pode ser denotado pela
sua sequência de vértices (v0,v1,…,vN).
 Caminho fechado: o caminho é dito fechado se v0 = vN.
 Grafo conexo: um grafo é dito conexo quando há pelo menos um arco ligando cada
um de seus nós, ou seja, quando há um caminho entre quaisquer dois vértices.
Fundamentos Matemáticos para Inteligência Artificial
13
 Grafo direcionado: um grafo é dito direcionado quando há um sentido pré-definido
de percurso no grafo, ou seja, quando os arcos possuem um sentido específico.
 Grafo ponderado e peso (ou comprimento) do arco: um grafo é dito ponderado se
para cada arco e  E um número não negativo denominado de peso ou comprimento
de e, w(e)  0, é especificado.
 Comprimento do caminho: para um grafo não ponderado, o comprimento de um
caminho é dado pelo número de arcos no caminho. Para grafos ponderados, o com-
primento ou peso de um caminho é determinado pela soma dos pesos dos arcos do
caminho.
 Nós adjacentes: dois nós vi e vj são ditos adjacentes se há um arco e  G conectando-
os, ou seja, e = {vi,vj}.
 Ciclo: um ciclo é um caminho fechado de comprimento 3 ou mais no qual todos os
vértices são distintos, exceto v0 e vN.
 Grau do nó: o grau de um nó é o número de arcos incidentes no nó.
EXEMPLO:
A Figura I.4 ilustra alguns conceitos em teoria dos grafos discutidos anteriormente. Para o
grafo G1, os conjuntos V1 e E1 são, respectivamente, V1 = {A,B,C,D,E} e
E1 = {(A,B),(A,C),(C,E),(E,D)}, e para o grafo G2 os conjuntos V2 e E2 são, respectivamente,
V2 = {A,B,C} e E2 = {(A,B),(B,C)}.
Os grafos G1 e G2 são, respectivamente, não ponderados e não direcionados, enquanto o
grafo G3 é direcionado e não ponderado, e G4 é direcionado e ponderado. Somente o grafo G3
é não conexo. O peso (comprimento) do caminho (D,E,B,F,C) de G4 é 10.
Se um grafo G é ponderado, ele pode ser representado por G = V,E,w, onde w(e) é o peso
do arco e, também representado por w(i,j): o peso do arco (i,j) que conecta os nós i e j. Para o
grafo G4 da Figura I.4, w(D,E) = 5, w(E,B) = 2, etc.
A B A A C A C
C G1 B G2 B F G3 B F G4
E D C E D E D
3
2
1
2
5
4
1
Figura I.4: Exemplos de grafos. G1: conexo, não direcionado e não ponderado. G2: conexo, não direcionado e
ponderado. G3: não conexo, direcionado e não ponderado. G4: conexo, direcionado e ponderado.
2.2 ÁRVORES
Uma árvore é um caso particular de um grafo no qual quaisquer dois nós estão conectados
por exatamente um caminho, ou seja, não existem ciclos em uma árvore. Um nó de grau 1 é
conhecido como folha e qualquer nó interno da árvore possui grau ao menos 2.
Fundamentos Matemáticos para Inteligência Artificial
14
Em teoria dos grafos as árvores são grafos não direcionados, mas em computação há mui-
tas estruturas de dados denominadas árvores que são grafos direcionados. Essas estruturas são
conhecidas como árvores enraizadas (do inglês rooted trees), pois possuem um nó raiz a par-
tir do qual (ou para o qual) os arcos se orientam.
Nos exemplos da Figura I.4, os grafos G1 e G2 são árvores, mas G3 e G4 não são, pois são
direcionados. No grafo G2, por exemplo, se assumirmos que o nó B é o nó raiz, pode-se dizer
que a árvore é enraizada e, portanto, os nós A e C são nós folhas.
3 CONCEITOS ELEMENTARES EM REDES NEURAIS AR-
TIFICIAIS
As redes neurais artificiais (RNAs) constituem uma das mais modernas e poderosas ferra-
mentas de processamento de informação da atualidade. Inspiradas na operação do sistema
nervoso humano, elas fazem uso de um processamento massivamente paralelo e distribuído
de informação que lhes conferem grandes capacidades de realizar mapeamentos não lineares
de elevada complexidade, dentre muitas outras coisas. Essa seção faz uma breve revisão so-
bre os conceitos elementares da área e é útil para um melhor entendimento dos capítulos que
falam sobre predição, agrupamento e detecção de anomalias.
3.1 BASE BIOLÓGICA DAS RNAS
O cérebro é especialista em desempenhar funções como reconhecimento de padrões, controle
motor, percepção, inferência, intuição, adivinhações, etc. Os neurônios são considerados as
unidades básicas de processamento do cérebro e, de modo análogo, modelos simplificados
dos neurônios biológicos constituem as unidades básicas de processamento das RNAs.
Os neurônios biológicos estão conectados uns aos outros por meio de conexões sinápticas.
Acredita-se que a capacidade das sinapses serem moduladas é a principal base para todos os
processos cognitivos, como percepção, raciocínio e memória. Sendo assim, algumas informa-
ções essenciais sobre neurônios, sinapses e organização estrutural são importantes para o pro-
jeto de RNAs.
3.1.1 O Sistema Nervoso
Todos os organismos multicelulares possuem algum tipo de sistema nervoso, cuja complexi-
dade e organização variam de acordo com o tipo de animal. Mesmo os vermes, lesmas e inse-
tos são capazes de adaptar seu comportamento e armazenar informações em seus sistemas
nervosos.
O sistema nervoso é responsável por dotar o organismo, por meio de entradas sensoriais,
de informações sobre o estado do ambiente no qual ele vive e se move. A informação de en-
trada é processada, comparada com as experiências passadas, e transformada em ações apro-
priadas ou absorvidas sob a forma de conhecimento. Sua organização pode se dar em diferen-
tes níveis: moléculas, sinapses, neurônios, camadas, mapas e sistemas, como ilustra a Figura
I.5.
Fundamentos Matemáticos para Inteligência Artificial
15
h
Brain
Network of
neurons
Neuron
Synapse
Figura I.5: Níveis organizacionais do sistema nervoso.
O processo de transmissão de sinais entre neurônios é central para a capacidade de processa-
mento de informação do cérebro. Uma das descobertas mais empolgantes em neurociências
foi a de que a efetividade da transmissão de sinais pode ser modulada, permitindo ao cérebro
se adaptar a diferentes situações. Essa plasticidade sináptica, ou seja, capacidade das sinap-
ses sofrerem modificações, é o ingrediente chave para o aprendizado da maioria das RNAs.
Os neurônios podem receber e enviar sinais a vários outros neurônios. Aqueles que envi-
am sinais, chamados de neurônios pré-sinápticos ou “enviadores”, fazem contato com os
neurônios receptores ou pós-sinápticos em regiões especializadas denominadas de sinapses.
A sinapse é, portanto, a junção entre o axônio de um neurônio pré-sináptico e o dendrito ou
corpo celular de um neurônio pós-sináptico (ver Figura I.6).
Figura I.6: Representação pictórica do neurônio biológico.
A capacidade de processamento de informação das sinapses permite que elas alterem o estado
de um neurônio pós-sináptico, eventualmente gerando um pulso elétrico, denominado poten-
cial de ação, no neurônio pós-sináptico. A ativação de um neurônio ocorre apenas quando
Fundamentos Matemáticos para Inteligência Artificial
16
seu potencial de membrana é maior do que um dado limiar. Portanto, um neurônio pode ser
visto como um dispositivo capaz de receber estímulos (de entrada) de diversos outros neurô-
nios e propagar sua única saída, função dos estímulos recebidos e do estado interno, a vários
outros neurônios.
Os neurônios podem ter conexões de sentido positivo (do inglês feedforward) e/ou de sen-
tido negativo (do inglês feedback) com outros neurônios, ou seja, as conexões podem ter um
único sentido ou serem recíprocas. Diversos neurônios interconectados geram uma estrutura
em rede conhecida como rede neural. Um agrupamento de neurônios interconectados pode
exibir comportamentos complexos e uma capacidade de processamento de informação que
não pode ser predita tomando-se cada neurônio individualmente.
Uma característica marcante das redes neurais é a representação distribuída de informa-
ção e seu processamento paralelo. Muitas áreas do cérebro apresentam uma organização la-
minar de neurônios, ou seja, camadas de neurônios em contato com outras camadas. Um dos
arranjos mais comuns de neurônios é uma estrutura bidimensional em camadas organizada
por meio de um arranjo topográfico das respostas de saída. O exemplo mais conhecido deste
tipo de estrutura é o córtex humano, que corresponde à superfície externa do cérebro; uma
estrutura bidimensional com vários dobramentos, fissuras e elevações.
Em geral os neurônios do córtex estão organizados em camadas distintas, que são subdivi-
didas em camada de entrada, camadas intermediárias ou escondidas e camada de saída. A
camada de entrada recebe os sinais sensoriais ou de entrada, a camada de saída envia sinais
para outras partes do cérebro e as camadas intermediárias recebem (enviam) sinais de (para)
outras camadas do córtex. Isso significa que as camadas intermediárias nem recebem entradas
diretamente e nem produzem uma saída do tipo motora, por exemplo.
3.1.2 Base Biológica e Física da Aprendizagem e Memória
O sistema nervoso está continuamente sofrendo modificações e atualizações. Virtualmente
todas as suas funções, incluindo percepção, controle motor, regulação térmica e raciocínio,
são modificadas por estímulos.
Observações comportamentais permitiram verificar graus de plasticidade do sistema ner-
voso: existem mudanças rápidas e fáceis, mudanças lentas e profundas, e mudanças mais
permanentes (porém ainda modificáveis).
Em geral, a aprendizagem global é resultado de alterações locais nos neurônios, por exem-
plo, dendritos podem nascer, assim como também podem ser removidos, alguns dendritos
podem se esticar ou serem encolhidos permitindo ou eliminando, respectivamente, a conexão
com outras células, novas sinapses podem ser criadas ou sofrerem alterações, sinapses tam-
bém podem ser removidas, e todo neurônio pode morrer e também se regenerar.
Toda esta vasta gama de adaptação estrutural pode ser convenientemente condensada sim-
plesmente referindo-se às sinapses, pois estas modificações envolvem a modificação sinápti-
ca de forma direta ou indireta. Sendo assim, a aprendizagem via modulação sináptica é o
mecanismo mais importante para as redes neurais, sejam elas biológicas ou artificiais. A mo-
Fundamentos Matemáticos para Inteligência Artificial
17
dulação sináptica poderá depender de mecanismos de adaptação de neurônios individuais e de
redes neurais como um todo.
4 RESOLUÇÃO DE PROBLEMAS VIA MÉTODOS DE BUS-
CA
Problemas nas mais diversas áreas do conhecimento podem ser entendidos como problemas
de busca ou otimização. Encontrar uma rota de custo mínimo entre um centro de distribuição
e as empresas ou consumidores que receberão um produto, ou encontrar os objetos que, em
conjunto, compõem um determinado grupo de uma base de dados, são apenas dois exemplos
de tarefas que podem ser resolvidas por métodos de busca e otimização. Essa seção inicia
com uma revisão mais clássica da tarefa de otimização e prossegue discutindo os conceitos
básicos da solução de problemas via métodos de busca.
4.1 OTIMIZAÇÃO
Otimização refere-se aos conceitos, métodos e aplicações relacionadas à determinação das
melhores (ótimas) soluções para um dado problema. Ela envolve o estudo de condições de
otimalidade, o desenvolvimento e análise de algoritmos, experimentos computacionais e apli-
cações.
Antes de aplicar um algoritmo de otimização para resolver um dado problema, é necessá-
rio desenvolver uma formulação matemática do problema, que descreve todos os aspectos
relevantes do problema, incluindo um objetivo a ser otimizado e um conjunto de restrições a
serem satisfeitas. Portanto, a formulação matemática de um problema de otimização requer a
definição de uma função objetivo a ser otimizada (maximizada ou minimizada), e um conjun-
to de soluções, denominadas soluções factíveis, que satisfazem as restrições do problema.
Por exemplo, considere um problema de otimização formulado como a seguir:
Minimize f(x)
Sujeito a gi(x)  0, i = 1,…,m
hj(x) = 0, j = 1,…,l
x  X.
onde as funções f, gi, hj   (i = 1,…,m; j = 1,…,l), X  , e x  n
.
Este problema deve ser resolvido para os valores das variáveis x1, x2,…, xn, que satisfazem
as restrições (1) e (2), e que, ao mesmo tempo, minimizam a função f(x).
A função f é geralmente denominada de função objetivo, função custo ou função critério.
Um vetor x   que satisfaz todas as restrições, (1) e (2), é denominado de solução factível
do problema.
Fundamentos Matemáticos para Inteligência Artificial
18
O conjunto de todas as possíveis soluções para o problema é denominado de espaço de
busca. O espaço de busca pode ser de duas formas principais: contínuo (número infinito de
possíveis soluções) e discreto (número contável de possíveis soluções).
Dependendo das características e da formulação do problema, sua solução pode ser obtida
de forma algébrica fechada. Entretanto, a maioria dos problemas de otimização apresenta ca-
racterísticas (por exemplo, não linearidade e explosão combinatória de possíveis soluções)
que não permitem uma solução analítica fechada, requerendo a aplicação de processos itera-
tivos de busca por uma solução, partindo de uma dada condição inicial. A presença de restri-
ções complica ainda mais o problema, dividindo o espaço de possíveis soluções em soluções
factíveis e soluções infactíveis.
Outro aspecto que deve ser considerado é a característica de convergência do processo ite-
rativo de busca. Três condições são desejáveis: garantia de convergência, velocidade de con-
vergência e convergência para uma solução de boa qualidade, ou seja, uma solução ótima ou
satisfatória.
Resolver o problema de minimização formulado acima corresponde a encontrar uma solu-
ção factível x* tal que f(x*)  f(x), x  n
. O vetor x* é denominado de um ótimo ou um
mínimo do problema. A solução x* que satisfaz esta condição é denominada de ótimo global,
ou mínimo global, pois ela corresponde ao menor valor factível possível da função objetivo.
Diferentemente do ótimo global, um ótimo local é uma solução factível x* em uma dada vi-
zinhança N de um ponto y, se e somente se f(x*)  f(y), y  N(x*), onde N(x) = {y  F
: dist(x,y)  }, dist é uma função que determina a distância entre x e y, e  é uma constante
positiva. Nota: maximizar uma função é equivalente a minimizar o negativo desta função:
(max f(x) = min f(x)). A Figura I.7 ilustra os conceitos de ótimo local e global.
Ótimo global (mínimo)
Ótimos locais (mínimos)
Figura I.7: Conceitos de ótimo (mínimo) local e global.
4.2 OTIMIZAÇÃO VIA MÉTODOS DE BUSCA
Sob uma perspectiva de aprendizagem de máquina, um problema pode ser entendido como
uma coleção de informações a partir das quais algo deverá ser extraído ou inferido. Exem-
plos:
Fundamentos Matemáticos para Inteligência Artificial
19
1. Função numérica a ser otimizada: f(x) = x3
+ x + 1.
2. Sequenciamento de tarefas: dado um conjunto de máquinas, operadores, jornadas
de trabalho, etc., qual configuração leva a uma melhor distribuição
tarefa/operador?
3. Dado um conjunto de objetos, encontre a melhor forma de separá-los em grupos
tal que a soma das distâncias intragrupos seja sempre menor que a soma das
distâncias intergrupos.
O processo de resolução do problema corresponderá a tomada de ações (passos), ou
sequências de ações (passos), que levam a um desempenho desejado, ou melhoram o
desempenho relativo de soluções candidatas. Este processo de procura por um desempenho
desejado ou um melhor desempenho é denominado de busca.
Um algoritmo de busca terá como entrada um problema e retornará como saída uma
solução. Neste caso, uma ou mais soluções candidatas podem ser utilizadas no processo de
busca. Os métodos que utilizam mais de uma solução candidata no processo de busca são
denominados de métodos populacionais (p.ex., algoritmos evolutivos).
O primeiro passo na resolução de um problema é a formulação do problema, que irá
depender das informações disponíveis. Três conceitos são fundamentais na resolução de
problemas via métodos de busca:
1. Escolha de uma representação: codificação de soluções candidatas, que por sua vez
sofrerão algum tido de manipulação. Sua interpretação implicará no espaço de busca
e sua dimensão. O espaço de busca é definido pela sua configuração (estado) inicial e
pelo conjunto de possíves configurações (estados).
2. Especificação de um objetivo: é a descrição de uma meta. Trata-se de uma expressão
(e não uma função) matemática que descreve o problema.
3. Definição de uma função de avaliação: retorna um valor específico indicando a
qualidade (relativa) de uma solução candidata particular, dada a representação
adotada. Trata-se geralmente de um mapeamento do espaço de soluções candidatas,
dada a representação adotada, para um conjuto de números, onde cada elemento do
espaço de soluções candidatas possui um valor numérico indicativo de sua qualidade.
Geralmente o objetivo sugere uma função de avaliação particular.
4.3 DEFINIÇÃO DE UM PROBLEMA DE BUSCA
Dado um espaço de busca S e uma região F factível deste espaço, F  S, encontre x  F tal
que:
eval(x*)  eval(x), x  F
Trata-se assim, de um problema de minimização, onde valores menores de x são considerados
de qualidade superior.
Fundamentos Matemáticos para Inteligência Artificial
20
O ponto x* que satisfaz a condição acima é dito ser o ótimo global ou mínimo global do
problema. Ao contrário do ótimo global, uma solução x  F é dita ser um ótimo local em
relação a uma vizinhança N de um ponto y, se e somente se
eval(x)  eval(y),  y  N(x),
onde N(x) = {y  S : dist(x,y)  }, dist é uma função que determina a distância entre x e y, e
 é uma constante positiva.
A função de avaliação define uma superfície de resposta semelhante a uma topografia de
vales e picos. Sendo assim, a determinação de soluções ótimas para um problema
corresponde a uma busca por picos (assumindo maximização) em uma superfície de
resposta.
Essa superfície pode apresentar uma grande quantidade de picos, platôs, vales, etc., o que
dificulta o processo de busca e a determinação de ótimos locais e globais. Métodos de busca
eficientes devem ser capazes de fornecer um equilíbrio entre dois objetivos aparentemente
conflitantes: busca local (do inglês exploitation) e exploração do espaço de busca (do inglês
exploration).
5 CONCEITOS ELEMENTARES EM ESTATÍSTICA
A estatística pode ser entendida como uma coleção de métodos usados para planejar experi-
mentos, coletar, organizar, sumarizar, analisar e interpretar dados de forma a extrair conclu-
sões a partir deles. Esta seção faz uma breve revisão sobre conceitos elementares em estatísti-
ca que serão necessários no livro.
5.1 POPULAÇÃO, AMOSTRA, VARIÁVEIS
Uma população é a coleção completa de elementos a serem estudados, por exemplo, valores,
medidas, cidades, etc. Amostra é um subconjunto dos elementos extraído da população. Um
atributo é uma medida que descreve uma característica de uma população. Cada uma destas
características é denominada de variável e pode ser classificada em quantitativa (numérica)
ou qualitativa (não numérica), como resumido na Figura I.8. Uma variável quantitativa cor-
responde a números que representam contagens ou medições, podendo ser dividida em dis-
creta (com um número finito ou contável de valores possíveis) ou contínua (com um número
infinito de possíveis valores). Uma variável qualitativa pode ser dividida em nominal (consis-
tindo apenas de nomes, rótulos ou categorias) ou ordinal (envolvendo variáveis que podem
ser ordenadas).
Fundamentos Matemáticos para Inteligência Artificial
21
Variáveis
Qualitativas Quantitativas
Nominal Ordinal Contínua Discreta
Figura I.8: Tipos de variáveis em estatística.
A estatística pode ser dividida em três ramos:
1. Estatística descritiva: que tem por objetivo descrever e sumarizar os dados obtidos
de uma amostra ou experimento;
2. Probabilidade: é a teoria matemática usada para estudar a incerteza de eventos alea-
tórios;
3. Estatística inferencial: ramo da estatística que se ocupa da generalização da infor-
mação e conclusões obtidas.
5.2 PROBABILIDADE
5.2.1 Evento e Espaço Amostral
Seja um evento uma coleção de resultados de um experimento. Um evento simples é aquele
que não permite decomposição. O espaço amostral, , de um experimento corresponde a to-
dos os possíveis eventos.
5.2.2 Probabilidade
A probabilidade é uma função P() que atribui um valor numérico aos eventos em um espaço
amostral satisfazendo as seguintes condições:
(1) 0  P(A)  1,  A  .
(2) P() = 1.
(3) 







 n
j
j
n
j
j APAP
11
)( , onde Aj’s são eventos disjuntos.
A probabilidade de ocorrência de um determinado evento pode ser aproximada, ou estimada,
pela sua frequência relativa:
oexperimentdorepetiçõesdenúmero
eventodosocorrênciadenúmero
)(
A
AP  .
Assuma que um experimento possua n diferentes eventos, cada qual com a mesma chance de
ocorrer. Se o evento A ocorre em s de n formas, então:
n
sA
AP 
diferentessimpleseventosdenúmero
ocorrerpodequeformasdenúmero
)( .
Fundamentos Matemáticos para Inteligência Artificial
22
O complemento Ā do evento A consiste em todos os resultados nos quais o evento A não
ocorre.
A probabilidade da união dos eventos A e B, P(A  B) é dada pela lei da adição:
P(AB) = P(A) + P(B)  P(AB),
onde P(AB) corresponde à probabilidade de que ambos eventos ocorram simultaneamente
em um dado experimento.
5.2.3 Probabilidade Condicional
Em muitos casos um processo aleatório pode ser dividido em estágios e a informação corres-
pondente ao que aconteceu em certo estágio pode influenciar a probabilidade de ocorrência
de outros estágios.
A probabilidade condicional P(A|B) (leia-se ‘probabilidade de A dado B’) é a probabilida-
de de que um evento A ocorra dado que B já ocorreu:
0)(,
)(
)(
)|( 

 BP
BP
BAP
BAP .
Partindo da definição de probabilidade condicional é possível deduzir a lei da multiplicação
das probabilidades:
P(AB) = P(A | B) P(B), com P(B) > 0.
Dois eventos A e B são ditos independentes se a informação sobre a ocorrência ou não de B
não altera a probabilidade de ocorrência de A e vice-versa, ou seja:
P(A | B) = P(A), P(B) > 0.
Ou equivalentemente
P(AB) = P(A)P(B).
5.2.4 Teorema de Bayes
Uma das relações mais importantes envolvendo probabilidade condicional é dada pelo Teo-
rema de Bayes, que expressa uma probabilidade condicional em termos de outras probabili-
dades condicionais e marginais (ou seja, probabilidade de um evento ocorrer ignorando os
outros).
Assuma que os eventos C1, C2, … , Ck, formam uma partição de  e que suas probabilida-
des são conhecidas. Assuma também que para o evento A as probabilidades P(A|Ci) são co-
nhecidas para i = 1, 2, ... , k. Assim, para qualquer j,
kj
AP
CPCAP
ACP
jj
j ,...,2,1,
)(
)()|(
)|(  .
5.2.5 Contagem
Dados dois eventos, o primeiro ocorrendo de m formas distintas e o segundo ocorrendo de n
formas distintas. Ambos os eventos podem ocorrer de n.m formas distintas. Uma permutação
Fundamentos Matemáticos para Inteligência Artificial
23
é uma lista ordenada sem repetições, ou seja, uma sequência ordenada na qual não há dois
elementos iguais, retirados de um conjunto fixo de símbolos e de comprimento máximo. As-
sim, uma diferença essencial entre uma permutação e um conjunto é que os elementos da
permutação são organizados em uma ordem pré-definida.
O número de possíveis permutações, também denominadas de arranjos, de k elementos
escolhidos a partir de n elementos, P(n,k), sem repetição é:
)!(
!
),(
kn
n
knP

 ,
onde o símbolo “!” corresponde à função fatorial: n! = n  (n 1)  (n  2)  ...  1, e, por
definição, 0! = 1.
Se há repetições, ou seja, se há n elementos com n1 elementos do mesmo, n2 elementos do
mesmo, etc., então o número de permutações é:
!!...!
!
21 knnn
n
P  .
O número de combinações de k elementos extraídos de um conjunto com n elementos distin-
tos é o coeficiente binomial:
!)!(
!
),(
kkn
n
k
n
knC








5.3 VARIÁVEIS ALEATÓRIAS
5.3.1 Variável Aleatória
Uma variável aleatória X é uma variável que admite um valor numérico para cada resultado
de um experimento. A palavra aleatória indica que, normalmente, só podemos saber seu va-
lor após a execução do experimento. Portanto, para cada valor possível da variável há uma
probabilidade associada.
5.3.2 Variável Aleatória Discreta
Uma variável aleatória discreta admite um número finito ou contável de possíveis valores.
Por outro lado, uma variável aleatória contínua pode assumir uma quantidade infinita de va-
lores, que podem estar associados a uma escala contínua.
5.3.3 Distribuições de Probabilidade
O termo probabilidade se refere à frequência relativa de ocorrência de um dado ou evento
qualquer, ou seja, a probabilidade associada a um evento qualquer é o número de vezes que
tal evento pode ocorrer em relação ao número total de eventos.
A distribuição de probabilidade especifica uma probabilidade para cada valor possível de
uma variável aleatória. No caso de variáveis aleatórias discretas tem-se uma função probabi-
lidade de massa (pmf, do inglês probability mass function) e para variáveis aleatórias contí-
Fundamentos Matemáticos para Inteligência Artificial
24
nuas tem-se uma função densidade de probabilidade (pdf, do inglês probability density func-
tion). A pmf fornece a probabilidade de ocorrência de cada valor de uma variável aleatória
discreta. Qualquer distribuição P deve satisfazer as seguintes condições:
(1) P(X) = 1, X; e
(2) 0  P(X)  1, X.
Algumas variáveis aleatórias aparecem com frequência em aplicações práticas, motivando
um estudo mais aprofundado. Nestes casos, a distribuição de probabilidade deve ser escrita
de forma compacta, ou seja, existe uma regra para se atribuir as probabilidades. Alguns
exemplos são a distribuição uniforme, a distribuição binomial, a distribuição normal e a dis-
tribuição de Poisson:
1. Distribuição uniforme: uma variável aleatória discreta Xi, i = 1, … , k, segue uma
distribuição uniforme se a mesma probabilidade 1/k é atribuída a cada um dos k valo-
res da variável Xi.
2. Distribuição binomial: uma variável aleatória discreta Xi, i = 1, … , k, segue uma
distribuição binomial se ela obedece a seguinte distribuição: C(n,k).pk
.(1  p)nk
, onde
C(n,k) é o coeficiente binomial, n é o número de (Bernoulli) tentativas e p é a probabi-
lidade de sucesso.
3. Distribuição normal: a distribuição normal ou Gaussiana é uma distribuição de pro-
babilidade contínua que ocorre com grande frequência prática. Dada uma variável
aleatória contínua x, uma distribuição normal possui a seguinte forma:




2
),,(
2
2
2
)( 


x
e
xf ,
onde  é a média da distribuição e  seu desvio padrão.
4. Distribuição de Poisson: uma variável aleatória discreta X tem uma distribuição de
Poisson com parâmetro  > 0 se sua função de probabilidade é dada por (e
k
)/k!,
k = 1, 2, ….
A Figura I.9 apresenta o gráfico de diferentes distribuições de probabilidade para uma variá-
vel aleatória X = 1,..., 50. Para distribuição uniforme, todos os valores de X possuem probabi-
lidade igual a 0,05. A distribuição binomial foi parametrizada com 25 tentativas e 0,7 de pro-
babilidade de sucesso. Para distribuição normal, a variável X foi tratada como uma variável
aleatória contínua com média 25,5 e desvio padrão 7. A distribuição de Poisson foi parame-
trizada com  igual a 5.
Fundamentos Matemáticos para Inteligência Artificial
25
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
0,20
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Uniforme Binomial Normal Poisson
Figura I.9: Diferentes distribuições de probabilidade.
5.4 MEDIDAS RESUMO
Algumas medidas podem ser usadas para resumir a informação contida em uma distribuição
de probabilidade de uma variável aleatória ou sumarizar a informação contida em uma base
de dados. Três tipos de medidas são importantes, as medidas de tendência central, as medidas
de dispersão e as medidas de forma da distribuição.
5.4.1 Medidas de Tendências Central
Uma medida de tendência central corresponde a um valor central ou um valor típico de uma
distribuição de probabilidade. É um valor único que tenta descrever um conjunto de dados
por meio da identificação de sua posição central. As medidas de tendência central mais co-
muns são média, mediana e moda, resumidas na Tabela I.1:
o Média: também conhecida como valor esperado, em uma base de dados é dada sim-
plesmente pela soma de todos os valores dividida pela quantidade de valores soma-
dos.
o Mediana: é o valor central, ou seja, o valor numérico que separa as duas metades de
uma amostra ou população. Se o número de observações é ímpar, toma-se o valor do
meio; se é par, a mediana é tomada como sendo a média dos dois valores centrais. Em
ambos os casos ordena-se as observações para que se encontre a mediana.
o Moda: é o valor que ocorre com maior frequência na base de dados.
Tabela I.1: Medidas de tendência central para uma base de dados e variáveis aleatórias discretas: média, medi-
ana e moda (Md é a moda).
Base de Dados Variável Aleatória
Fundamentos Matemáticos para Inteligência Artificial
26
Média 

N
i
ix
N
x
1
1


N
i
ii Xp
N 1
1

Mediana Valor central P(X  Md)  0.5 e P(X  Md)  0.5
Moda Valor mais frequente Valor mais provável
5.4.2 Medidas de Dispersão
Enquanto as medidas de tendência central buscam valores centrais, as medidas de dispersão
ou espalhamento expressam quantitativamente a variabilidade, ou dispersão, dos dados. Dito
de outra forma, as medidas de dispersão denotam o quanto uma distribuição está compacta ou
alongada. As medidas de dispersão mais comuns são a variância e o desvio padrão, resumi-
das na Tabela I.2:
o Variância: mede a dispersão de um conjunto de valores e é sempre não negativa.
Uma variância pequena indica que os dados tendem a estar bem próximos à média e,
portanto, uns aos outros. Valores grandes de variância indicam dados dispersos, ou se-
ja, distantes da média e uns dos outros.
o Desvio Padrão: é a raiz quadrada da variância, particularmente relevante como uma
medida de referência da variabilidade dos dados em relação à média. Por exemplo, ao
se dizer que em uma distribuição normal um determinado valor está a três desvios pa-
drões da média, já se sabe que ele está significativamente distante da maioria dos ou-
tros valores.
Tabela I.2: Medidas de dispersão para bases de dados e variáveis aleatórias: variância e desvio padrão.
Base de Dados Variável Aleatória
Variância 

N
i
i xx
N
x
1
2
)(
1
)var( 

N
i
ii XpX
1
2
)()var( 
Desvio Padrão )var()( xx  )var()( XX 
5.4.3 Medidas de Forma
As medidas de forma trazem informações sobre o formato da distribuição. A assimetria
(do inglês skewness), , é a medida de assimetria da função de distribuição de probabilidade
de uma variável aleatória em torno de sua média. Se a assimetria for negativa a distribuição
tende para direita, mas se for positiva tende para esquerda, como ilustra a Figura I.10. A as-
simetria é calculada como:
3
3
)(


xx 

E
,
onde  é o desvio padrão da variável x, x é a média da variável x, e E é o valor esperado ou
esperança da variável.
Fundamentos Matemáticos para Inteligência Artificial
27
(a) (b)
Figura I.10: Exemplo de duas funções de distribuição de probabilidade. (a) Assimetria negativa. (b) Assimetria
positiva.
A curtose (do inglês kurtosis), β, é a medida de dispersão que caracteriza o pico ou achata-
mento da curva da função de distribuição de probabilidade de uma variável aleatória. Se a
curtose for igual à zero, então o pico da curva possui achatamento similar à distribuição nor-
mal; se a curtose for positiva, então o pico da função é mais afunilado e a função é mais con-
centrada; e se a curtose for negativa, então o pico da função é mais achatado e a função é
mais dispersa. A Figura I.11: ilustra o exemplo de curvas com diferentes valores de curtose.
A curtose é dada pela equação:
4
4
)(


xx 

E
,
onde  é o desvio padrão da variável x, x é a média da variável x, e E é o valor esperado ou
esperança da variável.
Fundamentos Matemáticos para Inteligência Artificial
28
3
2
1,2
0
-0,6
-1.2
Figura I.11: Exemplo de diferentes curvas com o valor de curtose na legenda.
5.5 MEDIDAS DE ASSOCIAÇÃO
Para duas variáveis (aleatórias) distintas é possível determinar se há alguma dependência en-
tre elas usando alguma medida de associação. Por exemplo, se duas variáveis desviam de su-
as respectivas médias de maneira similar, é possível dizer que elas são covariantes, ou seja,
há uma correlação estatística entre suas ‘flutuações’.
Assuma uma base de dados com N pares (xi,yi), i = 1, 2, … , N. A covariância, cov(x,y),
entre duas variáveis aleatórias x e y é dada por:


N
i
ii yyxx
N
yx
1
))((
1
),cov( .
Note que a variância e o desvio padrão operam em uma única dimensão, ou seja, em uma
única variável da base independentemente das outras. A covariância, por outro lado, é sempre
medida entre duas variáveis. Se a covariância for calculada entre uma dimensão e ela mesma
o resultado e a variância.
Uma forma intuitiva de generalizar os conceitos de variância e covariância para espaços de
múltipla dimensão é usando a matriz de covariância, também conhecida como matriz de va-
riância-covariância, normalmente representada por . A matriz de covariância é aquela cujo
elemento ij corresponde à covariância entre os elementos i e j da base de dados:
Fundamentos Matemáticos para Inteligência Artificial
29
ij = cov(xi,xj), i,j.
Note que as variâncias aparecem na diagonal principal da matriz, que é quadrada e simétrica,
e as covariâncias aparecem fora da diagonal.
Como o valor da covariância depende da escala usada para medir x e y, é difícil usá-la co-
mo um padrão para comparar o grau estatístico de associação de diferentes pares de variáveis.
Para resolver este problema, um fator de escala pode ser aplicado dividindo cada desvio indi-
vidual pelo desvio padrão da respectiva variável, resultando no coeficiente de correlação, co-
nhecido como coeficiente de correlação de Pearson:
)().(
),cov(
),(
yx
yx
yx

  .
O coeficiente de correlação, (x,y), mede a dependência linear entre as variáveis. Em outras
palavras, ele determina se há uma relação (linear) entre as variáveis. Quando aplicada a uma
amostra ela é normalmente representada pela letra r e é conhecida como coeficiente de corre-
lação amostral de Pearson:







N
j
j
N
j
j
N
i
ii
yyxx
yyxx
r
1
2
1
2
1
)(.)(
))((
.
Note que o coeficiente de correlação entre as variáveis x e y pode assumir valores no interva-
lo [1, 1], onde 1 é uma correlação totalmente positiva, 0 significa ausência de correlação e
1 é uma correlação totalmente negativa. Um valor 1 significa que uma equação linear des-
creve perfeitamente a relação entre as variáveis, sendo que as duas crescem ou decrescem
juntas. Um valor 1 indica o oposto, ou seja, quando uma variável cresce a outra decresce.
5.6 ENTROPIA DA INFORMAÇÃO
Em teoria da informação, a entropia de Shanon ou entropia da informação, é uma medida da
incerteza associada a uma variável aleatória. Ela quantifica a informação contida em uma
mensagem, geralmente em bits ou bits/símbolo, e corresponde ao comprimento mínimo da
mensagem para comunicar informação.
A entropia também pode ser vista como o conteúdo da informação. No caso de uma fonte
de dados, ela corresponde ao número médio de bits por símbolo necessários para codificá-la e
depende, essencialmente, de um modelo probabilístico. Por exemplo:
o Uma moeda possui uma entropia de um bit. Se a moeda estiver viciada, então a incer-
teza é menor e, portanto, a entropia é menor. Nota: a probabilidade de ocorrência de
cada face da moeda quando lançada é a mesma (50%).
o Uma longa sentença de caracteres repetidos possui uma entropia nula, pois todo carac-
tere é previsível. Nota: a probabilidade de ocorrência de cada caractere é máxima.
Fundamentos Matemáticos para Inteligência Artificial
30
A entropia da informação de uma variável aleatória X, que pode assumir os valores {x1, x2, ...
, xn} é:


n
i
ibin xpxpxxxIXI
1
21 )(log)(),...,,()( ,
onde I(X) é o conteúdo da informação ou auto-informação de X, que é uma variável aleatória;
p(xi) = Pr(X = xi) é a probabilidade de xi; e b é a base do logaritmo. Nota: 0log0 é assumido 0.
As principais propriedades da entropia são:
o Continuidade: a entropia é contínua, ou seja, pequenas mudanças nos valores das
probabilidades resultam em pequenas mudanças nos valores da entropia.
o Simetria: a medida não muda se os resultados dos experimentos (xi) forem reordena-
dos.
o Máximo: a medida é máxima se todos os resultados forem igualmente prováveis.
o Aditividade: a entropia independe do processo estar dividido em partes ou não.
Valores possíveis de b são 2, e e 10. A unidade de medida da entropia é o bit para b = 2, nat
para b = e, e dit para b = 10.
Para entender o significado da equação da entropia, considere primeiramente o conjunto
dos n eventos possíveis de mesma probabilidade p(xi) = 1/n. A incerteza u deste conjunto de n
resultados é definida por:
U = logb(n).
O logaritmo é usado para fornecer a característica de aditividade para as incertezas indepen-
dentes. Por exemplo, considere o resultado de um experimento com n possíveis valores se-
guido do resultado de outro experimento com m possíveis valores. A incerteza do conjunto de
nm resultados é:
u = logb(nm) = logb(n) + logb(m).
Assim, a incerteza associada aos dois experimentos é obtida somando-se a incerteza de cada
um dos experimentos isoladamente. Como a probabilidade de cada evento isoladamente é
1/n, é possível escrever
u = logb(1/p(xi)) = logbp(xi), i.
Quanto menor a probabilidade, maior a entropia:
p(xi)  0, implica em ui  .
5.7 A CURVA NORMAL
Em estatística, a curva normal é uma distribuição comum na qual é possível determinar a
probabilidade associada a todos os pontos da linha de base da distribuição. Ela pode ser vista
como uma distribuição de frequências, onde a frequência total sob a curva é 100%. Essa cur-
Fundamentos Matemáticos para Inteligência Artificial
31
va apresenta uma área central que circunda a média ū onde se localizam os escores mais fre-
quentes e há, ainda, áreas progressivamente menores nas extremidades ou caudas ().
ū 223 3
68,26%
95,44%
99,74%
Figura I.12: Curva normal com as porcentagens da área total compreendidas entre , 2 e 3.
Para calcular a porcentagem exata entre a média e diversas distâncias-sigma da curva normal
é empregada uma tabela. O cálculo da distância sigma a partir da média ū produz um valor
chamado escore z ou escore padronizado, que indica, em unidades de desvio padrão, o senti-
do e o grau com que um dado escore bruto se afasta da média da sua distribuição de frequên-
cias:
z = (u ū)/,
onde  é o desvio padrão da distribuição.
Por exemplo, um escore z de 1,4 significa que o escore bruto está a 1,4 (1,4 desvio padrão) à
direita da média. O escore z também pode ser usado para a comparação de valores de diferen-
tes conjuntos de dados.
5.8 INTERVALO DE CONFIANÇA
Um intervalo de confiança está associado ao nível de confiança correspondente a uma medi-
da de certeza de que o intervalo contém um parâmetro da população. O nível de confiança é a
probabilidade (1  ), normalmente expressa como um valor percentual, de que o intervalo
de confiança contém o valor verdadeiro daquele parâmetro. Escolhas comuns para o nível de
confiança são 90%, 95% e 99%, pois eles fornecem um bom equilíbrio entre precisão e con-
fiança.
Para amostras com mais de 30 objetos (grandes amostras) e assumindo uma distribuição
normal, o intervalo de confiança da média, , da população é dado por:
N
zx
N
zx

 μ ,
Fundamentos Matemáticos para Inteligência Artificial
32
onde x é a média da amostra e
N
zE

 é a margem de erro (a máxima diferença provável
entre a média amostral e a média populacional).
O parâmetro z é chamado de valor crítico e assume alguns valores padronizados com base
no nível de confiança desejado: 90%  z = 1.645; 95%  z = 1.96; e 99%  z = 2.575. O
parâmetro  é o desvio padrão da população e pode ser substituído pelo desvio padrão amos-
tral quando seu valor populacional não é conhecido.
É possível determinar o menor tamanho da amostra para estimar certo parâmetro, como a
média da população, a partir da equação da margem de erro:
2





E
z
N

.
6 BIBLIOGRAFIA
Anton, H. A. (2000), Elementary Linear Algebra, Wiley.
Bazaraa, M. S., Sherali, H. D. and Shetty, C. M. (1993), Nonlinear Programming: Theory
and Algorithms, John Wiley and Sons, Inc., New York, 2nd
Ed.
Bondy, J. A. and Murty, U. S. R. (1976), Graph Theory with Applications, Elsevier North-
Holland.
Chen C.-T. (1984), Linear Systems: Theory and Design, New York: Holt, Rinehart and
Winston.
de Castro, L. N., Fundamentals of Natural Computing: Basic Concepts, Algorithms, and
Applications. CRC Press, 2006.
Diestel, R. (2000), Graph Theory, 2nd
Edition, Springer-Verlag.
Garey, M. and Johnson, D. (1979), Computers and Intractability, Freeman.
Lay, D. C. (2002), Linear Algebra and Its Applications, Addison Wesley, 3rd
Ed..
Levin, J. Estatística Aplicada a Ciências Humanas, Harbra, 1978.
Lipschutz, S. and Lipson, M. (1997), Shaum’s Outlines: Discrete Mathematics, McGraw-
Hill.
Lipschutz, S. and Lipson, M. (2000), Shaum’s Outlines: Linear Algebra, McGraw-Hill.
Luenberger, D. G. (1989), Linear and Nonlinear Programming, 2nd
Ed, Kluwer Academic
Publishers.
Michalewicz, Z. and Fogel, D. B. (2000), How to Solve It: Modern Heuristics, Springer-
Verlag.
Naadimuthu, G. (1997), Schaum's Outline of Operations Research, Schaum, 2nd
Ed.
Nocedal, J. and Wright, S. J. (1999), Numerical Optimization, Springer-Verlag.
Fundamentos Matemáticos para Inteligência Artificial
33
Rardin, R. L. (1998), Optimization in Operations Research, Prentice-Hall.
Triola, M. F. Introdução à estatística. 7. ed. LTC Livros Técnicos e Científicos Editora
S.A., 1999;
Tutte, W. T. (1984), Graph Theory, Encyclopedia of Mathematics and Its Applications, 21,
Addison-Wesley Publishing Co., Reading, Mass.

Mais conteúdo relacionado

Mais procurados

Metrologia - Aula 3
Metrologia - Aula 3Metrologia - Aula 3
Metrologia - Aula 3IBEST ESCOLA
 
IMEI Módulo 8 (Curso profissional de Gestão de Equipamentos Informáticos)
IMEI Módulo 8 (Curso profissional de Gestão de Equipamentos Informáticos)IMEI Módulo 8 (Curso profissional de Gestão de Equipamentos Informáticos)
IMEI Módulo 8 (Curso profissional de Gestão de Equipamentos Informáticos)Luis Ferreira
 
Aulas 6 e 7 - Redes e Telecomunicações
Aulas 6 e 7 - Redes e TelecomunicaçõesAulas 6 e 7 - Redes e Telecomunicações
Aulas 6 e 7 - Redes e TelecomunicaçõesJocelma Rios
 
Automacao hidraulica projetos_dimensiona_hr
Automacao hidraulica projetos_dimensiona_hrAutomacao hidraulica projetos_dimensiona_hr
Automacao hidraulica projetos_dimensiona_hrVitorPinheiro41
 
Redes 6 equipamentos ativos da rede
Redes 6 equipamentos ativos da redeRedes 6 equipamentos ativos da rede
Redes 6 equipamentos ativos da redeMauro Pereira
 
Acionamentos Elétricos
Acionamentos ElétricosAcionamentos Elétricos
Acionamentos Elétricoselliando dias
 
05-Subsistemas de Cabeamento Estruturado.pdf
05-Subsistemas de Cabeamento Estruturado.pdf05-Subsistemas de Cabeamento Estruturado.pdf
05-Subsistemas de Cabeamento Estruturado.pdfRaphaelBarradas1
 
Folheto de especificação - Empilhadeira HYSTER H210-360HD
Folheto de especificação - Empilhadeira HYSTER H210-360HD Folheto de especificação - Empilhadeira HYSTER H210-360HD
Folheto de especificação - Empilhadeira HYSTER H210-360HD Daniel Andrade
 
Administração de servidores Linux
Administração de servidores LinuxAdministração de servidores Linux
Administração de servidores LinuxJoão Sá
 
Coreçao de ficha de revisão
Coreçao de ficha de revisãoCoreçao de ficha de revisão
Coreçao de ficha de revisãobaglungekanchi
 
Governança de TI.pptx
Governança de TI.pptxGovernança de TI.pptx
Governança de TI.pptxssusera0a510
 
Redes de-computadores-tipos-de-redes
Redes de-computadores-tipos-de-redesRedes de-computadores-tipos-de-redes
Redes de-computadores-tipos-de-redesLeonardo Bruno
 
Dispositivos Utilizados em Comandos Elétricos
Dispositivos Utilizados em Comandos ElétricosDispositivos Utilizados em Comandos Elétricos
Dispositivos Utilizados em Comandos ElétricosJadson Caetano
 
Manutenção & reparo de impressoras
Manutenção & reparo de impressorasManutenção & reparo de impressoras
Manutenção & reparo de impressorasFernando Mendes
 

Mais procurados (20)

Metrologia - Aula 3
Metrologia - Aula 3Metrologia - Aula 3
Metrologia - Aula 3
 
IMEI Módulo 8 (Curso profissional de Gestão de Equipamentos Informáticos)
IMEI Módulo 8 (Curso profissional de Gestão de Equipamentos Informáticos)IMEI Módulo 8 (Curso profissional de Gestão de Equipamentos Informáticos)
IMEI Módulo 8 (Curso profissional de Gestão de Equipamentos Informáticos)
 
Aulas 6 e 7 - Redes e Telecomunicações
Aulas 6 e 7 - Redes e TelecomunicaçõesAulas 6 e 7 - Redes e Telecomunicações
Aulas 6 e 7 - Redes e Telecomunicações
 
Automacao hidraulica projetos_dimensiona_hr
Automacao hidraulica projetos_dimensiona_hrAutomacao hidraulica projetos_dimensiona_hr
Automacao hidraulica projetos_dimensiona_hr
 
Redes 6 equipamentos ativos da rede
Redes 6 equipamentos ativos da redeRedes 6 equipamentos ativos da rede
Redes 6 equipamentos ativos da rede
 
Acionamentos Elétricos
Acionamentos ElétricosAcionamentos Elétricos
Acionamentos Elétricos
 
FIBRA ÓPTICA
FIBRA ÓPTICA FIBRA ÓPTICA
FIBRA ÓPTICA
 
05-Subsistemas de Cabeamento Estruturado.pdf
05-Subsistemas de Cabeamento Estruturado.pdf05-Subsistemas de Cabeamento Estruturado.pdf
05-Subsistemas de Cabeamento Estruturado.pdf
 
Folheto de especificação - Empilhadeira HYSTER H210-360HD
Folheto de especificação - Empilhadeira HYSTER H210-360HD Folheto de especificação - Empilhadeira HYSTER H210-360HD
Folheto de especificação - Empilhadeira HYSTER H210-360HD
 
Sistema de Injeção
Sistema de InjeçãoSistema de Injeção
Sistema de Injeção
 
Administração de servidores Linux
Administração de servidores LinuxAdministração de servidores Linux
Administração de servidores Linux
 
Coreçao de ficha de revisão
Coreçao de ficha de revisãoCoreçao de ficha de revisão
Coreçao de ficha de revisão
 
Governança de TI.pptx
Governança de TI.pptxGovernança de TI.pptx
Governança de TI.pptx
 
Sistemas Operacionais para Servidores
Sistemas Operacionais para ServidoresSistemas Operacionais para Servidores
Sistemas Operacionais para Servidores
 
Redes de-computadores-tipos-de-redes
Redes de-computadores-tipos-de-redesRedes de-computadores-tipos-de-redes
Redes de-computadores-tipos-de-redes
 
Cap7 engrenagens
Cap7 engrenagensCap7 engrenagens
Cap7 engrenagens
 
Elétrica predial
Elétrica predialElétrica predial
Elétrica predial
 
Aula 07 - Fontes
Aula 07 - FontesAula 07 - Fontes
Aula 07 - Fontes
 
Dispositivos Utilizados em Comandos Elétricos
Dispositivos Utilizados em Comandos ElétricosDispositivos Utilizados em Comandos Elétricos
Dispositivos Utilizados em Comandos Elétricos
 
Manutenção & reparo de impressoras
Manutenção & reparo de impressorasManutenção & reparo de impressoras
Manutenção & reparo de impressoras
 

Destaque

2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base TecnológicaLeandro de Castro
 
2016: Notas sobre Liderança
2016: Notas sobre Liderança2016: Notas sobre Liderança
2016: Notas sobre LiderançaLeandro de Castro
 
2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business2016: Applying AI Innovation in Business
2016: Applying AI Innovation in BusinessLeandro de Castro
 
2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do CursoLeandro de Castro
 
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...Leandro de Castro
 
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...Leandro de Castro
 
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de DadosLeandro de Castro
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...Leandro de Castro
 
2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de MarketingLeandro de Castro
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em ComputaçãoLeandro de Castro
 
2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da ComputaçãoLeandro de Castro
 
Fundamentos del algebra (2)
Fundamentos del algebra (2)Fundamentos del algebra (2)
Fundamentos del algebra (2)juegen18
 
2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing ResearchLeandro de Castro
 
2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerceLeandro de Castro
 
2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big DataLeandro de Castro
 
2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de DadosLeandro de Castro
 
2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case StudiesLeandro de Castro
 
Fundamentos de algebra básica parte 1
Fundamentos de algebra básica parte 1Fundamentos de algebra básica parte 1
Fundamentos de algebra básica parte 1Giannina Galeth
 

Destaque (20)

2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
2010: Plano de Negócios e Incubação de Empresas de Base Tecnológica
 
2016: Notas sobre Liderança
2016: Notas sobre Liderança2016: Notas sobre Liderança
2016: Notas sobre Liderança
 
2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business
 
2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso
 
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
2016: A Tríade da Persona Virtual - O Que as Mídias Sociais Podem Revelar sob...
 
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
1998: Técnicas de Otimização Não-Linear Irrestrita para o Treinamento de Rede...
 
2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados2016 (Updated): Introdução à Mineração de Dados
2016 (Updated): Introdução à Mineração de Dados
 
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
2016: Introdução à Mineração de Dados: Conceitos Básicos, Algoritmos e Aplica...
 
2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing2015: Análise de Mercado e Plano de Marketing
2015: Análise de Mercado e Plano de Marketing
 
2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação2016: Metodologia da Pesquisa em Computação
2016: Metodologia da Pesquisa em Computação
 
2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação2015: Fundamentos Teóricos da Computação
2015: Fundamentos Teóricos da Computação
 
Fundamentos del algebra (2)
Fundamentos del algebra (2)Fundamentos del algebra (2)
Fundamentos del algebra (2)
 
Criptografia RSA
Criptografia RSACriptografia RSA
Criptografia RSA
 
Ma418 2016 01_s1.1
Ma418 2016 01_s1.1Ma418 2016 01_s1.1
Ma418 2016 01_s1.1
 
2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research2012: The Grand Challenges in Natural Computing Research
2012: The Grand Challenges in Natural Computing Research
 
2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce
 
2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data2012: LCoN Aplicações em Big Data
2012: LCoN Aplicações em Big Data
 
2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados2010: Agrupamento Evolutivo de Dados
2010: Agrupamento Evolutivo de Dados
 
2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies2012: Natural Computing - The Grand Challenges and Two Case Studies
2012: Natural Computing - The Grand Challenges and Two Case Studies
 
Fundamentos de algebra básica parte 1
Fundamentos de algebra básica parte 1Fundamentos de algebra básica parte 1
Fundamentos de algebra básica parte 1
 

Semelhante a 2016: Fundamentos Matemáticos para Inteligência Artificial

Cientista da computacao usando python
Cientista da computacao usando pythonCientista da computacao usando python
Cientista da computacao usando pythonJean Lopes
 
Apostila latex marcio_nascimento_da_silva_uva_ce_brasil
Apostila latex marcio_nascimento_da_silva_uva_ce_brasilApostila latex marcio_nascimento_da_silva_uva_ce_brasil
Apostila latex marcio_nascimento_da_silva_uva_ce_brasilCharles Almeida
 
Apostila linux educacional karen lowhany
Apostila linux educacional   karen lowhanyApostila linux educacional   karen lowhany
Apostila linux educacional karen lowhanyKaren Costa
 
Poliedro Matemática ( etc.)Portugueseportuguês (Z-Library).pdf
Poliedro Matemática ( etc.)Portugueseportuguês (Z-Library).pdfPoliedro Matemática ( etc.)Portugueseportuguês (Z-Library).pdf
Poliedro Matemática ( etc.)Portugueseportuguês (Z-Library).pdfWesleyFreitas38
 
Apostila opçaobombeiros mg
Apostila opçaobombeiros mgApostila opçaobombeiros mg
Apostila opçaobombeiros mgSamuel Marinho
 
Python
PythonPython
PythonTiago
 
Faculdade: Trabalho sobre Seguranca Digital (Versão em PDF)
Faculdade: Trabalho sobre Seguranca Digital (Versão em PDF)Faculdade: Trabalho sobre Seguranca Digital (Versão em PDF)
Faculdade: Trabalho sobre Seguranca Digital (Versão em PDF)Rafael Biriba
 
Conceitos estatistica
Conceitos estatisticaConceitos estatistica
Conceitos estatisticaJuliana Ardel
 
Apostila de postgre
Apostila de postgreApostila de postgre
Apostila de postgrems6675
 
Ricardo Mendes de Freitas - Modelagem Matemática em Ecologia de Populações
Ricardo Mendes de Freitas - Modelagem Matemática em Ecologia de PopulaçõesRicardo Mendes de Freitas - Modelagem Matemática em Ecologia de Populações
Ricardo Mendes de Freitas - Modelagem Matemática em Ecologia de PopulaçõesRodolfo Almeida
 
Relatorio tecnico sobre os fatores motivadores em equipe open source
Relatorio tecnico sobre os fatores motivadores em equipe open sourceRelatorio tecnico sobre os fatores motivadores em equipe open source
Relatorio tecnico sobre os fatores motivadores em equipe open sourceDanilo Monteiro
 
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...Vagner Nogueira
 
5166 apostila completa de microsoft access 2003
5166 apostila completa de microsoft access 20035166 apostila completa de microsoft access 2003
5166 apostila completa de microsoft access 2003markinhujr
 

Semelhante a 2016: Fundamentos Matemáticos para Inteligência Artificial (20)

Cientista da computacao usando python
Cientista da computacao usando pythonCientista da computacao usando python
Cientista da computacao usando python
 
Documento
DocumentoDocumento
Documento
 
Apostila latex marcio_nascimento_da_silva_uva_ce_brasil
Apostila latex marcio_nascimento_da_silva_uva_ce_brasilApostila latex marcio_nascimento_da_silva_uva_ce_brasil
Apostila latex marcio_nascimento_da_silva_uva_ce_brasil
 
Apostila linux educacional karen lowhany
Apostila linux educacional   karen lowhanyApostila linux educacional   karen lowhany
Apostila linux educacional karen lowhany
 
Estruturas dados
Estruturas dadosEstruturas dados
Estruturas dados
 
Estruturas dados
Estruturas dadosEstruturas dados
Estruturas dados
 
Tcc aop-e-persistencia
Tcc aop-e-persistenciaTcc aop-e-persistencia
Tcc aop-e-persistencia
 
Poliedro Matemática ( etc.)Portugueseportuguês (Z-Library).pdf
Poliedro Matemática ( etc.)Portugueseportuguês (Z-Library).pdfPoliedro Matemática ( etc.)Portugueseportuguês (Z-Library).pdf
Poliedro Matemática ( etc.)Portugueseportuguês (Z-Library).pdf
 
Apostila opçaobombeiros mg
Apostila opçaobombeiros mgApostila opçaobombeiros mg
Apostila opçaobombeiros mg
 
Python
PythonPython
Python
 
Apostila
ApostilaApostila
Apostila
 
monografia
monografiamonografia
monografia
 
Faculdade: Trabalho sobre Seguranca Digital (Versão em PDF)
Faculdade: Trabalho sobre Seguranca Digital (Versão em PDF)Faculdade: Trabalho sobre Seguranca Digital (Versão em PDF)
Faculdade: Trabalho sobre Seguranca Digital (Versão em PDF)
 
Conceitos estatistica
Conceitos estatisticaConceitos estatistica
Conceitos estatistica
 
Apostila de postgre
Apostila de postgreApostila de postgre
Apostila de postgre
 
Ricardo Mendes de Freitas - Modelagem Matemática em Ecologia de Populações
Ricardo Mendes de Freitas - Modelagem Matemática em Ecologia de PopulaçõesRicardo Mendes de Freitas - Modelagem Matemática em Ecologia de Populações
Ricardo Mendes de Freitas - Modelagem Matemática em Ecologia de Populações
 
Relatorio tecnico sobre os fatores motivadores em equipe open source
Relatorio tecnico sobre os fatores motivadores em equipe open sourceRelatorio tecnico sobre os fatores motivadores em equipe open source
Relatorio tecnico sobre os fatores motivadores em equipe open source
 
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
Modelagem de Base de Conhecimentos Baseada em Ontologia Estudo de Caso em Rec...
 
Apostila postgre
Apostila postgreApostila postgre
Apostila postgre
 
5166 apostila completa de microsoft access 2003
5166 apostila completa de microsoft access 20035166 apostila completa de microsoft access 2003
5166 apostila completa de microsoft access 2003
 

Mais de Leandro de Castro

2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural ComputingLeandro de Castro
 
2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência ArtificialLeandro de Castro
 
2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in IsraelLeandro de Castro
 
2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in BrazilLeandro de Castro
 
2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira2017: Tópicos em Educação Financeira
2017: Tópicos em Educação FinanceiraLeandro de Castro
 
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...Leandro de Castro
 
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerceLeandro de Castro
 
2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do CursoLeandro de Castro
 
2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and ApplicationsLeandro de Castro
 
2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune Systems2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune SystemsLeandro de Castro
 
2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural NetworksLeandro de Castro
 
2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram NegóciosLeandro de Castro
 

Mais de Leandro de Castro (13)

2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing2021: An Illustrated Journey into Natural Computing
2021: An Illustrated Journey into Natural Computing
 
2019: Folder do LCoN
2019: Folder do LCoN2019: Folder do LCoN
2019: Folder do LCoN
 
2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial
 
2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel2018: What did I learn about Innovation and Entrepreneurship in Israel
2018: What did I learn about Innovation and Entrepreneurship in Israel
 
2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil2018 Academic Innovation Opportunities in Brazil
2018 Academic Innovation Opportunities in Brazil
 
2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira2017: Tópicos em Educação Financeira
2017: Tópicos em Educação Financeira
 
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
2017: The Many Faces of Artificial Intelligence: From AI to Big Data - A Hist...
 
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
 
2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso2013: Empreendedorismo: Slides do Curso
2013: Empreendedorismo: Slides do Curso
 
2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications2000: Artificial Immune Systems - Theory and Applications
2000: Artificial Immune Systems - Theory and Applications
 
2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune Systems2001: An Introduction to Artificial Immune Systems
2001: An Introduction to Artificial Immune Systems
 
2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks2002: Comparing Immune and Neural Networks
2002: Comparing Immune and Neural Networks
 
2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios2011: Empreendedorismo Digital - Como Dados Viram Negócios
2011: Empreendedorismo Digital - Como Dados Viram Negócios
 

2016: Fundamentos Matemáticos para Inteligência Artificial

  • 1. Fundamentos Matemáticos para Inteligência Artificial 1 FUNDAMENTOS MATEMÁTICOS PARA IA Copyright© 2016 by Leandro Nunes de Castro Este material foi desenvolvido com base na seguinte referência bibliográfica: DE CASTRO, L. N.; FERRARI, D. G. Introdução à Mineração de Dados: Conceitos Básicos, Algorit- mos e Aplicações, Ed. Saraiva, 2006, p. 351. O uso deste material para fins acadêmicos é li- vre e gratuito, desde que sejam mantidas as informações originais de autoria. Material dispo- nível no Slideshare do autor: http://www.slideshare.net/lndecastro. Sumário 1 CONCEITOS ELEMENTARES EM ÁLGEBRA LINEAR ...................................................................................3 1.1 CONJUNTOS E OPERAÇÕES COM CONJUNTOS ............................................................................................3 1.1.1 Conjuntos........................................................................................................................................3 1.1.2 Operações com Conjuntos ..............................................................................................................3 1.2 ESCALARES, VETORES E MATRIZES ..........................................................................................................4 1.2.1 Escalar.............................................................................................................................................4 1.2.2 Vetor ...............................................................................................................................................4 1.2.3 Matriz..............................................................................................................................................4 1.2.4 Conceitos Adicionais para Matrizes................................................................................................5 1.3 OPERAÇÕES ELEMENTARES ENTRE VETORES E MATRIZES........................................................................6 1.4 ESPAÇO VETORIAL LINEAR.......................................................................................................................7 1.4.1 Axiomas (Propriedades Vetoriais)...................................................................................................8 1.4.2 Subespaço Vetorial Linear...............................................................................................................8 1.4.3 Combinação Linear e Combinação Convexa ...................................................................................8 1.4.4 Dependência Linear de um Espaço Vetorial....................................................................................9 1.5 PRODUTO INTERNO ...................................................................................................................................9 1.6 PRODUTO EXTERNO ................................................................................................................................10 1.7 NORMA, SEMI-NORMA E QUASE-NORMA ................................................................................................10 1.8 ÂNGULO ENTRE DOIS VETORES ..............................................................................................................11 1.9 ORTOGONALIDADE E ORTONORMALIDADE ENTRE DOIS VETORES ..........................................................11 1.10 ESPAÇOS ORTOGONAIS ......................................................................................................................11 2 CONCEITOS ELEMENTARES EM TEORIA DOS GRAFOS ...........................................................................12 2.1 DEFINIÇÕES.............................................................................................................................................12 2.2 ÁRVORES ................................................................................................................................................13 3 CONCEITOS ELEMENTARES EM REDES NEURAIS ARTIFICIAIS ................................................................14 3.1 BASE BIOLÓGICA DAS RNAS ..................................................................................................................14 3.1.1 O Sistema Nervoso........................................................................................................................14 3.1.2 Base Biológica e Física da Aprendizagem e Memória...................................................................16 4 RESOLUÇÃO DE PROBLEMAS VIA MÉTODOS DE BUSCA........................................................................17 4.1 OTIMIZAÇÃO ...........................................................................................................................................17 4.2 OTIMIZAÇÃO VIA MÉTODOS DE BUSCA...................................................................................................18
  • 2. Fundamentos Matemáticos para Inteligência Artificial 2 4.3 DEFINIÇÃO DE UM PROBLEMA DE BUSCA................................................................................................19 5 CONCEITOS ELEMENTARES EM ESTATÍSTICA.........................................................................................20 5.1 POPULAÇÃO, AMOSTRA, VARIÁVEIS.......................................................................................................20 5.2 PROBABILIDADE......................................................................................................................................21 5.2.1 Evento e Espaço Amostral.............................................................................................................21 5.2.2 Probabilidade................................................................................................................................21 5.2.3 Probabilidade Condicional ............................................................................................................22 5.2.4 Teorema de Bayes.........................................................................................................................22 5.2.5 Contagem......................................................................................................................................22 5.3 VARIÁVEIS ALEATÓRIAS.........................................................................................................................23 5.3.1 Variável Aleatória .........................................................................................................................23 5.3.2 Variável Aleatória Discreta ...........................................................................................................23 5.3.3 Distribuições de Probabilidade .....................................................................................................23 5.4 MEDIDAS RESUMO..................................................................................................................................25 5.4.1 Medidas de Tendências Central....................................................................................................25 5.4.2 Medidas de Dispersão...................................................................................................................26 5.4.3 Medidas de Forma ........................................................................................................................26 5.5 MEDIDAS DE ASSOCIAÇÃO......................................................................................................................28 5.6 ENTROPIA DA INFORMAÇÃO....................................................................................................................29 5.7 A CURVA NORMAL .................................................................................................................................30 5.8 INTERVALO DE CONFIANÇA ....................................................................................................................31 6 BIBLIOGRAFIA.......................................................................................................................................32
  • 3. Fundamentos Matemáticos para Inteligência Artificial 3 “O instinto do empreendedor é explorar o mundo natural. O ins- tinto do engenheiro é mudá-lo. O instinto do cientista é tentar compreendê-lo - entender o que realmente está acontecendo. O instinto do matemático é estruturar esse processo de entendi- mento buscando generalidades que vão além de subdivisões ób- vias. Há um pouco de cada um desses instintos em todos nós.” I. Stewart (1995), Nature's Numbers - The Unreal Reality of Mathematics, Basic Books, p. 13. 1 CONCEITOS ELEMENTARES EM ÁLGEBRA LINEAR A álgebra linear é o ramo da matemática preocupada com o estudo de vetores, matrizes, es- paços vetoriais, transformações lineares e sistemas de equações lineares. Todos esses concei- tos são centrais para um bom entendimento da mineração de dados e serão brevemente revi- sados nesta seção. 1.1 CONJUNTOS E OPERAÇÕES COM CONJUNTOS 1.1.1 Conjuntos Um conjunto pode ser definido como uma agregação ou coleção de objetos, chamados de elementos ou membros do conjunto. Os conjuntos são denotados aqui por letras maiúsculas em itálico do alfabeto Romano. Alguns conjuntos particulares serão denotados por símbolos específicos: o : conjunto dos numerous naturais. o : conjunto dos numerous reais. o c: conjunto dos numerous complexos. O estado lógico ou associação de um elemento x a um conjunto X é representado por: x  X: x pertence à X. x  X: x não pertence à X. Um conjunto pode ser especificado listando seus elementos: X = {x1, x2,..., xn}, ou descrevendo as propriedades que caracterizam seus elementos: X2 = {x  X1 tal que P(x) é verdadeiro} ou X2 = {x  X1: P(x)} 1.1.2 Operações com Conjuntos As principais operações com conjuntos são: o União: X1  X2 = {x : x  X1 ou x  X2} o Interseção: X1  X2 = {x : x  X1 e x  X2} X1  X2 =  (conjunto vazio) se X1 e X2 são conjuntos disjuntos.
  • 4. Fundamentos Matemáticos para Inteligência Artificial 4 O complemento de um conjunto X é representado por X e é definido como  X X x x: . S é um subconjunto de X se cada elemento em S é também um elemento de X. Neste caso, diz-se que S está contido em X (S  X) ou que X contém S (X  S). 1.2 ESCALARES, VETORES E MATRIZES 1.2.1 Escalar Uma variável que assume valores no eixo dos números reais é denominada escalar. Os esca- lares são descritos por letras minúsculas do alfabeto romano expressas em itálico, ou do alfa- beto grego. O conjunto de todos os escalares reais é representado por  ou 1 . O módulo de um escalar real x é dado na forma:       0se 0se xx xx x . 1.2.2 Vetor Um arranjo ordenado de n escalares xi   (i = 1,2,...,n) é denominado vetor de dimensão n. Os vetores são descritos por letras minúsculas do alfabeto romano expressas em negrito e as- sumem a forma de vetores-coluna ou vetores-linha. Os vetores geralmente são representados por vetores-coluna, na forma:              nx x x  2 1 x ou  T nxxx 21x . O conjunto de todos os vetores de dimensão n com elementos reais é representado por n . Diz-se então que x  n . Um escalar é um vetor de dimensão 1. Alguns vetores de particular interesse são: o Vetor 0n: é o vetor nulo de dimensão n, com todos os elementos iguais a zero. O subs- crito n é suprimido quando não há margem à dúvida. o Vetor 1n: é o vetor de dimensão n com todos os elementos iguais a 1. o Vetor ei: é o vetor normal unitário de dimensão n (a dimensão deve ser indicada pelo contexto) com todos os elementos iguais a 0, exceto o i-ésimo elemento que é igual a 1. Neste caso, 1  i  n. 1.2.3 Matriz Um arranjo ordenado de m.n escalares xij (i=1,2,...,m; j=1,2,...,n) é denominado matriz de di- mensão mn. As matrizes são descritas por letras maiúsculas do alfabeto romano expressas em itálico (ou apenas em negrito), e assumem a forma:
  • 5. Fundamentos Matemáticos para Inteligência Artificial 5              mnmm n n xxx xxx xxx     21 22221 11211 X . O conjunto de todas as matrizes mn com elementos reais é representado por m  n ou mn . Diz-se então que X  mn . As colunas da matriz X são vetores-coluna descritos por:              mi i i i x x x  2 1 x , i=1,...,n. As linhas da matriz X são vetores-linha descritos por:  jnjjj xxx 21)( x , j=1,...,m. Um vetor é uma matriz com número unitário de linhas ou colunas. 1.2.4 Conceitos Adicionais para Matrizes A transposta de uma matriz A, escrita AT , é a matriz obtida escrevendo as colunas de A, em ordem, como linhas. Ou seja, se A = [aij] é uma matriz mn, então AT = [bij] é a matriz nm onde bij = aji. O transposto de um vetor linha é um vetor coluna, e vice-versa. Dada uma matriz A de dimensão nn, o cofator do elemento aij (i,j=1,2,...,n) é dado na forma:   ij ji ij mc   1 , onde mij é o determinante da matriz formada eliminando-se a i-ésima linha e a j-ésima coluna da matriz A. Dada uma matriz A de dimensão nn, o determinante de A é dado na forma:             ica jca n j ijij n i ijij qualquerpara, ou qualquerpara, det 1 1 AA , onde cij é o cofator do elemento aij. Com isso, se B é uma matriz obtida a partir de A pela troca de duas de suas colunas, então det(B) = det(A). Dada uma matriz A de dimensão nn, a adjunta de A, representada por adj(A), é dada na forma: adj(A) = { ija },
  • 6. Fundamentos Matemáticos para Inteligência Artificial 6 onde ija = cji, o cofator do elemento aji. São válidas as seguintes igualdades:            A A A AAA AAA det adj .det=.adj .det=.adj 1      I I . A inversa de uma matriz A  nn é uma matriz M  nn tal que AM = MA = I. A notação adotada para a matriz M é: M = A1 . Para que uma matriz seja inversível, ela tem que ser quadrada e não singular. Vale a se- guinte propriedade: (A1 )T = (AT )1 . Um operador linear é uma transformação que pode ser descrita por formas matriciais, de modo que D  X. Um operador linear, que mapeia vetores do n no m , pode ser descrito por uma matriz A  mn , tal que y = Ax, x  n e y  m . Seja A uma matriz de dimensão n  n. Um scalar   C (conjunto dos números complexos) é um autovalor de A se existe um vetor não nulo x  Cn , chamado de autovetor associado, tal que Ax = x o Ax = x pode ser reescrito como (I  A)x = 0. o x  Cn , x  0 tal que (I  A)x = 0 se e somento se det(I  A) = 0. o        det I A é o polinômio característico de A. o Como o grau de () é n, a matriz A possui n autovalores. 1.3 OPERAÇÕES ELEMENTARES ENTRE VETORES E MATRIZES Dados dois vetores x, y  m , x = [x1, x2,..., xm]T e y = [y1, y2,..., ym]T , a adição e subtração (Figura I.1) deles é feita como a seguir: o Adição Vetorial: x + y = [x1+y1, x2+y2,..., xm+ym]T . o Subtração Vetorial: x  y = [x1y1, x2y2,..., xmym]T .
  • 7. Fundamentos Matemáticos para Inteligência Artificial 7 x y x + y x y x  y (a) (b) Figura I.1: Adição vetorial (a) e subtração vetorial (b). A multiplicação de um vetor x  m por um escalar a   é feita da seguinte forma: o Multiplicação por um escalar: a.x = [a.x1, a.x2,..., a.xm]T . Uma matriz A  mn pode ser multiplicada por outra matriz B  rl se, e somente se, n = r; e o resultado é uma matriz C  ml . Dadas:              mnmm n n aaa aaa aaa     21 22221 11211 A ,              rlrr l l bbb bbb bbb     21 22221 11211 B . Cada elemento cij da matriz C  ml , C = A.B, é obtido como a seguir: .,...,1;,...,1, 1 ljmibac n k kjikij   A multiplicação de uma matriz A  mn por um escalar b   é feita simplesmente multi- plicando cada elemento da matriz A pelo escalar, de maneira similar à multiplicação de um vetor por um escalar. Da mesma forma, a soma ou subtração de duas matrizes pressupõe que elas sejam de mesma dimensão e é feita somando-se ou subtraindo-se elemento a elemento das matrizes. 1.4 ESPAÇO VETORIAL LINEAR Um campo é uma estrutura algébrica na qual as operações de adição, subtração, multiplicação e divisão (exceto divisão por zero) podem ser feitas e onde também valem as regras da asso- ciatividade, comutatividade e distributividade. Os campos são objetos importantes de estudo, pois eles fornecem uma generalização apropriada dos domínios dos números, como os con- juntos dos números racionais, conjunto dos números reais e conjunto dos números comple- xos. O espaço vetorial é a estrutura básica da álgebra linear. A definição de um espaço vetorial V, cujos elementos são denominados vetores, envolve um campo arbitrário F, cujos elemen- tos são denominados escalares. Ao considerarmos vetores, suas operações (p. ex., adição e
  • 8. Fundamentos Matemáticos para Inteligência Artificial 8 multiplicação por escalar) e algumas de suas propriedades, chegamos a uma descrição de uma estrutura matemática denominada espaço vetorial. Um espaço vetorial X, associado a um campo F, consiste em um conjunto de elementos (vetores) sobre os quais estão definidas duas operações: 1. Adição (X  X  X): (x + y)  X,  x, y  X; 2. Multiplicação por escalar (F  X  X): (x)  X,  x  X e   F. 1.4.1 Axiomas (Propriedades Vetoriais) (1) x + y = y + x (comutatividade) (2) (x + y) + z = x + (y + z) (associatividade) (3) (x + y) = x + y (distributividade) (4) x + 0 = x (vetor nulo) (5) ()x = (x) (associatividade) (6) ( + )x = x + x (distributividade) (7) 1x = x (elemento neutro) 1.4.2 Subespaço Vetorial Linear Um subespaço vetorial é um espaço vetorial “menor” dentro de um espaço vetorial “maior”. Por exemplo, uma reta w que passa pela origem do espaço vetorial V = 2 é um subespaço de V. Um subconjunto não vazio S de um espaço vetorial linear X é um subespaço de X se .x + .y  S sempre que x e y  S. Dito de outra forma, seja (X,F) um espaço vetorial linear e S um subconjunto de X. Diz-se então que (S,F) é um subespaço vetorial de (X,F) se S forma um espaço vetorial sobre F atra- vés das mesmas operações definidas sobre (X,F). Exemplos: 1. S  {0} 2. S  n é subespaço de X  n Se M e N são subespaços de X, então M  N   também é um subespaço de X. Todo espaço é um subespaço de si mesmo. 1.4.3 Combinação Linear e Combinação Convexa Seja S = {x1, x2, ..., xn} um conjunto de vetores de um espaço vetorial linear (X,). O vetor v  V é dito uma combinação linear de x1, x2, ..., xn se v = a1x1 + a2x2 + ... + anxn, onde a1, a2, ..., an  .
  • 9. Fundamentos Matemáticos para Inteligência Artificial 9 A combinação linear de vetores permite a obtenção de novos vetores a partir de vetores dados. Se os escalares a1, a2, ..., an   são tais que ai  0 (i=1,2,...,n) e i ai = 1, então a combinação linear é chamada combinação convexa dos elementos x1, x2, ..., xn  X. Nota: Genericamente, expressar um vetor v  Fn como uma combinação linear dos vetores u1, u2,..., um, ui  Fn , i = 1,...,m, é equivalente a resolver um sistema de equações lineares Ax = b, onde v é o vetor coluna b de constantes, e ui, i = 1,...,m, são os vetores-coluna da ma- triz de coeficientes A. 1.4.4 Dependência Linear de um Espaço Vetorial Considere {x1, x2, ..., xn} um conjunto de vetores pertencentes a X. O conjunto S  [x1, x2, ..., xn], chamado subespaço gerado pelos vetores {x1, x2, ..., xn}, consiste de todos os vetores em X escritos como combinação linear de vetores em {x1, x2, ..., xn}. Neste caso, S é um subes- paço vetorial de X. Um conjunto de vetores {x1, x2, ..., xn} é dito linearmente independente se e somente se i ai xi = 0 implica ai = 0, i=1,...,n. Caso contrário eles são ditos linearmente dependentes. Um conjunto de vetores linearmente independentes {x1, x2, ..., xn} forma uma base para X se X  [x1, x2, ..., xn]. Neste caso, diz-se que X tem dimensão n. Se n é finito, então X é um espaço vetorial de dimensão finita. O posto de uma matriz A  mn é dado pelo número de colunas (ou linhas) linearmente independentes, de modo que posto(A)  min(m,n). Se posto(A) = min(m,n), então diz-se que a matriz tem posto completo. 1.5 PRODUTO INTERNO Considere x,y  X e   . O produto interno x,y é um número real que satisfaz: (1) x,y = y,x (2) x+y,z = x,z + y,z (3) x,y = x,y (4) x,x  0  x  X, e x,x = 0  x = 0 Para X  n e x,y  X, tem-se que x = [x1, x2, ..., xn]T e y = [y1, y2, ..., yn]T , e o produto interno assume a forma: yxyx T n i ii yx   1 , .
  • 10. Fundamentos Matemáticos para Inteligência Artificial 10 1.6 PRODUTO EXTERNO O produto externo entre dois vetores x  n e y  m é uma matriz de dimensão n  m de posto unitário. Sendo x = [x1, x2, ..., xn]T e y = [y1, y2, ..., ym]T , o produto externo assume a forma:              mnn m T yxyx yxyx yxyxyx     1 2212 12111 xy . Em contraste com o caso do produto interno, os vetores x e y podem ter dimensões distintas. Mesmo quando as dimensões são as mesmas, ou seja, n = m, a matriz quadrada resultante po- de não ser simétrica. 1.7 NORMA, SEMI-NORMA E QUASE-NORMA As definições até agora apresentadas permitem relacionar propriedades algébricas. Introdu- zindo-se a noção de norma (medida de distância), é possível tratar propriedades topológicas, como continuidade e convergência. Norma é uma função |||| que associa a cada elemento x  X um número real ||x||, obede- cendo aos seguintes axiomas: (1) 0xxxx  0;,0 X ; (2) X yxyxyx ,, (desigualdade triangular); (3)   ,, Xxxx . Toda vez que se associa uma norma a um espaço vetorial (sendo que a este espaço já está as- sociado um campo), diz-se que se tem um espaço vetorial normado. Uma semi-norma satisfaz todas as propriedades de norma, com exceção do primeiro axi- oma. Para X  n , o subespaço linear X0  n , cujos elementos obedecem ||x|| = 0, é denomi- nado espaço nulo da semi-norma. Uma quase-norma satisfaz todas as propriedades de norma, com exceção do segundo axi- oma (desigualdade triangular), o qual assume a forma:    bXb com,,, yxyxyx . Exemplos de normas e relações entre normas X  n (Figura I.2): o pn i p ip x 1 1          x , p  1 é um número real. o 212 xxx n
  • 11. Fundamentos Matemáticos para Inteligência Artificial 11 o   xxx n2 o   xxx n1 . o 2 1 ,xx é a conhecida norma euclidiana, pois 2 12 1 1 2 2 ,xxx          n i ix . A relação entre o produto interno e a norma euclidiana (desigualdade de Cauchy-Schwartz- Buniakowsky) é dada por: |x,y|2  x,x . y,y → |x,y|  ||x||2.||y||2. x1 x2 +1 +1 1 1 x1 x2 +1 +1 +1 1 1 p=2p=1 x1 x2 +1 1 1 p=+ Figura I.2: Topologia das normas em duas dimensões (n = 2): p = 1, p = 2 e p = + . 1.8 ÂNGULO ENTRE DOIS VETORES Para qualquer inteiro n  2, dados dois vetores x,y  X  n , x,y  0, o coseno do ângulo  formado pelos vetores x e y é dado na forma:   22 cos yx yx   T . 1.9 ORTOGONALIDADE E ORTONORMALIDADE ENTRE DOIS VETORES Se cos() = 0, isto implica que x,y = xT y = 0. Então se diz que x e y são ortogonais entre si, condição representada na forma: x  y. Além disso, se x,x = y,y = 1, então os vetores x, y  X  n são ortonormais entre si. 1.10 ESPAÇOS ORTOGONAIS Um vetor x é ortogonal a um espaço vetorial Y se for ortogonal a todos os vetores pertencen- tes a Y, condição representada na forma: x  Y. Os espaços vetoriais X e Y são ortogonais en- tre si se cada vetor pertence a X for ortogonal a todos os vetores pertencentes a Y, condição representada na forma: X  Y.
  • 12. Fundamentos Matemáticos para Inteligência Artificial 12 2 CONCEITOS ELEMENTARES EM TEORIA DOS GRAFOS A teoria dos grafos estuda os grafos, estruturas matemáticas usadas na modelagem de rela- ções entre pares de objetos. Ela constitui uma ferramenta poderosa em matemática e teoria da computação e também apresenta diversas aplicações práticas em áreas como processamento de imagens, otimização combinatória e análise de dados. Considere o mapa apresentado na Figura I.3 ilustrando diversas cidades brasileiras e suas possíveis conexões em linha reta. Cada cidade nesta figura corresponde a um vértice, ponto ou nó, e cada ligação conectando os nós é denominada de arco. Este tipo de objeto ou repre- sentação gráfica é denominado de grafo e representa um conjunto de nós possivelmente liga- dos por arcos. Figura I.3: Mapa do Brasil com algumas cidades representadas como nós em um grafo e ligadas entre si por arcos. Um grafo G pode, portanto, ser definido como sendo um conjunto V de vértices (nós) e um conjunto E de arcos ligando pares de vértices de V: G = V,E. Dito de outra forma, um grafo é uma 2-tupla dada por G = V,E. Portanto, V = {v0,v1,…,vN} é o conjunto de nós de G, e E = {(vi,vj) : i  j} é o conjunto de arcos de G. 2.1 DEFINIÇÕES Uma série de conceitos em teoria dos grafos é particularmente relevante em análise de dados, a saber:  Caminho: um caminho em um grafo G corresponde a uma sequência alternada de vértices e arcos. Quando não há ambiguidade, um caminho pode ser denotado pela sua sequência de vértices (v0,v1,…,vN).  Caminho fechado: o caminho é dito fechado se v0 = vN.  Grafo conexo: um grafo é dito conexo quando há pelo menos um arco ligando cada um de seus nós, ou seja, quando há um caminho entre quaisquer dois vértices.
  • 13. Fundamentos Matemáticos para Inteligência Artificial 13  Grafo direcionado: um grafo é dito direcionado quando há um sentido pré-definido de percurso no grafo, ou seja, quando os arcos possuem um sentido específico.  Grafo ponderado e peso (ou comprimento) do arco: um grafo é dito ponderado se para cada arco e  E um número não negativo denominado de peso ou comprimento de e, w(e)  0, é especificado.  Comprimento do caminho: para um grafo não ponderado, o comprimento de um caminho é dado pelo número de arcos no caminho. Para grafos ponderados, o com- primento ou peso de um caminho é determinado pela soma dos pesos dos arcos do caminho.  Nós adjacentes: dois nós vi e vj são ditos adjacentes se há um arco e  G conectando- os, ou seja, e = {vi,vj}.  Ciclo: um ciclo é um caminho fechado de comprimento 3 ou mais no qual todos os vértices são distintos, exceto v0 e vN.  Grau do nó: o grau de um nó é o número de arcos incidentes no nó. EXEMPLO: A Figura I.4 ilustra alguns conceitos em teoria dos grafos discutidos anteriormente. Para o grafo G1, os conjuntos V1 e E1 são, respectivamente, V1 = {A,B,C,D,E} e E1 = {(A,B),(A,C),(C,E),(E,D)}, e para o grafo G2 os conjuntos V2 e E2 são, respectivamente, V2 = {A,B,C} e E2 = {(A,B),(B,C)}. Os grafos G1 e G2 são, respectivamente, não ponderados e não direcionados, enquanto o grafo G3 é direcionado e não ponderado, e G4 é direcionado e ponderado. Somente o grafo G3 é não conexo. O peso (comprimento) do caminho (D,E,B,F,C) de G4 é 10. Se um grafo G é ponderado, ele pode ser representado por G = V,E,w, onde w(e) é o peso do arco e, também representado por w(i,j): o peso do arco (i,j) que conecta os nós i e j. Para o grafo G4 da Figura I.4, w(D,E) = 5, w(E,B) = 2, etc. A B A A C A C C G1 B G2 B F G3 B F G4 E D C E D E D 3 2 1 2 5 4 1 Figura I.4: Exemplos de grafos. G1: conexo, não direcionado e não ponderado. G2: conexo, não direcionado e ponderado. G3: não conexo, direcionado e não ponderado. G4: conexo, direcionado e ponderado. 2.2 ÁRVORES Uma árvore é um caso particular de um grafo no qual quaisquer dois nós estão conectados por exatamente um caminho, ou seja, não existem ciclos em uma árvore. Um nó de grau 1 é conhecido como folha e qualquer nó interno da árvore possui grau ao menos 2.
  • 14. Fundamentos Matemáticos para Inteligência Artificial 14 Em teoria dos grafos as árvores são grafos não direcionados, mas em computação há mui- tas estruturas de dados denominadas árvores que são grafos direcionados. Essas estruturas são conhecidas como árvores enraizadas (do inglês rooted trees), pois possuem um nó raiz a par- tir do qual (ou para o qual) os arcos se orientam. Nos exemplos da Figura I.4, os grafos G1 e G2 são árvores, mas G3 e G4 não são, pois são direcionados. No grafo G2, por exemplo, se assumirmos que o nó B é o nó raiz, pode-se dizer que a árvore é enraizada e, portanto, os nós A e C são nós folhas. 3 CONCEITOS ELEMENTARES EM REDES NEURAIS AR- TIFICIAIS As redes neurais artificiais (RNAs) constituem uma das mais modernas e poderosas ferra- mentas de processamento de informação da atualidade. Inspiradas na operação do sistema nervoso humano, elas fazem uso de um processamento massivamente paralelo e distribuído de informação que lhes conferem grandes capacidades de realizar mapeamentos não lineares de elevada complexidade, dentre muitas outras coisas. Essa seção faz uma breve revisão so- bre os conceitos elementares da área e é útil para um melhor entendimento dos capítulos que falam sobre predição, agrupamento e detecção de anomalias. 3.1 BASE BIOLÓGICA DAS RNAS O cérebro é especialista em desempenhar funções como reconhecimento de padrões, controle motor, percepção, inferência, intuição, adivinhações, etc. Os neurônios são considerados as unidades básicas de processamento do cérebro e, de modo análogo, modelos simplificados dos neurônios biológicos constituem as unidades básicas de processamento das RNAs. Os neurônios biológicos estão conectados uns aos outros por meio de conexões sinápticas. Acredita-se que a capacidade das sinapses serem moduladas é a principal base para todos os processos cognitivos, como percepção, raciocínio e memória. Sendo assim, algumas informa- ções essenciais sobre neurônios, sinapses e organização estrutural são importantes para o pro- jeto de RNAs. 3.1.1 O Sistema Nervoso Todos os organismos multicelulares possuem algum tipo de sistema nervoso, cuja complexi- dade e organização variam de acordo com o tipo de animal. Mesmo os vermes, lesmas e inse- tos são capazes de adaptar seu comportamento e armazenar informações em seus sistemas nervosos. O sistema nervoso é responsável por dotar o organismo, por meio de entradas sensoriais, de informações sobre o estado do ambiente no qual ele vive e se move. A informação de en- trada é processada, comparada com as experiências passadas, e transformada em ações apro- priadas ou absorvidas sob a forma de conhecimento. Sua organização pode se dar em diferen- tes níveis: moléculas, sinapses, neurônios, camadas, mapas e sistemas, como ilustra a Figura I.5.
  • 15. Fundamentos Matemáticos para Inteligência Artificial 15 h Brain Network of neurons Neuron Synapse Figura I.5: Níveis organizacionais do sistema nervoso. O processo de transmissão de sinais entre neurônios é central para a capacidade de processa- mento de informação do cérebro. Uma das descobertas mais empolgantes em neurociências foi a de que a efetividade da transmissão de sinais pode ser modulada, permitindo ao cérebro se adaptar a diferentes situações. Essa plasticidade sináptica, ou seja, capacidade das sinap- ses sofrerem modificações, é o ingrediente chave para o aprendizado da maioria das RNAs. Os neurônios podem receber e enviar sinais a vários outros neurônios. Aqueles que envi- am sinais, chamados de neurônios pré-sinápticos ou “enviadores”, fazem contato com os neurônios receptores ou pós-sinápticos em regiões especializadas denominadas de sinapses. A sinapse é, portanto, a junção entre o axônio de um neurônio pré-sináptico e o dendrito ou corpo celular de um neurônio pós-sináptico (ver Figura I.6). Figura I.6: Representação pictórica do neurônio biológico. A capacidade de processamento de informação das sinapses permite que elas alterem o estado de um neurônio pós-sináptico, eventualmente gerando um pulso elétrico, denominado poten- cial de ação, no neurônio pós-sináptico. A ativação de um neurônio ocorre apenas quando
  • 16. Fundamentos Matemáticos para Inteligência Artificial 16 seu potencial de membrana é maior do que um dado limiar. Portanto, um neurônio pode ser visto como um dispositivo capaz de receber estímulos (de entrada) de diversos outros neurô- nios e propagar sua única saída, função dos estímulos recebidos e do estado interno, a vários outros neurônios. Os neurônios podem ter conexões de sentido positivo (do inglês feedforward) e/ou de sen- tido negativo (do inglês feedback) com outros neurônios, ou seja, as conexões podem ter um único sentido ou serem recíprocas. Diversos neurônios interconectados geram uma estrutura em rede conhecida como rede neural. Um agrupamento de neurônios interconectados pode exibir comportamentos complexos e uma capacidade de processamento de informação que não pode ser predita tomando-se cada neurônio individualmente. Uma característica marcante das redes neurais é a representação distribuída de informa- ção e seu processamento paralelo. Muitas áreas do cérebro apresentam uma organização la- minar de neurônios, ou seja, camadas de neurônios em contato com outras camadas. Um dos arranjos mais comuns de neurônios é uma estrutura bidimensional em camadas organizada por meio de um arranjo topográfico das respostas de saída. O exemplo mais conhecido deste tipo de estrutura é o córtex humano, que corresponde à superfície externa do cérebro; uma estrutura bidimensional com vários dobramentos, fissuras e elevações. Em geral os neurônios do córtex estão organizados em camadas distintas, que são subdivi- didas em camada de entrada, camadas intermediárias ou escondidas e camada de saída. A camada de entrada recebe os sinais sensoriais ou de entrada, a camada de saída envia sinais para outras partes do cérebro e as camadas intermediárias recebem (enviam) sinais de (para) outras camadas do córtex. Isso significa que as camadas intermediárias nem recebem entradas diretamente e nem produzem uma saída do tipo motora, por exemplo. 3.1.2 Base Biológica e Física da Aprendizagem e Memória O sistema nervoso está continuamente sofrendo modificações e atualizações. Virtualmente todas as suas funções, incluindo percepção, controle motor, regulação térmica e raciocínio, são modificadas por estímulos. Observações comportamentais permitiram verificar graus de plasticidade do sistema ner- voso: existem mudanças rápidas e fáceis, mudanças lentas e profundas, e mudanças mais permanentes (porém ainda modificáveis). Em geral, a aprendizagem global é resultado de alterações locais nos neurônios, por exem- plo, dendritos podem nascer, assim como também podem ser removidos, alguns dendritos podem se esticar ou serem encolhidos permitindo ou eliminando, respectivamente, a conexão com outras células, novas sinapses podem ser criadas ou sofrerem alterações, sinapses tam- bém podem ser removidas, e todo neurônio pode morrer e também se regenerar. Toda esta vasta gama de adaptação estrutural pode ser convenientemente condensada sim- plesmente referindo-se às sinapses, pois estas modificações envolvem a modificação sinápti- ca de forma direta ou indireta. Sendo assim, a aprendizagem via modulação sináptica é o mecanismo mais importante para as redes neurais, sejam elas biológicas ou artificiais. A mo-
  • 17. Fundamentos Matemáticos para Inteligência Artificial 17 dulação sináptica poderá depender de mecanismos de adaptação de neurônios individuais e de redes neurais como um todo. 4 RESOLUÇÃO DE PROBLEMAS VIA MÉTODOS DE BUS- CA Problemas nas mais diversas áreas do conhecimento podem ser entendidos como problemas de busca ou otimização. Encontrar uma rota de custo mínimo entre um centro de distribuição e as empresas ou consumidores que receberão um produto, ou encontrar os objetos que, em conjunto, compõem um determinado grupo de uma base de dados, são apenas dois exemplos de tarefas que podem ser resolvidas por métodos de busca e otimização. Essa seção inicia com uma revisão mais clássica da tarefa de otimização e prossegue discutindo os conceitos básicos da solução de problemas via métodos de busca. 4.1 OTIMIZAÇÃO Otimização refere-se aos conceitos, métodos e aplicações relacionadas à determinação das melhores (ótimas) soluções para um dado problema. Ela envolve o estudo de condições de otimalidade, o desenvolvimento e análise de algoritmos, experimentos computacionais e apli- cações. Antes de aplicar um algoritmo de otimização para resolver um dado problema, é necessá- rio desenvolver uma formulação matemática do problema, que descreve todos os aspectos relevantes do problema, incluindo um objetivo a ser otimizado e um conjunto de restrições a serem satisfeitas. Portanto, a formulação matemática de um problema de otimização requer a definição de uma função objetivo a ser otimizada (maximizada ou minimizada), e um conjun- to de soluções, denominadas soluções factíveis, que satisfazem as restrições do problema. Por exemplo, considere um problema de otimização formulado como a seguir: Minimize f(x) Sujeito a gi(x)  0, i = 1,…,m hj(x) = 0, j = 1,…,l x  X. onde as funções f, gi, hj   (i = 1,…,m; j = 1,…,l), X  , e x  n . Este problema deve ser resolvido para os valores das variáveis x1, x2,…, xn, que satisfazem as restrições (1) e (2), e que, ao mesmo tempo, minimizam a função f(x). A função f é geralmente denominada de função objetivo, função custo ou função critério. Um vetor x   que satisfaz todas as restrições, (1) e (2), é denominado de solução factível do problema.
  • 18. Fundamentos Matemáticos para Inteligência Artificial 18 O conjunto de todas as possíveis soluções para o problema é denominado de espaço de busca. O espaço de busca pode ser de duas formas principais: contínuo (número infinito de possíveis soluções) e discreto (número contável de possíveis soluções). Dependendo das características e da formulação do problema, sua solução pode ser obtida de forma algébrica fechada. Entretanto, a maioria dos problemas de otimização apresenta ca- racterísticas (por exemplo, não linearidade e explosão combinatória de possíveis soluções) que não permitem uma solução analítica fechada, requerendo a aplicação de processos itera- tivos de busca por uma solução, partindo de uma dada condição inicial. A presença de restri- ções complica ainda mais o problema, dividindo o espaço de possíveis soluções em soluções factíveis e soluções infactíveis. Outro aspecto que deve ser considerado é a característica de convergência do processo ite- rativo de busca. Três condições são desejáveis: garantia de convergência, velocidade de con- vergência e convergência para uma solução de boa qualidade, ou seja, uma solução ótima ou satisfatória. Resolver o problema de minimização formulado acima corresponde a encontrar uma solu- ção factível x* tal que f(x*)  f(x), x  n . O vetor x* é denominado de um ótimo ou um mínimo do problema. A solução x* que satisfaz esta condição é denominada de ótimo global, ou mínimo global, pois ela corresponde ao menor valor factível possível da função objetivo. Diferentemente do ótimo global, um ótimo local é uma solução factível x* em uma dada vi- zinhança N de um ponto y, se e somente se f(x*)  f(y), y  N(x*), onde N(x) = {y  F : dist(x,y)  }, dist é uma função que determina a distância entre x e y, e  é uma constante positiva. Nota: maximizar uma função é equivalente a minimizar o negativo desta função: (max f(x) = min f(x)). A Figura I.7 ilustra os conceitos de ótimo local e global. Ótimo global (mínimo) Ótimos locais (mínimos) Figura I.7: Conceitos de ótimo (mínimo) local e global. 4.2 OTIMIZAÇÃO VIA MÉTODOS DE BUSCA Sob uma perspectiva de aprendizagem de máquina, um problema pode ser entendido como uma coleção de informações a partir das quais algo deverá ser extraído ou inferido. Exem- plos:
  • 19. Fundamentos Matemáticos para Inteligência Artificial 19 1. Função numérica a ser otimizada: f(x) = x3 + x + 1. 2. Sequenciamento de tarefas: dado um conjunto de máquinas, operadores, jornadas de trabalho, etc., qual configuração leva a uma melhor distribuição tarefa/operador? 3. Dado um conjunto de objetos, encontre a melhor forma de separá-los em grupos tal que a soma das distâncias intragrupos seja sempre menor que a soma das distâncias intergrupos. O processo de resolução do problema corresponderá a tomada de ações (passos), ou sequências de ações (passos), que levam a um desempenho desejado, ou melhoram o desempenho relativo de soluções candidatas. Este processo de procura por um desempenho desejado ou um melhor desempenho é denominado de busca. Um algoritmo de busca terá como entrada um problema e retornará como saída uma solução. Neste caso, uma ou mais soluções candidatas podem ser utilizadas no processo de busca. Os métodos que utilizam mais de uma solução candidata no processo de busca são denominados de métodos populacionais (p.ex., algoritmos evolutivos). O primeiro passo na resolução de um problema é a formulação do problema, que irá depender das informações disponíveis. Três conceitos são fundamentais na resolução de problemas via métodos de busca: 1. Escolha de uma representação: codificação de soluções candidatas, que por sua vez sofrerão algum tido de manipulação. Sua interpretação implicará no espaço de busca e sua dimensão. O espaço de busca é definido pela sua configuração (estado) inicial e pelo conjunto de possíves configurações (estados). 2. Especificação de um objetivo: é a descrição de uma meta. Trata-se de uma expressão (e não uma função) matemática que descreve o problema. 3. Definição de uma função de avaliação: retorna um valor específico indicando a qualidade (relativa) de uma solução candidata particular, dada a representação adotada. Trata-se geralmente de um mapeamento do espaço de soluções candidatas, dada a representação adotada, para um conjuto de números, onde cada elemento do espaço de soluções candidatas possui um valor numérico indicativo de sua qualidade. Geralmente o objetivo sugere uma função de avaliação particular. 4.3 DEFINIÇÃO DE UM PROBLEMA DE BUSCA Dado um espaço de busca S e uma região F factível deste espaço, F  S, encontre x  F tal que: eval(x*)  eval(x), x  F Trata-se assim, de um problema de minimização, onde valores menores de x são considerados de qualidade superior.
  • 20. Fundamentos Matemáticos para Inteligência Artificial 20 O ponto x* que satisfaz a condição acima é dito ser o ótimo global ou mínimo global do problema. Ao contrário do ótimo global, uma solução x  F é dita ser um ótimo local em relação a uma vizinhança N de um ponto y, se e somente se eval(x)  eval(y),  y  N(x), onde N(x) = {y  S : dist(x,y)  }, dist é uma função que determina a distância entre x e y, e  é uma constante positiva. A função de avaliação define uma superfície de resposta semelhante a uma topografia de vales e picos. Sendo assim, a determinação de soluções ótimas para um problema corresponde a uma busca por picos (assumindo maximização) em uma superfície de resposta. Essa superfície pode apresentar uma grande quantidade de picos, platôs, vales, etc., o que dificulta o processo de busca e a determinação de ótimos locais e globais. Métodos de busca eficientes devem ser capazes de fornecer um equilíbrio entre dois objetivos aparentemente conflitantes: busca local (do inglês exploitation) e exploração do espaço de busca (do inglês exploration). 5 CONCEITOS ELEMENTARES EM ESTATÍSTICA A estatística pode ser entendida como uma coleção de métodos usados para planejar experi- mentos, coletar, organizar, sumarizar, analisar e interpretar dados de forma a extrair conclu- sões a partir deles. Esta seção faz uma breve revisão sobre conceitos elementares em estatísti- ca que serão necessários no livro. 5.1 POPULAÇÃO, AMOSTRA, VARIÁVEIS Uma população é a coleção completa de elementos a serem estudados, por exemplo, valores, medidas, cidades, etc. Amostra é um subconjunto dos elementos extraído da população. Um atributo é uma medida que descreve uma característica de uma população. Cada uma destas características é denominada de variável e pode ser classificada em quantitativa (numérica) ou qualitativa (não numérica), como resumido na Figura I.8. Uma variável quantitativa cor- responde a números que representam contagens ou medições, podendo ser dividida em dis- creta (com um número finito ou contável de valores possíveis) ou contínua (com um número infinito de possíveis valores). Uma variável qualitativa pode ser dividida em nominal (consis- tindo apenas de nomes, rótulos ou categorias) ou ordinal (envolvendo variáveis que podem ser ordenadas).
  • 21. Fundamentos Matemáticos para Inteligência Artificial 21 Variáveis Qualitativas Quantitativas Nominal Ordinal Contínua Discreta Figura I.8: Tipos de variáveis em estatística. A estatística pode ser dividida em três ramos: 1. Estatística descritiva: que tem por objetivo descrever e sumarizar os dados obtidos de uma amostra ou experimento; 2. Probabilidade: é a teoria matemática usada para estudar a incerteza de eventos alea- tórios; 3. Estatística inferencial: ramo da estatística que se ocupa da generalização da infor- mação e conclusões obtidas. 5.2 PROBABILIDADE 5.2.1 Evento e Espaço Amostral Seja um evento uma coleção de resultados de um experimento. Um evento simples é aquele que não permite decomposição. O espaço amostral, , de um experimento corresponde a to- dos os possíveis eventos. 5.2.2 Probabilidade A probabilidade é uma função P() que atribui um valor numérico aos eventos em um espaço amostral satisfazendo as seguintes condições: (1) 0  P(A)  1,  A  . (2) P() = 1. (3)          n j j n j j APAP 11 )( , onde Aj’s são eventos disjuntos. A probabilidade de ocorrência de um determinado evento pode ser aproximada, ou estimada, pela sua frequência relativa: oexperimentdorepetiçõesdenúmero eventodosocorrênciadenúmero )( A AP  . Assuma que um experimento possua n diferentes eventos, cada qual com a mesma chance de ocorrer. Se o evento A ocorre em s de n formas, então: n sA AP  diferentessimpleseventosdenúmero ocorrerpodequeformasdenúmero )( .
  • 22. Fundamentos Matemáticos para Inteligência Artificial 22 O complemento Ā do evento A consiste em todos os resultados nos quais o evento A não ocorre. A probabilidade da união dos eventos A e B, P(A  B) é dada pela lei da adição: P(AB) = P(A) + P(B)  P(AB), onde P(AB) corresponde à probabilidade de que ambos eventos ocorram simultaneamente em um dado experimento. 5.2.3 Probabilidade Condicional Em muitos casos um processo aleatório pode ser dividido em estágios e a informação corres- pondente ao que aconteceu em certo estágio pode influenciar a probabilidade de ocorrência de outros estágios. A probabilidade condicional P(A|B) (leia-se ‘probabilidade de A dado B’) é a probabilida- de de que um evento A ocorra dado que B já ocorreu: 0)(, )( )( )|(    BP BP BAP BAP . Partindo da definição de probabilidade condicional é possível deduzir a lei da multiplicação das probabilidades: P(AB) = P(A | B) P(B), com P(B) > 0. Dois eventos A e B são ditos independentes se a informação sobre a ocorrência ou não de B não altera a probabilidade de ocorrência de A e vice-versa, ou seja: P(A | B) = P(A), P(B) > 0. Ou equivalentemente P(AB) = P(A)P(B). 5.2.4 Teorema de Bayes Uma das relações mais importantes envolvendo probabilidade condicional é dada pelo Teo- rema de Bayes, que expressa uma probabilidade condicional em termos de outras probabili- dades condicionais e marginais (ou seja, probabilidade de um evento ocorrer ignorando os outros). Assuma que os eventos C1, C2, … , Ck, formam uma partição de  e que suas probabilida- des são conhecidas. Assuma também que para o evento A as probabilidades P(A|Ci) são co- nhecidas para i = 1, 2, ... , k. Assim, para qualquer j, kj AP CPCAP ACP jj j ,...,2,1, )( )()|( )|(  . 5.2.5 Contagem Dados dois eventos, o primeiro ocorrendo de m formas distintas e o segundo ocorrendo de n formas distintas. Ambos os eventos podem ocorrer de n.m formas distintas. Uma permutação
  • 23. Fundamentos Matemáticos para Inteligência Artificial 23 é uma lista ordenada sem repetições, ou seja, uma sequência ordenada na qual não há dois elementos iguais, retirados de um conjunto fixo de símbolos e de comprimento máximo. As- sim, uma diferença essencial entre uma permutação e um conjunto é que os elementos da permutação são organizados em uma ordem pré-definida. O número de possíveis permutações, também denominadas de arranjos, de k elementos escolhidos a partir de n elementos, P(n,k), sem repetição é: )!( ! ),( kn n knP   , onde o símbolo “!” corresponde à função fatorial: n! = n  (n 1)  (n  2)  ...  1, e, por definição, 0! = 1. Se há repetições, ou seja, se há n elementos com n1 elementos do mesmo, n2 elementos do mesmo, etc., então o número de permutações é: !!...! ! 21 knnn n P  . O número de combinações de k elementos extraídos de um conjunto com n elementos distin- tos é o coeficiente binomial: !)!( ! ),( kkn n k n knC         5.3 VARIÁVEIS ALEATÓRIAS 5.3.1 Variável Aleatória Uma variável aleatória X é uma variável que admite um valor numérico para cada resultado de um experimento. A palavra aleatória indica que, normalmente, só podemos saber seu va- lor após a execução do experimento. Portanto, para cada valor possível da variável há uma probabilidade associada. 5.3.2 Variável Aleatória Discreta Uma variável aleatória discreta admite um número finito ou contável de possíveis valores. Por outro lado, uma variável aleatória contínua pode assumir uma quantidade infinita de va- lores, que podem estar associados a uma escala contínua. 5.3.3 Distribuições de Probabilidade O termo probabilidade se refere à frequência relativa de ocorrência de um dado ou evento qualquer, ou seja, a probabilidade associada a um evento qualquer é o número de vezes que tal evento pode ocorrer em relação ao número total de eventos. A distribuição de probabilidade especifica uma probabilidade para cada valor possível de uma variável aleatória. No caso de variáveis aleatórias discretas tem-se uma função probabi- lidade de massa (pmf, do inglês probability mass function) e para variáveis aleatórias contí-
  • 24. Fundamentos Matemáticos para Inteligência Artificial 24 nuas tem-se uma função densidade de probabilidade (pdf, do inglês probability density func- tion). A pmf fornece a probabilidade de ocorrência de cada valor de uma variável aleatória discreta. Qualquer distribuição P deve satisfazer as seguintes condições: (1) P(X) = 1, X; e (2) 0  P(X)  1, X. Algumas variáveis aleatórias aparecem com frequência em aplicações práticas, motivando um estudo mais aprofundado. Nestes casos, a distribuição de probabilidade deve ser escrita de forma compacta, ou seja, existe uma regra para se atribuir as probabilidades. Alguns exemplos são a distribuição uniforme, a distribuição binomial, a distribuição normal e a dis- tribuição de Poisson: 1. Distribuição uniforme: uma variável aleatória discreta Xi, i = 1, … , k, segue uma distribuição uniforme se a mesma probabilidade 1/k é atribuída a cada um dos k valo- res da variável Xi. 2. Distribuição binomial: uma variável aleatória discreta Xi, i = 1, … , k, segue uma distribuição binomial se ela obedece a seguinte distribuição: C(n,k).pk .(1  p)nk , onde C(n,k) é o coeficiente binomial, n é o número de (Bernoulli) tentativas e p é a probabi- lidade de sucesso. 3. Distribuição normal: a distribuição normal ou Gaussiana é uma distribuição de pro- babilidade contínua que ocorre com grande frequência prática. Dada uma variável aleatória contínua x, uma distribuição normal possui a seguinte forma:     2 ),,( 2 2 2 )(    x e xf , onde  é a média da distribuição e  seu desvio padrão. 4. Distribuição de Poisson: uma variável aleatória discreta X tem uma distribuição de Poisson com parâmetro  > 0 se sua função de probabilidade é dada por (e k )/k!, k = 1, 2, …. A Figura I.9 apresenta o gráfico de diferentes distribuições de probabilidade para uma variá- vel aleatória X = 1,..., 50. Para distribuição uniforme, todos os valores de X possuem probabi- lidade igual a 0,05. A distribuição binomial foi parametrizada com 25 tentativas e 0,7 de pro- babilidade de sucesso. Para distribuição normal, a variável X foi tratada como uma variável aleatória contínua com média 25,5 e desvio padrão 7. A distribuição de Poisson foi parame- trizada com  igual a 5.
  • 25. Fundamentos Matemáticos para Inteligência Artificial 25 0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 0,20 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 Uniforme Binomial Normal Poisson Figura I.9: Diferentes distribuições de probabilidade. 5.4 MEDIDAS RESUMO Algumas medidas podem ser usadas para resumir a informação contida em uma distribuição de probabilidade de uma variável aleatória ou sumarizar a informação contida em uma base de dados. Três tipos de medidas são importantes, as medidas de tendência central, as medidas de dispersão e as medidas de forma da distribuição. 5.4.1 Medidas de Tendências Central Uma medida de tendência central corresponde a um valor central ou um valor típico de uma distribuição de probabilidade. É um valor único que tenta descrever um conjunto de dados por meio da identificação de sua posição central. As medidas de tendência central mais co- muns são média, mediana e moda, resumidas na Tabela I.1: o Média: também conhecida como valor esperado, em uma base de dados é dada sim- plesmente pela soma de todos os valores dividida pela quantidade de valores soma- dos. o Mediana: é o valor central, ou seja, o valor numérico que separa as duas metades de uma amostra ou população. Se o número de observações é ímpar, toma-se o valor do meio; se é par, a mediana é tomada como sendo a média dos dois valores centrais. Em ambos os casos ordena-se as observações para que se encontre a mediana. o Moda: é o valor que ocorre com maior frequência na base de dados. Tabela I.1: Medidas de tendência central para uma base de dados e variáveis aleatórias discretas: média, medi- ana e moda (Md é a moda). Base de Dados Variável Aleatória
  • 26. Fundamentos Matemáticos para Inteligência Artificial 26 Média   N i ix N x 1 1   N i ii Xp N 1 1  Mediana Valor central P(X  Md)  0.5 e P(X  Md)  0.5 Moda Valor mais frequente Valor mais provável 5.4.2 Medidas de Dispersão Enquanto as medidas de tendência central buscam valores centrais, as medidas de dispersão ou espalhamento expressam quantitativamente a variabilidade, ou dispersão, dos dados. Dito de outra forma, as medidas de dispersão denotam o quanto uma distribuição está compacta ou alongada. As medidas de dispersão mais comuns são a variância e o desvio padrão, resumi- das na Tabela I.2: o Variância: mede a dispersão de um conjunto de valores e é sempre não negativa. Uma variância pequena indica que os dados tendem a estar bem próximos à média e, portanto, uns aos outros. Valores grandes de variância indicam dados dispersos, ou se- ja, distantes da média e uns dos outros. o Desvio Padrão: é a raiz quadrada da variância, particularmente relevante como uma medida de referência da variabilidade dos dados em relação à média. Por exemplo, ao se dizer que em uma distribuição normal um determinado valor está a três desvios pa- drões da média, já se sabe que ele está significativamente distante da maioria dos ou- tros valores. Tabela I.2: Medidas de dispersão para bases de dados e variáveis aleatórias: variância e desvio padrão. Base de Dados Variável Aleatória Variância   N i i xx N x 1 2 )( 1 )var(   N i ii XpX 1 2 )()var(  Desvio Padrão )var()( xx  )var()( XX  5.4.3 Medidas de Forma As medidas de forma trazem informações sobre o formato da distribuição. A assimetria (do inglês skewness), , é a medida de assimetria da função de distribuição de probabilidade de uma variável aleatória em torno de sua média. Se a assimetria for negativa a distribuição tende para direita, mas se for positiva tende para esquerda, como ilustra a Figura I.10. A as- simetria é calculada como: 3 3 )(   xx   E , onde  é o desvio padrão da variável x, x é a média da variável x, e E é o valor esperado ou esperança da variável.
  • 27. Fundamentos Matemáticos para Inteligência Artificial 27 (a) (b) Figura I.10: Exemplo de duas funções de distribuição de probabilidade. (a) Assimetria negativa. (b) Assimetria positiva. A curtose (do inglês kurtosis), β, é a medida de dispersão que caracteriza o pico ou achata- mento da curva da função de distribuição de probabilidade de uma variável aleatória. Se a curtose for igual à zero, então o pico da curva possui achatamento similar à distribuição nor- mal; se a curtose for positiva, então o pico da função é mais afunilado e a função é mais con- centrada; e se a curtose for negativa, então o pico da função é mais achatado e a função é mais dispersa. A Figura I.11: ilustra o exemplo de curvas com diferentes valores de curtose. A curtose é dada pela equação: 4 4 )(   xx   E , onde  é o desvio padrão da variável x, x é a média da variável x, e E é o valor esperado ou esperança da variável.
  • 28. Fundamentos Matemáticos para Inteligência Artificial 28 3 2 1,2 0 -0,6 -1.2 Figura I.11: Exemplo de diferentes curvas com o valor de curtose na legenda. 5.5 MEDIDAS DE ASSOCIAÇÃO Para duas variáveis (aleatórias) distintas é possível determinar se há alguma dependência en- tre elas usando alguma medida de associação. Por exemplo, se duas variáveis desviam de su- as respectivas médias de maneira similar, é possível dizer que elas são covariantes, ou seja, há uma correlação estatística entre suas ‘flutuações’. Assuma uma base de dados com N pares (xi,yi), i = 1, 2, … , N. A covariância, cov(x,y), entre duas variáveis aleatórias x e y é dada por:   N i ii yyxx N yx 1 ))(( 1 ),cov( . Note que a variância e o desvio padrão operam em uma única dimensão, ou seja, em uma única variável da base independentemente das outras. A covariância, por outro lado, é sempre medida entre duas variáveis. Se a covariância for calculada entre uma dimensão e ela mesma o resultado e a variância. Uma forma intuitiva de generalizar os conceitos de variância e covariância para espaços de múltipla dimensão é usando a matriz de covariância, também conhecida como matriz de va- riância-covariância, normalmente representada por . A matriz de covariância é aquela cujo elemento ij corresponde à covariância entre os elementos i e j da base de dados:
  • 29. Fundamentos Matemáticos para Inteligência Artificial 29 ij = cov(xi,xj), i,j. Note que as variâncias aparecem na diagonal principal da matriz, que é quadrada e simétrica, e as covariâncias aparecem fora da diagonal. Como o valor da covariância depende da escala usada para medir x e y, é difícil usá-la co- mo um padrão para comparar o grau estatístico de associação de diferentes pares de variáveis. Para resolver este problema, um fator de escala pode ser aplicado dividindo cada desvio indi- vidual pelo desvio padrão da respectiva variável, resultando no coeficiente de correlação, co- nhecido como coeficiente de correlação de Pearson: )().( ),cov( ),( yx yx yx    . O coeficiente de correlação, (x,y), mede a dependência linear entre as variáveis. Em outras palavras, ele determina se há uma relação (linear) entre as variáveis. Quando aplicada a uma amostra ela é normalmente representada pela letra r e é conhecida como coeficiente de corre- lação amostral de Pearson:        N j j N j j N i ii yyxx yyxx r 1 2 1 2 1 )(.)( ))(( . Note que o coeficiente de correlação entre as variáveis x e y pode assumir valores no interva- lo [1, 1], onde 1 é uma correlação totalmente positiva, 0 significa ausência de correlação e 1 é uma correlação totalmente negativa. Um valor 1 significa que uma equação linear des- creve perfeitamente a relação entre as variáveis, sendo que as duas crescem ou decrescem juntas. Um valor 1 indica o oposto, ou seja, quando uma variável cresce a outra decresce. 5.6 ENTROPIA DA INFORMAÇÃO Em teoria da informação, a entropia de Shanon ou entropia da informação, é uma medida da incerteza associada a uma variável aleatória. Ela quantifica a informação contida em uma mensagem, geralmente em bits ou bits/símbolo, e corresponde ao comprimento mínimo da mensagem para comunicar informação. A entropia também pode ser vista como o conteúdo da informação. No caso de uma fonte de dados, ela corresponde ao número médio de bits por símbolo necessários para codificá-la e depende, essencialmente, de um modelo probabilístico. Por exemplo: o Uma moeda possui uma entropia de um bit. Se a moeda estiver viciada, então a incer- teza é menor e, portanto, a entropia é menor. Nota: a probabilidade de ocorrência de cada face da moeda quando lançada é a mesma (50%). o Uma longa sentença de caracteres repetidos possui uma entropia nula, pois todo carac- tere é previsível. Nota: a probabilidade de ocorrência de cada caractere é máxima.
  • 30. Fundamentos Matemáticos para Inteligência Artificial 30 A entropia da informação de uma variável aleatória X, que pode assumir os valores {x1, x2, ... , xn} é:   n i ibin xpxpxxxIXI 1 21 )(log)(),...,,()( , onde I(X) é o conteúdo da informação ou auto-informação de X, que é uma variável aleatória; p(xi) = Pr(X = xi) é a probabilidade de xi; e b é a base do logaritmo. Nota: 0log0 é assumido 0. As principais propriedades da entropia são: o Continuidade: a entropia é contínua, ou seja, pequenas mudanças nos valores das probabilidades resultam em pequenas mudanças nos valores da entropia. o Simetria: a medida não muda se os resultados dos experimentos (xi) forem reordena- dos. o Máximo: a medida é máxima se todos os resultados forem igualmente prováveis. o Aditividade: a entropia independe do processo estar dividido em partes ou não. Valores possíveis de b são 2, e e 10. A unidade de medida da entropia é o bit para b = 2, nat para b = e, e dit para b = 10. Para entender o significado da equação da entropia, considere primeiramente o conjunto dos n eventos possíveis de mesma probabilidade p(xi) = 1/n. A incerteza u deste conjunto de n resultados é definida por: U = logb(n). O logaritmo é usado para fornecer a característica de aditividade para as incertezas indepen- dentes. Por exemplo, considere o resultado de um experimento com n possíveis valores se- guido do resultado de outro experimento com m possíveis valores. A incerteza do conjunto de nm resultados é: u = logb(nm) = logb(n) + logb(m). Assim, a incerteza associada aos dois experimentos é obtida somando-se a incerteza de cada um dos experimentos isoladamente. Como a probabilidade de cada evento isoladamente é 1/n, é possível escrever u = logb(1/p(xi)) = logbp(xi), i. Quanto menor a probabilidade, maior a entropia: p(xi)  0, implica em ui  . 5.7 A CURVA NORMAL Em estatística, a curva normal é uma distribuição comum na qual é possível determinar a probabilidade associada a todos os pontos da linha de base da distribuição. Ela pode ser vista como uma distribuição de frequências, onde a frequência total sob a curva é 100%. Essa cur-
  • 31. Fundamentos Matemáticos para Inteligência Artificial 31 va apresenta uma área central que circunda a média ū onde se localizam os escores mais fre- quentes e há, ainda, áreas progressivamente menores nas extremidades ou caudas (). ū 223 3 68,26% 95,44% 99,74% Figura I.12: Curva normal com as porcentagens da área total compreendidas entre , 2 e 3. Para calcular a porcentagem exata entre a média e diversas distâncias-sigma da curva normal é empregada uma tabela. O cálculo da distância sigma a partir da média ū produz um valor chamado escore z ou escore padronizado, que indica, em unidades de desvio padrão, o senti- do e o grau com que um dado escore bruto se afasta da média da sua distribuição de frequên- cias: z = (u ū)/, onde  é o desvio padrão da distribuição. Por exemplo, um escore z de 1,4 significa que o escore bruto está a 1,4 (1,4 desvio padrão) à direita da média. O escore z também pode ser usado para a comparação de valores de diferen- tes conjuntos de dados. 5.8 INTERVALO DE CONFIANÇA Um intervalo de confiança está associado ao nível de confiança correspondente a uma medi- da de certeza de que o intervalo contém um parâmetro da população. O nível de confiança é a probabilidade (1  ), normalmente expressa como um valor percentual, de que o intervalo de confiança contém o valor verdadeiro daquele parâmetro. Escolhas comuns para o nível de confiança são 90%, 95% e 99%, pois eles fornecem um bom equilíbrio entre precisão e con- fiança. Para amostras com mais de 30 objetos (grandes amostras) e assumindo uma distribuição normal, o intervalo de confiança da média, , da população é dado por: N zx N zx   μ ,
  • 32. Fundamentos Matemáticos para Inteligência Artificial 32 onde x é a média da amostra e N zE   é a margem de erro (a máxima diferença provável entre a média amostral e a média populacional). O parâmetro z é chamado de valor crítico e assume alguns valores padronizados com base no nível de confiança desejado: 90%  z = 1.645; 95%  z = 1.96; e 99%  z = 2.575. O parâmetro  é o desvio padrão da população e pode ser substituído pelo desvio padrão amos- tral quando seu valor populacional não é conhecido. É possível determinar o menor tamanho da amostra para estimar certo parâmetro, como a média da população, a partir da equação da margem de erro: 2      E z N  . 6 BIBLIOGRAFIA Anton, H. A. (2000), Elementary Linear Algebra, Wiley. Bazaraa, M. S., Sherali, H. D. and Shetty, C. M. (1993), Nonlinear Programming: Theory and Algorithms, John Wiley and Sons, Inc., New York, 2nd Ed. Bondy, J. A. and Murty, U. S. R. (1976), Graph Theory with Applications, Elsevier North- Holland. Chen C.-T. (1984), Linear Systems: Theory and Design, New York: Holt, Rinehart and Winston. de Castro, L. N., Fundamentals of Natural Computing: Basic Concepts, Algorithms, and Applications. CRC Press, 2006. Diestel, R. (2000), Graph Theory, 2nd Edition, Springer-Verlag. Garey, M. and Johnson, D. (1979), Computers and Intractability, Freeman. Lay, D. C. (2002), Linear Algebra and Its Applications, Addison Wesley, 3rd Ed.. Levin, J. Estatística Aplicada a Ciências Humanas, Harbra, 1978. Lipschutz, S. and Lipson, M. (1997), Shaum’s Outlines: Discrete Mathematics, McGraw- Hill. Lipschutz, S. and Lipson, M. (2000), Shaum’s Outlines: Linear Algebra, McGraw-Hill. Luenberger, D. G. (1989), Linear and Nonlinear Programming, 2nd Ed, Kluwer Academic Publishers. Michalewicz, Z. and Fogel, D. B. (2000), How to Solve It: Modern Heuristics, Springer- Verlag. Naadimuthu, G. (1997), Schaum's Outline of Operations Research, Schaum, 2nd Ed. Nocedal, J. and Wright, S. J. (1999), Numerical Optimization, Springer-Verlag.
  • 33. Fundamentos Matemáticos para Inteligência Artificial 33 Rardin, R. L. (1998), Optimization in Operations Research, Prentice-Hall. Triola, M. F. Introdução à estatística. 7. ed. LTC Livros Técnicos e Científicos Editora S.A., 1999; Tutte, W. T. (1984), Graph Theory, Encyclopedia of Mathematics and Its Applications, 21, Addison-Wesley Publishing Co., Reading, Mass.