2016: Fundamentos Matemáticos para Inteligência Artificial

Fundamentos Matemáticos para Inteligência Artificial
1
FUNDAMENTOS MATEMÁTICOS PARA IA
Copyright©
2016 by Leandro Nunes de Castro
Este material foi desenvolvido com base na seguinte referência bibliográfica: DE CASTRO,
L. N.; FERRARI, D. G. Introdução à Mineração de Dados: Conceitos Básicos, Algorit-
mos e Aplicações, Ed. Saraiva, 2006, p. 351. O uso deste material para fins acadêmicos é li-
vre e gratuito, desde que sejam mantidas as informações originais de autoria. Material dispo-
nível no Slideshare do autor: http://www.slideshare.net/lndecastro.
Sumário
1 CONCEITOS ELEMENTARES EM ÁLGEBRA LINEAR ...................................................................................3
1.1 CONJUNTOS E OPERAÇÕES COM CONJUNTOS ............................................................................................3
1.1.1 Conjuntos........................................................................................................................................3
1.1.2 Operações com Conjuntos ..............................................................................................................3
1.2 ESCALARES, VETORES E MATRIZES ..........................................................................................................4
1.2.1 Escalar.............................................................................................................................................4
1.2.2 Vetor ...............................................................................................................................................4
1.2.3 Matriz..............................................................................................................................................4
1.2.4 Conceitos Adicionais para Matrizes................................................................................................5
1.3 OPERAÇÕES ELEMENTARES ENTRE VETORES E MATRIZES........................................................................6
1.4 ESPAÇO VETORIAL LINEAR.......................................................................................................................7
1.4.1 Axiomas (Propriedades Vetoriais)...................................................................................................8
1.4.2 Subespaço Vetorial Linear...............................................................................................................8
1.4.3 Combinação Linear e Combinação Convexa ...................................................................................8
1.4.4 Dependência Linear de um Espaço Vetorial....................................................................................9
1.5 PRODUTO INTERNO ...................................................................................................................................9
1.6 PRODUTO EXTERNO ................................................................................................................................10
1.7 NORMA, SEMI-NORMA E QUASE-NORMA ................................................................................................10
1.8 ÂNGULO ENTRE DOIS VETORES ..............................................................................................................11
1.9 ORTOGONALIDADE E ORTONORMALIDADE ENTRE DOIS VETORES ..........................................................11
1.10 ESPAÇOS ORTOGONAIS ......................................................................................................................11
2 CONCEITOS ELEMENTARES EM TEORIA DOS GRAFOS ...........................................................................12
2.1 DEFINIÇÕES.............................................................................................................................................12
2.2 ÁRVORES ................................................................................................................................................13
3 CONCEITOS ELEMENTARES EM REDES NEURAIS ARTIFICIAIS ................................................................14
3.1 BASE BIOLÓGICA DAS RNAS ..................................................................................................................14
3.1.1 O Sistema Nervoso........................................................................................................................14
3.1.2 Base Biológica e Física da Aprendizagem e Memória...................................................................16
4 RESOLUÇÃO DE PROBLEMAS VIA MÉTODOS DE BUSCA........................................................................17
4.1 OTIMIZAÇÃO ...........................................................................................................................................17
4.2 OTIMIZAÇÃO VIA MÉTODOS DE BUSCA...................................................................................................18

2
4.3 DEFINIÇÃO DE UM PROBLEMA DE BUSCA................................................................................................19
5 CONCEITOS ELEMENTARES EM ESTATÍSTICA.........................................................................................20
5.1 POPULAÇÃO, AMOSTRA, VARIÁVEIS.......................................................................................................20
5.2 PROBABILIDADE......................................................................................................................................21
5.2.1 Evento e Espaço Amostral.............................................................................................................21
5.2.2 Probabilidade................................................................................................................................21
5.2.3 Probabilidade Condicional ............................................................................................................22
5.2.4 Teorema de Bayes.........................................................................................................................22
5.2.5 Contagem......................................................................................................................................22
5.3 VARIÁVEIS ALEATÓRIAS.........................................................................................................................23
5.3.1 Variável Aleatória .........................................................................................................................23
5.3.2 Variável Aleatória Discreta ...........................................................................................................23
5.3.3 Distribuições de Probabilidade .....................................................................................................23
5.4 MEDIDAS RESUMO..................................................................................................................................25
5.4.1 Medidas de Tendências Central....................................................................................................25
5.4.2 Medidas de Dispersão...................................................................................................................26
5.4.3 Medidas de Forma ........................................................................................................................26
5.5 MEDIDAS DE ASSOCIAÇÃO......................................................................................................................28
5.6 ENTROPIA DA INFORMAÇÃO....................................................................................................................29
5.7 A CURVA NORMAL .................................................................................................................................30
5.8 INTERVALO DE CONFIANÇA ....................................................................................................................31
6 BIBLIOGRAFIA.......................................................................................................................................32

3
“O instinto do empreendedor é explorar o mundo natural. O ins-
tinto do engenheiro é mudá-lo. O instinto do cientista é tentar
compreendê-lo - entender o que realmente está acontecendo. O
instinto do matemático é estruturar esse processo de entendi-
mento buscando generalidades que vão além de subdivisões ób-
vias. Há um pouco de cada um desses instintos em todos nós.”
I. Stewart (1995), Nature's Numbers - The Unreal Reality of
Mathematics, Basic Books, p. 13.
1 CONCEITOS ELEMENTARES EM ÁLGEBRA LINEAR
A álgebra linear é o ramo da matemática preocupada com o estudo de vetores, matrizes, es-
paços vetoriais, transformações lineares e sistemas de equações lineares. Todos esses concei-
tos são centrais para um bom entendimento da mineração de dados e serão brevemente revi-
sados nesta seção.
1.1 CONJUNTOS E OPERAÇÕES COM CONJUNTOS
1.1.1 Conjuntos
Um conjunto pode ser definido como uma agregação ou coleção de objetos, chamados de
elementos ou membros do conjunto. Os conjuntos são denotados aqui por letras maiúsculas
em itálico do alfabeto Romano. Alguns conjuntos particulares serão denotados por símbolos
específicos:
o : conjunto dos numerous naturais.
o : conjunto dos numerous reais.
o c: conjunto dos numerous complexos.
O estado lógico ou associação de um elemento x a um conjunto X é representado por:
x  X: x pertence à X.
x  X: x não pertence à X.
Um conjunto pode ser especificado listando seus elementos:
X = {x1, x2,..., xn},
ou descrevendo as propriedades que caracterizam seus elementos:
X2 = {x  X1 tal que P(x) é verdadeiro} ou X2 = {x  X1: P(x)}
1.1.2 Operações com Conjuntos
As principais operações com conjuntos são:
o União: X1  X2 = {x : x  X1 ou x  X2}
o Interseção: X1  X2 = {x : x  X1 e x  X2}
X1  X2 =  (conjunto vazio) se X1 e X2 são conjuntos disjuntos.

4
O complemento de um conjunto X é representado por X e é definido como
 X X x x: .
S é um subconjunto de X se cada elemento em S é também um elemento de X. Neste caso,
diz-se que S está contido em X (S  X) ou que X contém S (X  S).
1.2 ESCALARES, VETORES E MATRIZES
1.2.1 Escalar
Uma variável que assume valores no eixo dos números reais é denominada escalar. Os esca-
lares são descritos por letras minúsculas do alfabeto romano expressas em itálico, ou do alfa-
beto grego. O conjunto de todos os escalares reais é representado por  ou 1
. O módulo de
um escalar real x é dado na forma:






0se
0se
xx
xx
x .
1.2.2 Vetor
Um arranjo ordenado de n escalares xi   (i = 1,2,...,n) é denominado vetor de dimensão n.
Os vetores são descritos por letras minúsculas do alfabeto romano expressas em negrito e as-
sumem a forma de vetores-coluna ou vetores-linha. Os vetores geralmente são representados
por vetores-coluna, na forma:













nx
x
x

2
1
x
ou  T
nxxx 21x .
O conjunto de todos os vetores de dimensão n com elementos reais é representado por n
.
Diz-se então que x  n
. Um escalar é um vetor de dimensão 1.
Alguns vetores de particular interesse são:
o Vetor 0n: é o vetor nulo de dimensão n, com todos os elementos iguais a zero. O subs-
crito n é suprimido quando não há margem à dúvida.
o Vetor 1n: é o vetor de dimensão n com todos os elementos iguais a 1.
o Vetor ei: é o vetor normal unitário de dimensão n (a dimensão deve ser indicada pelo
contexto) com todos os elementos iguais a 0, exceto o i-ésimo elemento que é igual a
1. Neste caso, 1  i  n.
1.2.3 Matriz
Um arranjo ordenado de m.n escalares xij (i=1,2,...,m; j=1,2,...,n) é denominado matriz de di-
mensão mn. As matrizes são descritas por letras maiúsculas do alfabeto romano expressas
em itálico (ou apenas em negrito), e assumem a forma:

5













mnmm
n
n
xxx
xxx
xxx




21
22221
11211
X .
O conjunto de todas as matrizes mn com elementos reais é representado por m
 n
ou
mn
. Diz-se então que X  mn
. As colunas da matriz X são vetores-coluna descritos por:













mi
i
i
i
x
x
x

2
1
x
, i=1,...,n.
As linhas da matriz X são vetores-linha descritos por:
 jnjjj xxx 21)( x , j=1,...,m.
Um vetor é uma matriz com número unitário de linhas ou colunas.
1.2.4 Conceitos Adicionais para Matrizes
A transposta de uma matriz A, escrita AT
, é a matriz obtida escrevendo as colunas de A, em
ordem, como linhas. Ou seja, se A = [aij] é uma matriz mn, então AT
= [bij] é a matriz nm
onde bij = aji. O transposto de um vetor linha é um vetor coluna, e vice-versa.
Dada uma matriz A de dimensão nn, o cofator do elemento aij (i,j=1,2,...,n) é dado na
forma:
  ij
ji
ij mc 
 1 ,
onde mij é o determinante da matriz formada eliminando-se a i-ésima linha e a j-ésima coluna
da matriz A.
Dada uma matriz A de dimensão nn, o determinante de A é dado na forma:
 










ica
jca
n
j ijij
n
i ijij
qualquerpara,
ou
qualquerpara,
det
1
1
AA ,
onde cij é o cofator do elemento aij.
Com isso, se B é uma matriz obtida a partir de A pela troca de duas de suas colunas, então
det(B) = det(A).
Dada uma matriz A de dimensão nn, a adjunta de A, representada por adj(A), é dada na
forma:
adj(A) = {
ija },

6
onde
ija = cji, o cofator do elemento aji.
São válidas as seguintes igualdades:
   
   
 
 A
A
A
AAA
AAA
det
adj
.det=.adj
.det=.adj 1



 
I
I
.
A inversa de uma matriz A  nn
é uma matriz M  nn
tal que
AM = MA = I.
A notação adotada para a matriz M é: M = A1
.
Para que uma matriz seja inversível, ela tem que ser quadrada e não singular. Vale a se-
guinte propriedade: (A1
)T
= (AT
)1
.
Um operador linear é uma transformação que pode ser descrita por formas matriciais, de
modo que D  X. Um operador linear, que mapeia vetores do n
no m
, pode ser descrito por
uma matriz A  mn
, tal que
y = Ax, x  n
e y  m
.
Seja A uma matriz de dimensão n  n. Um scalar   C (conjunto dos números complexos) é
um autovalor de A se existe um vetor não nulo x  Cn
, chamado de autovetor associado, tal
que
Ax = x
o Ax = x pode ser reescrito como (I  A)x = 0.
o x  Cn
, x  0 tal que (I  A)x = 0 se e somento se det(I  A) = 0.
o    

  det I A é o polinômio característico de A.
o Como o grau de () é n, a matriz A possui n autovalores.
1.3 OPERAÇÕES ELEMENTARES ENTRE VETORES E MATRIZES
Dados dois vetores x, y  m
, x = [x1, x2,..., xm]T
e y = [y1, y2,..., ym]T
, a adição e subtração
(Figura I.1) deles é feita como a seguir:
o Adição Vetorial: x + y = [x1+y1, x2+y2,..., xm+ym]T
.
o Subtração Vetorial: x  y = [x1y1, x2y2,..., xmym]T
.

7
x
y
x + y
x
y
x  y
(a) (b)
Figura I.1: Adição vetorial (a) e subtração vetorial (b).
A multiplicação de um vetor x  m
por um escalar a   é feita da seguinte forma:
o Multiplicação por um escalar: a.x = [a.x1, a.x2,..., a.xm]T
.
Uma matriz A  mn
pode ser multiplicada por outra matriz B  rl
se, e somente se,
n = r; e o resultado é uma matriz C  ml
. Dadas:













mnmm
n
n
aaa
aaa
aaa




21
22221
11211
A ,













rlrr
l
l
bbb
bbb
bbb




21
22221
11211
B .
Cada elemento cij da matriz C  ml
, C = A.B, é obtido como a seguir:
.,...,1;,...,1,
1
ljmibac
n
k
kjikij  
A multiplicação de uma matriz A  mn
por um escalar b   é feita simplesmente multi-
plicando cada elemento da matriz A pelo escalar, de maneira similar à multiplicação de um
vetor por um escalar. Da mesma forma, a soma ou subtração de duas matrizes pressupõe que
elas sejam de mesma dimensão e é feita somando-se ou subtraindo-se elemento a elemento
das matrizes.
1.4 ESPAÇO VETORIAL LINEAR
Um campo é uma estrutura algébrica na qual as operações de adição, subtração, multiplicação
e divisão (exceto divisão por zero) podem ser feitas e onde também valem as regras da asso-
ciatividade, comutatividade e distributividade. Os campos são objetos importantes de estudo,
pois eles fornecem uma generalização apropriada dos domínios dos números, como os con-
juntos dos números racionais, conjunto dos números reais e conjunto dos números comple-
xos.
O espaço vetorial é a estrutura básica da álgebra linear. A definição de um espaço vetorial
V, cujos elementos são denominados vetores, envolve um campo arbitrário F, cujos elemen-
tos são denominados escalares. Ao considerarmos vetores, suas operações (p. ex., adição e

8
multiplicação por escalar) e algumas de suas propriedades, chegamos a uma descrição de uma
estrutura matemática denominada espaço vetorial.
Um espaço vetorial X, associado a um campo F, consiste em um conjunto de elementos
(vetores) sobre os quais estão definidas duas operações:
1. Adição (X  X  X): (x + y)  X,  x, y  X;
2. Multiplicação por escalar (F  X  X): (x)  X,  x  X e   F.
1.4.1 Axiomas (Propriedades Vetoriais)
(1) x + y = y + x (comutatividade)
(2) (x + y) + z = x + (y + z) (associatividade)
(3) (x + y) = x + y (distributividade)
(4) x + 0 = x (vetor nulo)
(5) ()x = (x) (associatividade)
(6) ( + )x = x + x (distributividade)
(7) 1x = x (elemento neutro)
1.4.2 Subespaço Vetorial Linear
Um subespaço vetorial é um espaço vetorial “menor” dentro de um espaço vetorial “maior”.
Por exemplo, uma reta w que passa pela origem do espaço vetorial V = 2
é um subespaço de
V. Um subconjunto não vazio S de um espaço vetorial linear X é um subespaço de X se
.x + .y  S sempre que x e y  S.
Dito de outra forma, seja (X,F) um espaço vetorial linear e S um subconjunto de X. Diz-se
então que (S,F) é um subespaço vetorial de (X,F) se S forma um espaço vetorial sobre F atra-
vés das mesmas operações definidas sobre (X,F). Exemplos:
1. S  {0}
2. S  n
é subespaço de X  n
Se M e N são subespaços de X, então M  N   também é um subespaço de X. Todo espaço
é um subespaço de si mesmo.
1.4.3 Combinação Linear e Combinação Convexa
Seja S = {x1, x2, ..., xn} um conjunto de vetores de um espaço vetorial linear (X,). O vetor
v  V é dito uma combinação linear de x1, x2, ..., xn se
v = a1x1 + a2x2 + ... + anxn,
onde a1, a2, ..., an  .

9
A combinação linear de vetores permite a obtenção de novos vetores a partir de vetores
dados. Se os escalares a1, a2, ..., an   são tais que ai  0 (i=1,2,...,n) e i ai = 1, então a
combinação linear é chamada combinação convexa dos elementos x1, x2, ..., xn  X.
Nota: Genericamente, expressar um vetor v  Fn
como uma combinação linear dos vetores
u1, u2,..., um, ui  Fn
, i = 1,...,m, é equivalente a resolver um sistema de equações lineares
Ax = b, onde v é o vetor coluna b de constantes, e ui, i = 1,...,m, são os vetores-coluna da ma-
triz de coeficientes A.
1.4.4 Dependência Linear de um Espaço Vetorial
Considere {x1, x2, ..., xn} um conjunto de vetores pertencentes a X. O conjunto S  [x1, x2, ...,
xn], chamado subespaço gerado pelos vetores {x1, x2, ..., xn}, consiste de todos os vetores em
X escritos como combinação linear de vetores em {x1, x2, ..., xn}. Neste caso, S é um subes-
paço vetorial de X.
Um conjunto de vetores {x1, x2, ..., xn} é dito linearmente independente se e somente se
i ai xi = 0 implica ai = 0, i=1,...,n. Caso contrário eles são ditos linearmente dependentes.
Um conjunto de vetores linearmente independentes {x1, x2, ..., xn} forma uma base para X
se X  [x1, x2, ..., xn]. Neste caso, diz-se que X tem dimensão n. Se n é finito, então X é um
espaço vetorial de dimensão finita.
O posto de uma matriz A  mn
é dado pelo número de colunas (ou linhas) linearmente
independentes, de modo que posto(A)  min(m,n). Se posto(A) = min(m,n), então diz-se que a
matriz tem posto completo.
1.5 PRODUTO INTERNO
Considere x,y  X e   . O produto interno x,y é um número real que satisfaz:
(1) x,y = y,x
(2) x+y,z = x,z + y,z
(3) x,y = x,y
(4) x,x  0  x  X, e x,x = 0  x = 0
Para X  n
e x,y  X, tem-se que x = [x1, x2, ..., xn]T
e y = [y1, y2, ..., yn]T
, e o produto interno
assume a forma:
yxyx T
n
i
ii yx  
1
, .

10
1.6 PRODUTO EXTERNO
O produto externo entre dois vetores x  n
e y  m
é uma matriz de dimensão n  m de
posto unitário. Sendo x = [x1, x2, ..., xn]T
e y = [y1, y2, ..., ym]T
, o produto externo assume a
forma:













mnn
m
T
yxyx
yxyx
yxyxyx




1
2212
12111
xy
.
Em contraste com o caso do produto interno, os vetores x e y podem ter dimensões distintas.
Mesmo quando as dimensões são as mesmas, ou seja, n = m, a matriz quadrada resultante po-
de não ser simétrica.
1.7 NORMA, SEMI-NORMA E QUASE-NORMA
As definições até agora apresentadas permitem relacionar propriedades algébricas. Introdu-
zindo-se a noção de norma (medida de distância), é possível tratar propriedades topológicas,
como continuidade e convergência.
Norma é uma função |||| que associa a cada elemento x  X um número real ||x||, obede-
cendo aos seguintes axiomas:
(1) 0xxxx  0;,0 X ;
(2) X yxyxyx ,, (desigualdade triangular);
(3)   ,, Xxxx .
Toda vez que se associa uma norma a um espaço vetorial (sendo que a este espaço já está as-
sociado um campo), diz-se que se tem um espaço vetorial normado.
Uma semi-norma satisfaz todas as propriedades de norma, com exceção do primeiro axi-
oma. Para X  n
, o subespaço linear X0  n
, cujos elementos obedecem ||x|| = 0, é denomi-
nado espaço nulo da semi-norma.
Uma quase-norma satisfaz todas as propriedades de norma, com exceção do segundo axi-
oma (desigualdade triangular), o qual assume a forma:
   bXb com,,, yxyxyx .
Exemplos de normas e relações entre normas X  n
(Figura I.2):
o pn
i
p
ip
x
1
1






 

x , p  1 é um número real.
o
212
xxx n

11
o

 xxx n2
o

 xxx n1
.
o 2
1
,xx é a conhecida norma euclidiana, pois 2
12
1
1
2
2
,xxx 





 

n
i
ix .
A relação entre o produto interno e a norma euclidiana (desigualdade de Cauchy-Schwartz-
Buniakowsky) é dada por: |x,y|2
 x,x . y,y → |x,y|  ||x||2.||y||2.
x1
x2
+1
+1
1
1 x1
x2
+1
+1
+1
1
1
p=2p=1
x1
x2
+1
1
1
p=+
Figura I.2: Topologia das normas em duas dimensões (n = 2): p = 1, p = 2 e p = + .
1.8 ÂNGULO ENTRE DOIS VETORES
Para qualquer inteiro n  2, dados dois vetores x,y  X  n
, x,y  0, o coseno do ângulo 
formado pelos vetores x e y é dado na forma:
 
22
cos
yx
yx


T
.
1.9 ORTOGONALIDADE E ORTONORMALIDADE ENTRE DOIS VETORES
Se cos() = 0, isto implica que x,y = xT
y = 0. Então se diz que x e y são ortogonais entre si,
condição representada na forma: x  y. Além disso, se x,x = y,y = 1, então os vetores x, y
 X  n
são ortonormais entre si.
1.10 ESPAÇOS ORTOGONAIS
Um vetor x é ortogonal a um espaço vetorial Y se for ortogonal a todos os vetores pertencen-
tes a Y, condição representada na forma: x  Y. Os espaços vetoriais X e Y são ortogonais en-
tre si se cada vetor pertence a X for ortogonal a todos os vetores pertencentes a Y, condição
representada na forma: X  Y.

12
2 CONCEITOS ELEMENTARES EM TEORIA DOS GRAFOS
A teoria dos grafos estuda os grafos, estruturas matemáticas usadas na modelagem de rela-
ções entre pares de objetos. Ela constitui uma ferramenta poderosa em matemática e teoria da
computação e também apresenta diversas aplicações práticas em áreas como processamento
de imagens, otimização combinatória e análise de dados.
Considere o mapa apresentado na Figura I.3 ilustrando diversas cidades brasileiras e suas
possíveis conexões em linha reta. Cada cidade nesta figura corresponde a um vértice, ponto
ou nó, e cada ligação conectando os nós é denominada de arco. Este tipo de objeto ou repre-
sentação gráfica é denominado de grafo e representa um conjunto de nós possivelmente liga-
dos por arcos.
Figura I.3: Mapa do Brasil com algumas cidades representadas como nós em um grafo e ligadas entre
si por arcos.
Um grafo G pode, portanto, ser definido como sendo um conjunto V de vértices (nós) e um
conjunto E de arcos ligando pares de vértices de V: G = V,E. Dito de outra forma, um grafo
é uma 2-tupla dada por G = V,E. Portanto, V = {v0,v1,…,vN} é o conjunto de nós de G, e
E = {(vi,vj) : i  j} é o conjunto de arcos de G.
2.1 DEFINIÇÕES
Uma série de conceitos em teoria dos grafos é particularmente relevante em análise de dados,
a saber:
 Caminho: um caminho em um grafo G corresponde a uma sequência alternada de
vértices e arcos. Quando não há ambiguidade, um caminho pode ser denotado pela
sua sequência de vértices (v0,v1,…,vN).
 Caminho fechado: o caminho é dito fechado se v0 = vN.
 Grafo conexo: um grafo é dito conexo quando há pelo menos um arco ligando cada
um de seus nós, ou seja, quando há um caminho entre quaisquer dois vértices.

13
 Grafo direcionado: um grafo é dito direcionado quando há um sentido pré-definido
de percurso no grafo, ou seja, quando os arcos possuem um sentido específico.
 Grafo ponderado e peso (ou comprimento) do arco: um grafo é dito ponderado se
para cada arco e  E um número não negativo denominado de peso ou comprimento
de e, w(e)  0, é especificado.
 Comprimento do caminho: para um grafo não ponderado, o comprimento de um
caminho é dado pelo número de arcos no caminho. Para grafos ponderados, o com-
primento ou peso de um caminho é determinado pela soma dos pesos dos arcos do
caminho.
 Nós adjacentes: dois nós vi e vj são ditos adjacentes se há um arco e  G conectando-
os, ou seja, e = {vi,vj}.
 Ciclo: um ciclo é um caminho fechado de comprimento 3 ou mais no qual todos os
vértices são distintos, exceto v0 e vN.
 Grau do nó: o grau de um nó é o número de arcos incidentes no nó.
EXEMPLO:
A Figura I.4 ilustra alguns conceitos em teoria dos grafos discutidos anteriormente. Para o
grafo G1, os conjuntos V1 e E1 são, respectivamente, V1 = {A,B,C,D,E} e
E1 = {(A,B),(A,C),(C,E),(E,D)}, e para o grafo G2 os conjuntos V2 e E2 são, respectivamente,
V2 = {A,B,C} e E2 = {(A,B),(B,C)}.
Os grafos G1 e G2 são, respectivamente, não ponderados e não direcionados, enquanto o
grafo G3 é direcionado e não ponderado, e G4 é direcionado e ponderado. Somente o grafo G3
é não conexo. O peso (comprimento) do caminho (D,E,B,F,C) de G4 é 10.
Se um grafo G é ponderado, ele pode ser representado por G = V,E,w, onde w(e) é o peso
do arco e, também representado por w(i,j): o peso do arco (i,j) que conecta os nós i e j. Para o
grafo G4 da Figura I.4, w(D,E) = 5, w(E,B) = 2, etc.
A B A A C A C
C G1 B G2 B F G3 B F G4
E D C E D E D
3
2
1
2
5
4
1
Figura I.4: Exemplos de grafos. G1: conexo, não direcionado e não ponderado. G2: conexo, não direcionado e
ponderado. G3: não conexo, direcionado e não ponderado. G4: conexo, direcionado e ponderado.
2.2 ÁRVORES
Uma árvore é um caso particular de um grafo no qual quaisquer dois nós estão conectados
por exatamente um caminho, ou seja, não existem ciclos em uma árvore. Um nó de grau 1 é
conhecido como folha e qualquer nó interno da árvore possui grau ao menos 2.

14
Em teoria dos grafos as árvores são grafos não direcionados, mas em computação há mui-
tas estruturas de dados denominadas árvores que são grafos direcionados. Essas estruturas são
conhecidas como árvores enraizadas (do inglês rooted trees), pois possuem um nó raiz a par-
tir do qual (ou para o qual) os arcos se orientam.
Nos exemplos da Figura I.4, os grafos G1 e G2 são árvores, mas G3 e G4 não são, pois são
direcionados. No grafo G2, por exemplo, se assumirmos que o nó B é o nó raiz, pode-se dizer
que a árvore é enraizada e, portanto, os nós A e C são nós folhas.
3 CONCEITOS ELEMENTARES EM REDES NEURAIS AR-
TIFICIAIS
As redes neurais artificiais (RNAs) constituem uma das mais modernas e poderosas ferra-
mentas de processamento de informação da atualidade. Inspiradas na operação do sistema
nervoso humano, elas fazem uso de um processamento massivamente paralelo e distribuído
de informação que lhes conferem grandes capacidades de realizar mapeamentos não lineares
de elevada complexidade, dentre muitas outras coisas. Essa seção faz uma breve revisão so-
bre os conceitos elementares da área e é útil para um melhor entendimento dos capítulos que
falam sobre predição, agrupamento e detecção de anomalias.
3.1 BASE BIOLÓGICA DAS RNAS
O cérebro é especialista em desempenhar funções como reconhecimento de padrões, controle
motor, percepção, inferência, intuição, adivinhações, etc. Os neurônios são considerados as
unidades básicas de processamento do cérebro e, de modo análogo, modelos simplificados
dos neurônios biológicos constituem as unidades básicas de processamento das RNAs.
Os neurônios biológicos estão conectados uns aos outros por meio de conexões sinápticas.
Acredita-se que a capacidade das sinapses serem moduladas é a principal base para todos os
processos cognitivos, como percepção, raciocínio e memória. Sendo assim, algumas informa-
ções essenciais sobre neurônios, sinapses e organização estrutural são importantes para o pro-
jeto de RNAs.
3.1.1 O Sistema Nervoso
Todos os organismos multicelulares possuem algum tipo de sistema nervoso, cuja complexi-
dade e organização variam de acordo com o tipo de animal. Mesmo os vermes, lesmas e inse-
tos são capazes de adaptar seu comportamento e armazenar informações em seus sistemas
nervosos.
O sistema nervoso é responsável por dotar o organismo, por meio de entradas sensoriais,
de informações sobre o estado do ambiente no qual ele vive e se move. A informação de en-
trada é processada, comparada com as experiências passadas, e transformada em ações apro-
priadas ou absorvidas sob a forma de conhecimento. Sua organização pode se dar em diferen-
tes níveis: moléculas, sinapses, neurônios, camadas, mapas e sistemas, como ilustra a Figura
I.5.

15
h
Brain
Network of
neurons
Neuron
Synapse
Figura I.5: Níveis organizacionais do sistema nervoso.
O processo de transmissão de sinais entre neurônios é central para a capacidade de processa-
mento de informação do cérebro. Uma das descobertas mais empolgantes em neurociências
foi a de que a efetividade da transmissão de sinais pode ser modulada, permitindo ao cérebro
se adaptar a diferentes situações. Essa plasticidade sináptica, ou seja, capacidade das sinap-
ses sofrerem modificações, é o ingrediente chave para o aprendizado da maioria das RNAs.
Os neurônios podem receber e enviar sinais a vários outros neurônios. Aqueles que envi-
am sinais, chamados de neurônios pré-sinápticos ou “enviadores”, fazem contato com os
neurônios receptores ou pós-sinápticos em regiões especializadas denominadas de sinapses.
A sinapse é, portanto, a junção entre o axônio de um neurônio pré-sináptico e o dendrito ou
corpo celular de um neurônio pós-sináptico (ver Figura I.6).
Figura I.6: Representação pictórica do neurônio biológico.
A capacidade de processamento de informação das sinapses permite que elas alterem o estado
de um neurônio pós-sináptico, eventualmente gerando um pulso elétrico, denominado poten-
cial de ação, no neurônio pós-sináptico. A ativação de um neurônio ocorre apenas quando

16
seu potencial de membrana é maior do que um dado limiar. Portanto, um neurônio pode ser
visto como um dispositivo capaz de receber estímulos (de entrada) de diversos outros neurô-
nios e propagar sua única saída, função dos estímulos recebidos e do estado interno, a vários
outros neurônios.
Os neurônios podem ter conexões de sentido positivo (do inglês feedforward) e/ou de sen-
tido negativo (do inglês feedback) com outros neurônios, ou seja, as conexões podem ter um
único sentido ou serem recíprocas. Diversos neurônios interconectados geram uma estrutura
em rede conhecida como rede neural. Um agrupamento de neurônios interconectados pode
exibir comportamentos complexos e uma capacidade de processamento de informação que
não pode ser predita tomando-se cada neurônio individualmente.
Uma característica marcante das redes neurais é a representação distribuída de informa-
ção e seu processamento paralelo. Muitas áreas do cérebro apresentam uma organização la-
minar de neurônios, ou seja, camadas de neurônios em contato com outras camadas. Um dos
arranjos mais comuns de neurônios é uma estrutura bidimensional em camadas organizada
por meio de um arranjo topográfico das respostas de saída. O exemplo mais conhecido deste
tipo de estrutura é o córtex humano, que corresponde à superfície externa do cérebro; uma
estrutura bidimensional com vários dobramentos, fissuras e elevações.
Em geral os neurônios do córtex estão organizados em camadas distintas, que são subdivi-
didas em camada de entrada, camadas intermediárias ou escondidas e camada de saída. A
camada de entrada recebe os sinais sensoriais ou de entrada, a camada de saída envia sinais
para outras partes do cérebro e as camadas intermediárias recebem (enviam) sinais de (para)
outras camadas do córtex. Isso significa que as camadas intermediárias nem recebem entradas
diretamente e nem produzem uma saída do tipo motora, por exemplo.
3.1.2 Base Biológica e Física da Aprendizagem e Memória
O sistema nervoso está continuamente sofrendo modificações e atualizações. Virtualmente
todas as suas funções, incluindo percepção, controle motor, regulação térmica e raciocínio,
são modificadas por estímulos.
Observações comportamentais permitiram verificar graus de plasticidade do sistema ner-
voso: existem mudanças rápidas e fáceis, mudanças lentas e profundas, e mudanças mais
permanentes (porém ainda modificáveis).
Em geral, a aprendizagem global é resultado de alterações locais nos neurônios, por exem-
plo, dendritos podem nascer, assim como também podem ser removidos, alguns dendritos
podem se esticar ou serem encolhidos permitindo ou eliminando, respectivamente, a conexão
com outras células, novas sinapses podem ser criadas ou sofrerem alterações, sinapses tam-
bém podem ser removidas, e todo neurônio pode morrer e também se regenerar.
Toda esta vasta gama de adaptação estrutural pode ser convenientemente condensada sim-
plesmente referindo-se às sinapses, pois estas modificações envolvem a modificação sinápti-
ca de forma direta ou indireta. Sendo assim, a aprendizagem via modulação sináptica é o
mecanismo mais importante para as redes neurais, sejam elas biológicas ou artificiais. A mo-

17
dulação sináptica poderá depender de mecanismos de adaptação de neurônios individuais e de
redes neurais como um todo.
4 RESOLUÇÃO DE PROBLEMAS VIA MÉTODOS DE BUS-
CA
Problemas nas mais diversas áreas do conhecimento podem ser entendidos como problemas
de busca ou otimização. Encontrar uma rota de custo mínimo entre um centro de distribuição
e as empresas ou consumidores que receberão um produto, ou encontrar os objetos que, em
conjunto, compõem um determinado grupo de uma base de dados, são apenas dois exemplos
de tarefas que podem ser resolvidas por métodos de busca e otimização. Essa seção inicia
com uma revisão mais clássica da tarefa de otimização e prossegue discutindo os conceitos
básicos da solução de problemas via métodos de busca.
4.1 OTIMIZAÇÃO
Otimização refere-se aos conceitos, métodos e aplicações relacionadas à determinação das
melhores (ótimas) soluções para um dado problema. Ela envolve o estudo de condições de
otimalidade, o desenvolvimento e análise de algoritmos, experimentos computacionais e apli-
cações.
Antes de aplicar um algoritmo de otimização para resolver um dado problema, é necessá-
rio desenvolver uma formulação matemática do problema, que descreve todos os aspectos
relevantes do problema, incluindo um objetivo a ser otimizado e um conjunto de restrições a
serem satisfeitas. Portanto, a formulação matemática de um problema de otimização requer a
definição de uma função objetivo a ser otimizada (maximizada ou minimizada), e um conjun-
to de soluções, denominadas soluções factíveis, que satisfazem as restrições do problema.
Por exemplo, considere um problema de otimização formulado como a seguir:
Minimize f(x)
Sujeito a gi(x)  0, i = 1,…,m
hj(x) = 0, j = 1,…,l
x  X.
onde as funções f, gi, hj   (i = 1,…,m; j = 1,…,l), X  , e x  n
.
Este problema deve ser resolvido para os valores das variáveis x1, x2,…, xn, que satisfazem
as restrições (1) e (2), e que, ao mesmo tempo, minimizam a função f(x).
A função f é geralmente denominada de função objetivo, função custo ou função critério.
Um vetor x   que satisfaz todas as restrições, (1) e (2), é denominado de solução factível
do problema.

18
O conjunto de todas as possíveis soluções para o problema é denominado de espaço de
busca. O espaço de busca pode ser de duas formas principais: contínuo (número infinito de
possíveis soluções) e discreto (número contável de possíveis soluções).
Dependendo das características e da formulação do problema, sua solução pode ser obtida
de forma algébrica fechada. Entretanto, a maioria dos problemas de otimização apresenta ca-
racterísticas (por exemplo, não linearidade e explosão combinatória de possíveis soluções)
que não permitem uma solução analítica fechada, requerendo a aplicação de processos itera-
tivos de busca por uma solução, partindo de uma dada condição inicial. A presença de restri-
ções complica ainda mais o problema, dividindo o espaço de possíveis soluções em soluções
factíveis e soluções infactíveis.
Outro aspecto que deve ser considerado é a característica de convergência do processo ite-
rativo de busca. Três condições são desejáveis: garantia de convergência, velocidade de con-
vergência e convergência para uma solução de boa qualidade, ou seja, uma solução ótima ou
satisfatória.
Resolver o problema de minimização formulado acima corresponde a encontrar uma solu-
ção factível x* tal que f(x*)  f(x), x  n
. O vetor x* é denominado de um ótimo ou um
mínimo do problema. A solução x* que satisfaz esta condição é denominada de ótimo global,
ou mínimo global, pois ela corresponde ao menor valor factível possível da função objetivo.
Diferentemente do ótimo global, um ótimo local é uma solução factível x* em uma dada vi-
zinhança N de um ponto y, se e somente se f(x*)  f(y), y  N(x*), onde N(x) = {y  F
: dist(x,y)  }, dist é uma função que determina a distância entre x e y, e  é uma constante
positiva. Nota: maximizar uma função é equivalente a minimizar o negativo desta função:
(max f(x) = min f(x)). A Figura I.7 ilustra os conceitos de ótimo local e global.
Ótimo global (mínimo)
Ótimos locais (mínimos)
Figura I.7: Conceitos de ótimo (mínimo) local e global.
4.2 OTIMIZAÇÃO VIA MÉTODOS DE BUSCA
Sob uma perspectiva de aprendizagem de máquina, um problema pode ser entendido como
uma coleção de informações a partir das quais algo deverá ser extraído ou inferido. Exem-
plos:

19
1. Função numérica a ser otimizada: f(x) = x3
+ x + 1.
2. Sequenciamento de tarefas: dado um conjunto de máquinas, operadores, jornadas
de trabalho, etc., qual configuração leva a uma melhor distribuição
tarefa/operador?
3. Dado um conjunto de objetos, encontre a melhor forma de separá-los em grupos
tal que a soma das distâncias intragrupos seja sempre menor que a soma das
distâncias intergrupos.
O processo de resolução do problema corresponderá a tomada de ações (passos), ou
sequências de ações (passos), que levam a um desempenho desejado, ou melhoram o
desempenho relativo de soluções candidatas. Este processo de procura por um desempenho
desejado ou um melhor desempenho é denominado de busca.
Um algoritmo de busca terá como entrada um problema e retornará como saída uma
solução. Neste caso, uma ou mais soluções candidatas podem ser utilizadas no processo de
busca. Os métodos que utilizam mais de uma solução candidata no processo de busca são
denominados de métodos populacionais (p.ex., algoritmos evolutivos).
O primeiro passo na resolução de um problema é a formulação do problema, que irá
depender das informações disponíveis. Três conceitos são fundamentais na resolução de
problemas via métodos de busca:
1. Escolha de uma representação: codificação de soluções candidatas, que por sua vez
sofrerão algum tido de manipulação. Sua interpretação implicará no espaço de busca
e sua dimensão. O espaço de busca é definido pela sua configuração (estado) inicial e
pelo conjunto de possíves configurações (estados).
2. Especificação de um objetivo: é a descrição de uma meta. Trata-se de uma expressão
(e não uma função) matemática que descreve o problema.
3. Definição de uma função de avaliação: retorna um valor específico indicando a
qualidade (relativa) de uma solução candidata particular, dada a representação
adotada. Trata-se geralmente de um mapeamento do espaço de soluções candidatas,
dada a representação adotada, para um conjuto de números, onde cada elemento do
espaço de soluções candidatas possui um valor numérico indicativo de sua qualidade.
Geralmente o objetivo sugere uma função de avaliação particular.
4.3 DEFINIÇÃO DE UM PROBLEMA DE BUSCA
Dado um espaço de busca S e uma região F factível deste espaço, F  S, encontre x  F tal
que:
eval(x*)  eval(x), x  F
Trata-se assim, de um problema de minimização, onde valores menores de x são considerados
de qualidade superior.

20
O ponto x* que satisfaz a condição acima é dito ser o ótimo global ou mínimo global do
problema. Ao contrário do ótimo global, uma solução x  F é dita ser um ótimo local em
relação a uma vizinhança N de um ponto y, se e somente se
eval(x)  eval(y),  y  N(x),
onde N(x) = {y  S : dist(x,y)  }, dist é uma função que determina a distância entre x e y, e
 é uma constante positiva.
A função de avaliação define uma superfície de resposta semelhante a uma topografia de
vales e picos. Sendo assim, a determinação de soluções ótimas para um problema
corresponde a uma busca por picos (assumindo maximização) em uma superfície de
resposta.
Essa superfície pode apresentar uma grande quantidade de picos, platôs, vales, etc., o que
dificulta o processo de busca e a determinação de ótimos locais e globais. Métodos de busca
eficientes devem ser capazes de fornecer um equilíbrio entre dois objetivos aparentemente
conflitantes: busca local (do inglês exploitation) e exploração do espaço de busca (do inglês
exploration).
5 CONCEITOS ELEMENTARES EM ESTATÍSTICA
A estatística pode ser entendida como uma coleção de métodos usados para planejar experi-
mentos, coletar, organizar, sumarizar, analisar e interpretar dados de forma a extrair conclu-
sões a partir deles. Esta seção faz uma breve revisão sobre conceitos elementares em estatísti-
ca que serão necessários no livro.
5.1 POPULAÇÃO, AMOSTRA, VARIÁVEIS
Uma população é a coleção completa de elementos a serem estudados, por exemplo, valores,
medidas, cidades, etc. Amostra é um subconjunto dos elementos extraído da população. Um
atributo é uma medida que descreve uma característica de uma população. Cada uma destas
características é denominada de variável e pode ser classificada em quantitativa (numérica)
ou qualitativa (não numérica), como resumido na Figura I.8. Uma variável quantitativa cor-
responde a números que representam contagens ou medições, podendo ser dividida em dis-
creta (com um número finito ou contável de valores possíveis) ou contínua (com um número
infinito de possíveis valores). Uma variável qualitativa pode ser dividida em nominal (consis-
tindo apenas de nomes, rótulos ou categorias) ou ordinal (envolvendo variáveis que podem
ser ordenadas).

21
Variáveis
Qualitativas Quantitativas
Nominal Ordinal Contínua Discreta
Figura I.8: Tipos de variáveis em estatística.
A estatística pode ser dividida em três ramos:
1. Estatística descritiva: que tem por objetivo descrever e sumarizar os dados obtidos
de uma amostra ou experimento;
2. Probabilidade: é a teoria matemática usada para estudar a incerteza de eventos alea-
tórios;
3. Estatística inferencial: ramo da estatística que se ocupa da generalização da infor-
mação e conclusões obtidas.
5.2 PROBABILIDADE
5.2.1 Evento e Espaço Amostral
Seja um evento uma coleção de resultados de um experimento. Um evento simples é aquele
que não permite decomposição. O espaço amostral, , de um experimento corresponde a to-
dos os possíveis eventos.
5.2.2 Probabilidade
A probabilidade é uma função P() que atribui um valor numérico aos eventos em um espaço
amostral satisfazendo as seguintes condições:
(1) 0  P(A)  1,  A  .
(2) P() = 1.
(3) 







 n
j
j
n
j
j APAP
11
)( , onde Aj’s são eventos disjuntos.
A probabilidade de ocorrência de um determinado evento pode ser aproximada, ou estimada,
pela sua frequência relativa:
oexperimentdorepetiçõesdenúmero
eventodosocorrênciadenúmero
)(
A
AP  .
Assuma que um experimento possua n diferentes eventos, cada qual com a mesma chance de
ocorrer. Se o evento A ocorre em s de n formas, então:
n
sA
AP 
diferentessimpleseventosdenúmero
ocorrerpodequeformasdenúmero
)( .

22
O complemento Ā do evento A consiste em todos os resultados nos quais o evento A não
ocorre.
A probabilidade da união dos eventos A e B, P(A  B) é dada pela lei da adição:
P(AB) = P(A) + P(B)  P(AB),
onde P(AB) corresponde à probabilidade de que ambos eventos ocorram simultaneamente
em um dado experimento.
5.2.3 Probabilidade Condicional
Em muitos casos um processo aleatório pode ser dividido em estágios e a informação corres-
pondente ao que aconteceu em certo estágio pode influenciar a probabilidade de ocorrência
de outros estágios.
A probabilidade condicional P(A|B) (leia-se ‘probabilidade de A dado B’) é a probabilida-
de de que um evento A ocorra dado que B já ocorreu:
0)(,
)(
)(
)|( 

 BP
BP
BAP
BAP .
Partindo da definição de probabilidade condicional é possível deduzir a lei da multiplicação
das probabilidades:
P(AB) = P(A | B) P(B), com P(B) > 0.
Dois eventos A e B são ditos independentes se a informação sobre a ocorrência ou não de B
não altera a probabilidade de ocorrência de A e vice-versa, ou seja:
P(A | B) = P(A), P(B) > 0.
Ou equivalentemente
P(AB) = P(A)P(B).
5.2.4 Teorema de Bayes
Uma das relações mais importantes envolvendo probabilidade condicional é dada pelo Teo-
rema de Bayes, que expressa uma probabilidade condicional em termos de outras probabili-
dades condicionais e marginais (ou seja, probabilidade de um evento ocorrer ignorando os
outros).
Assuma que os eventos C1, C2, … , Ck, formam uma partição de  e que suas probabilida-
des são conhecidas. Assuma também que para o evento A as probabilidades P(A|Ci) são co-
nhecidas para i = 1, 2, ... , k. Assim, para qualquer j,
kj
AP
CPCAP
ACP
jj
j ,...,2,1,
)(
)()|(
)|(  .
5.2.5 Contagem
Dados dois eventos, o primeiro ocorrendo de m formas distintas e o segundo ocorrendo de n
formas distintas. Ambos os eventos podem ocorrer de n.m formas distintas. Uma permutação

23
é uma lista ordenada sem repetições, ou seja, uma sequência ordenada na qual não há dois
elementos iguais, retirados de um conjunto fixo de símbolos e de comprimento máximo. As-
sim, uma diferença essencial entre uma permutação e um conjunto é que os elementos da
permutação são organizados em uma ordem pré-definida.
O número de possíveis permutações, também denominadas de arranjos, de k elementos
escolhidos a partir de n elementos, P(n,k), sem repetição é:
)!(
!
),(
kn
n
knP

 ,
onde o símbolo “!” corresponde à função fatorial: n! = n  (n 1)  (n  2)  ...  1, e, por
definição, 0! = 1.
Se há repetições, ou seja, se há n elementos com n1 elementos do mesmo, n2 elementos do
mesmo, etc., então o número de permutações é:
!!...!
!
21 knnn
n
P  .
O número de combinações de k elementos extraídos de um conjunto com n elementos distin-
tos é o coeficiente binomial:
!)!(
!
),(
kkn
n
k
n
knC








5.3 VARIÁVEIS ALEATÓRIAS
5.3.1 Variável Aleatória
Uma variável aleatória X é uma variável que admite um valor numérico para cada resultado
de um experimento. A palavra aleatória indica que, normalmente, só podemos saber seu va-
lor após a execução do experimento. Portanto, para cada valor possível da variável há uma
probabilidade associada.
5.3.2 Variável Aleatória Discreta
Uma variável aleatória discreta admite um número finito ou contável de possíveis valores.
Por outro lado, uma variável aleatória contínua pode assumir uma quantidade infinita de va-
lores, que podem estar associados a uma escala contínua.
5.3.3 Distribuições de Probabilidade
O termo probabilidade se refere à frequência relativa de ocorrência de um dado ou evento
qualquer, ou seja, a probabilidade associada a um evento qualquer é o número de vezes que
tal evento pode ocorrer em relação ao número total de eventos.
A distribuição de probabilidade especifica uma probabilidade para cada valor possível de
uma variável aleatória. No caso de variáveis aleatórias discretas tem-se uma função probabi-
lidade de massa (pmf, do inglês probability mass function) e para variáveis aleatórias contí-

24
nuas tem-se uma função densidade de probabilidade (pdf, do inglês probability density func-
tion). A pmf fornece a probabilidade de ocorrência de cada valor de uma variável aleatória
discreta. Qualquer distribuição P deve satisfazer as seguintes condições:
(1) P(X) = 1, X; e
(2) 0  P(X)  1, X.
Algumas variáveis aleatórias aparecem com frequência em aplicações práticas, motivando
um estudo mais aprofundado. Nestes casos, a distribuição de probabilidade deve ser escrita
de forma compacta, ou seja, existe uma regra para se atribuir as probabilidades. Alguns
exemplos são a distribuição uniforme, a distribuição binomial, a distribuição normal e a dis-
tribuição de Poisson:
1. Distribuição uniforme: uma variável aleatória discreta Xi, i = 1, … , k, segue uma
distribuição uniforme se a mesma probabilidade 1/k é atribuída a cada um dos k valo-
res da variável Xi.
2. Distribuição binomial: uma variável aleatória discreta Xi, i = 1, … , k, segue uma
distribuição binomial se ela obedece a seguinte distribuição: C(n,k).pk
.(1  p)nk
, onde
C(n,k) é o coeficiente binomial, n é o número de (Bernoulli) tentativas e p é a probabi-
lidade de sucesso.
3. Distribuição normal: a distribuição normal ou Gaussiana é uma distribuição de pro-
babilidade contínua que ocorre com grande frequência prática. Dada uma variável
aleatória contínua x, uma distribuição normal possui a seguinte forma:




2
),,(
2
2
2
)( 


x
e
xf ,
onde  é a média da distribuição e  seu desvio padrão.
4. Distribuição de Poisson: uma variável aleatória discreta X tem uma distribuição de
Poisson com parâmetro  > 0 se sua função de probabilidade é dada por (e
k
)/k!,
k = 1, 2, ….
A Figura I.9 apresenta o gráfico de diferentes distribuições de probabilidade para uma variá-
vel aleatória X = 1,..., 50. Para distribuição uniforme, todos os valores de X possuem probabi-
lidade igual a 0,05. A distribuição binomial foi parametrizada com 25 tentativas e 0,7 de pro-
babilidade de sucesso. Para distribuição normal, a variável X foi tratada como uma variável
aleatória contínua com média 25,5 e desvio padrão 7. A distribuição de Poisson foi parame-
trizada com  igual a 5.

25
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
0,20
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Uniforme Binomial Normal Poisson
Figura I.9: Diferentes distribuições de probabilidade.
5.4 MEDIDAS RESUMO
Algumas medidas podem ser usadas para resumir a informação contida em uma distribuição
de probabilidade de uma variável aleatória ou sumarizar a informação contida em uma base
de dados. Três tipos de medidas são importantes, as medidas de tendência central, as medidas
de dispersão e as medidas de forma da distribuição.
5.4.1 Medidas de Tendências Central
Uma medida de tendência central corresponde a um valor central ou um valor típico de uma
distribuição de probabilidade. É um valor único que tenta descrever um conjunto de dados
por meio da identificação de sua posição central. As medidas de tendência central mais co-
muns são média, mediana e moda, resumidas na Tabela I.1:
o Média: também conhecida como valor esperado, em uma base de dados é dada sim-
plesmente pela soma de todos os valores dividida pela quantidade de valores soma-
dos.
o Mediana: é o valor central, ou seja, o valor numérico que separa as duas metades de
uma amostra ou população. Se o número de observações é ímpar, toma-se o valor do
meio; se é par, a mediana é tomada como sendo a média dos dois valores centrais. Em
ambos os casos ordena-se as observações para que se encontre a mediana.
o Moda: é o valor que ocorre com maior frequência na base de dados.
Tabela I.1: Medidas de tendência central para uma base de dados e variáveis aleatórias discretas: média, medi-
ana e moda (Md é a moda).
Base de Dados Variável Aleatória

26
Média 

N
i
ix
N
x
1
1


N
i
ii Xp
N 1
1

Mediana Valor central P(X  Md)  0.5 e P(X  Md)  0.5
Moda Valor mais frequente Valor mais provável
5.4.2 Medidas de Dispersão
Enquanto as medidas de tendência central buscam valores centrais, as medidas de dispersão
ou espalhamento expressam quantitativamente a variabilidade, ou dispersão, dos dados. Dito
de outra forma, as medidas de dispersão denotam o quanto uma distribuição está compacta ou
alongada. As medidas de dispersão mais comuns são a variância e o desvio padrão, resumi-
das na Tabela I.2:
o Variância: mede a dispersão de um conjunto de valores e é sempre não negativa.
Uma variância pequena indica que os dados tendem a estar bem próximos à média e,
portanto, uns aos outros. Valores grandes de variância indicam dados dispersos, ou se-
ja, distantes da média e uns dos outros.
o Desvio Padrão: é a raiz quadrada da variância, particularmente relevante como uma
medida de referência da variabilidade dos dados em relação à média. Por exemplo, ao
se dizer que em uma distribuição normal um determinado valor está a três desvios pa-
drões da média, já se sabe que ele está significativamente distante da maioria dos ou-
tros valores.
Tabela I.2: Medidas de dispersão para bases de dados e variáveis aleatórias: variância e desvio padrão.
Base de Dados Variável Aleatória
Variância 

N
i
i xx
N
x
1
2
)(
1
)var( 

N
i
ii XpX
1
2
)()var( 
Desvio Padrão )var()( xx  )var()( XX 
5.4.3 Medidas de Forma
As medidas de forma trazem informações sobre o formato da distribuição. A assimetria
(do inglês skewness), , é a medida de assimetria da função de distribuição de probabilidade
de uma variável aleatória em torno de sua média. Se a assimetria for negativa a distribuição
tende para direita, mas se for positiva tende para esquerda, como ilustra a Figura I.10. A as-
simetria é calculada como:
3
3
)(


xx 

E
,
onde  é o desvio padrão da variável x, x é a média da variável x, e E é o valor esperado ou
esperança da variável.

27
(a) (b)
Figura I.10: Exemplo de duas funções de distribuição de probabilidade. (a) Assimetria negativa. (b) Assimetria
positiva.
A curtose (do inglês kurtosis), β, é a medida de dispersão que caracteriza o pico ou achata-
mento da curva da função de distribuição de probabilidade de uma variável aleatória. Se a
curtose for igual à zero, então o pico da curva possui achatamento similar à distribuição nor-
mal; se a curtose for positiva, então o pico da função é mais afunilado e a função é mais con-
centrada; e se a curtose for negativa, então o pico da função é mais achatado e a função é
mais dispersa. A Figura I.11: ilustra o exemplo de curvas com diferentes valores de curtose.
A curtose é dada pela equação:
4
4
)(


xx 

E
,
onde  é o desvio padrão da variável x, x é a média da variável x, e E é o valor esperado ou
esperança da variável.

28
3
2
1,2
0
-0,6
-1.2
Figura I.11: Exemplo de diferentes curvas com o valor de curtose na legenda.
5.5 MEDIDAS DE ASSOCIAÇÃO
Para duas variáveis (aleatórias) distintas é possível determinar se há alguma dependência en-
tre elas usando alguma medida de associação. Por exemplo, se duas variáveis desviam de su-
as respectivas médias de maneira similar, é possível dizer que elas são covariantes, ou seja,
há uma correlação estatística entre suas ‘flutuações’.
Assuma uma base de dados com N pares (xi,yi), i = 1, 2, … , N. A covariância, cov(x,y),
entre duas variáveis aleatórias x e y é dada por:


N
i
ii yyxx
N
yx
1
))((
1
),cov( .
Note que a variância e o desvio padrão operam em uma única dimensão, ou seja, em uma
única variável da base independentemente das outras. A covariância, por outro lado, é sempre
medida entre duas variáveis. Se a covariância for calculada entre uma dimensão e ela mesma
o resultado e a variância.
Uma forma intuitiva de generalizar os conceitos de variância e covariância para espaços de
múltipla dimensão é usando a matriz de covariância, também conhecida como matriz de va-
riância-covariância, normalmente representada por . A matriz de covariância é aquela cujo
elemento ij corresponde à covariância entre os elementos i e j da base de dados:

29
ij = cov(xi,xj), i,j.
Note que as variâncias aparecem na diagonal principal da matriz, que é quadrada e simétrica,
e as covariâncias aparecem fora da diagonal.
Como o valor da covariância depende da escala usada para medir x e y, é difícil usá-la co-
mo um padrão para comparar o grau estatístico de associação de diferentes pares de variáveis.
Para resolver este problema, um fator de escala pode ser aplicado dividindo cada desvio indi-
vidual pelo desvio padrão da respectiva variável, resultando no coeficiente de correlação, co-
nhecido como coeficiente de correlação de Pearson:
)().(
),cov(
),(
yx
yx
yx

  .
O coeficiente de correlação, (x,y), mede a dependência linear entre as variáveis. Em outras
palavras, ele determina se há uma relação (linear) entre as variáveis. Quando aplicada a uma
amostra ela é normalmente representada pela letra r e é conhecida como coeficiente de corre-
lação amostral de Pearson:







N
j
j
N
j
j
N
i
ii
yyxx
yyxx
r
1
2
1
2
1
)(.)(
))((
.
Note que o coeficiente de correlação entre as variáveis x e y pode assumir valores no interva-
lo [1, 1], onde 1 é uma correlação totalmente positiva, 0 significa ausência de correlação e
1 é uma correlação totalmente negativa. Um valor 1 significa que uma equação linear des-
creve perfeitamente a relação entre as variáveis, sendo que as duas crescem ou decrescem
juntas. Um valor 1 indica o oposto, ou seja, quando uma variável cresce a outra decresce.
5.6 ENTROPIA DA INFORMAÇÃO
Em teoria da informação, a entropia de Shanon ou entropia da informação, é uma medida da
incerteza associada a uma variável aleatória. Ela quantifica a informação contida em uma
mensagem, geralmente em bits ou bits/símbolo, e corresponde ao comprimento mínimo da
mensagem para comunicar informação.
A entropia também pode ser vista como o conteúdo da informação. No caso de uma fonte
de dados, ela corresponde ao número médio de bits por símbolo necessários para codificá-la e
depende, essencialmente, de um modelo probabilístico. Por exemplo:
o Uma moeda possui uma entropia de um bit. Se a moeda estiver viciada, então a incer-
teza é menor e, portanto, a entropia é menor. Nota: a probabilidade de ocorrência de
cada face da moeda quando lançada é a mesma (50%).
o Uma longa sentença de caracteres repetidos possui uma entropia nula, pois todo carac-
tere é previsível. Nota: a probabilidade de ocorrência de cada caractere é máxima.

30
A entropia da informação de uma variável aleatória X, que pode assumir os valores {x1, x2, ...
, xn} é:


n
i
ibin xpxpxxxIXI
1
21 )(log)(),...,,()( ,
onde I(X) é o conteúdo da informação ou auto-informação de X, que é uma variável aleatória;
p(xi) = Pr(X = xi) é a probabilidade de xi; e b é a base do logaritmo. Nota: 0log0 é assumido 0.
As principais propriedades da entropia são:
o Continuidade: a entropia é contínua, ou seja, pequenas mudanças nos valores das
probabilidades resultam em pequenas mudanças nos valores da entropia.
o Simetria: a medida não muda se os resultados dos experimentos (xi) forem reordena-
dos.
o Máximo: a medida é máxima se todos os resultados forem igualmente prováveis.
o Aditividade: a entropia independe do processo estar dividido em partes ou não.
Valores possíveis de b são 2, e e 10. A unidade de medida da entropia é o bit para b = 2, nat
para b = e, e dit para b = 10.
Para entender o significado da equação da entropia, considere primeiramente o conjunto
dos n eventos possíveis de mesma probabilidade p(xi) = 1/n. A incerteza u deste conjunto de n
resultados é definida por:
U = logb(n).
O logaritmo é usado para fornecer a característica de aditividade para as incertezas indepen-
dentes. Por exemplo, considere o resultado de um experimento com n possíveis valores se-
guido do resultado de outro experimento com m possíveis valores. A incerteza do conjunto de
nm resultados é:
u = logb(nm) = logb(n) + logb(m).
Assim, a incerteza associada aos dois experimentos é obtida somando-se a incerteza de cada
um dos experimentos isoladamente. Como a probabilidade de cada evento isoladamente é
1/n, é possível escrever
u = logb(1/p(xi)) = logbp(xi), i.
Quanto menor a probabilidade, maior a entropia:
p(xi)  0, implica em ui  .
5.7 A CURVA NORMAL
Em estatística, a curva normal é uma distribuição comum na qual é possível determinar a
probabilidade associada a todos os pontos da linha de base da distribuição. Ela pode ser vista
como uma distribuição de frequências, onde a frequência total sob a curva é 100%. Essa cur-

31
va apresenta uma área central que circunda a média ū onde se localizam os escores mais fre-
quentes e há, ainda, áreas progressivamente menores nas extremidades ou caudas ().
ū 223 3
68,26%
95,44%
99,74%
Figura I.12: Curva normal com as porcentagens da área total compreendidas entre , 2 e 3.
Para calcular a porcentagem exata entre a média e diversas distâncias-sigma da curva normal
é empregada uma tabela. O cálculo da distância sigma a partir da média ū produz um valor
chamado escore z ou escore padronizado, que indica, em unidades de desvio padrão, o senti-
do e o grau com que um dado escore bruto se afasta da média da sua distribuição de frequên-
cias:
z = (u ū)/,
onde  é o desvio padrão da distribuição.
Por exemplo, um escore z de 1,4 significa que o escore bruto está a 1,4 (1,4 desvio padrão) à
direita da média. O escore z também pode ser usado para a comparação de valores de diferen-
tes conjuntos de dados.
5.8 INTERVALO DE CONFIANÇA
Um intervalo de confiança está associado ao nível de confiança correspondente a uma medi-
da de certeza de que o intervalo contém um parâmetro da população. O nível de confiança é a
probabilidade (1  ), normalmente expressa como um valor percentual, de que o intervalo
de confiança contém o valor verdadeiro daquele parâmetro. Escolhas comuns para o nível de
confiança são 90%, 95% e 99%, pois eles fornecem um bom equilíbrio entre precisão e con-
fiança.
Para amostras com mais de 30 objetos (grandes amostras) e assumindo uma distribuição
normal, o intervalo de confiança da média, , da população é dado por:
N
zx
N
zx

 μ ,

32
onde x é a média da amostra e
N
zE

 é a margem de erro (a máxima diferença provável
entre a média amostral e a média populacional).
O parâmetro z é chamado de valor crítico e assume alguns valores padronizados com base
no nível de confiança desejado: 90%  z = 1.645; 95%  z = 1.96; e 99%  z = 2.575. O
parâmetro  é o desvio padrão da população e pode ser substituído pelo desvio padrão amos-
tral quando seu valor populacional não é conhecido.
É possível determinar o menor tamanho da amostra para estimar certo parâmetro, como a
média da população, a partir da equação da margem de erro:
2





E
z
N

.
6 BIBLIOGRAFIA
Anton, H. A. (2000), Elementary Linear Algebra, Wiley.
Bazaraa, M. S., Sherali, H. D. and Shetty, C. M. (1993), Nonlinear Programming: Theory
and Algorithms, John Wiley and Sons, Inc., New York, 2nd
Ed.
Bondy, J. A. and Murty, U. S. R. (1976), Graph Theory with Applications, Elsevier North-
Holland.
Chen C.-T. (1984), Linear Systems: Theory and Design, New York: Holt, Rinehart and
Winston.
de Castro, L. N., Fundamentals of Natural Computing: Basic Concepts, Algorithms, and
Applications. CRC Press, 2006.
Diestel, R. (2000), Graph Theory, 2nd
Edition, Springer-Verlag.
Garey, M. and Johnson, D. (1979), Computers and Intractability, Freeman.
Lay, D. C. (2002), Linear Algebra and Its Applications, Addison Wesley, 3rd
Ed..
Levin, J. Estatística Aplicada a Ciências Humanas, Harbra, 1978.
Lipschutz, S. and Lipson, M. (1997), Shaum’s Outlines: Discrete Mathematics, McGraw-
Hill.
Lipschutz, S. and Lipson, M. (2000), Shaum’s Outlines: Linear Algebra, McGraw-Hill.
Luenberger, D. G. (1989), Linear and Nonlinear Programming, 2nd
Ed, Kluwer Academic
Publishers.
Michalewicz, Z. and Fogel, D. B. (2000), How to Solve It: Modern Heuristics, Springer-
Verlag.
Naadimuthu, G. (1997), Schaum's Outline of Operations Research, Schaum, 2nd
Ed.
Nocedal, J. and Wright, S. J. (1999), Numerical Optimization, Springer-Verlag.

33
Rardin, R. L. (1998), Optimization in Operations Research, Prentice-Hall.
Triola, M. F. Introdução à estatística. 7. ed. LTC Livros Técnicos e Científicos Editora
S.A., 1999;
Tutte, W. T. (1984), Graph Theory, Encyclopedia of Mathematics and Its Applications, 21,
Addison-Wesley Publishing Co., Reading, Mass.

2016: Fundamentos Matemáticos para Inteligência Artificial

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a 2016: Fundamentos Matemáticos para Inteligência Artificial

Semelhante a 2016: Fundamentos Matemáticos para Inteligência Artificial (20)

Mais de Leandro de Castro

Mais de Leandro de Castro (13)

2016: Fundamentos Matemáticos para Inteligência Artificial