Programação
Gené.ca
e
Agrupamento
por

U.lidade
para
Análise
de
Dados
Genômicos



      Cassio
Pennachin,
Lucio
Coelho,

...
Desafios
Pós‐Genoma

•  Influência
x
causa

•  Iden.ficar
genes
e

   seus
papéis

•  Interações

   complexas
entre

   gene...
Microarrays

      •  Permitem
medir

         simultaneamente
a

         expressão
de
milhares

         de
genes.

    ...
Mineração
de
Dados
Genômicos

•  Obje.vos:
Formulação
de
hipóteses

  –  Sugestão
de
genes
relacionados
a
uma
condição

  ...
Metodologia
Open
Biomind

1.    Pré‐processar
e
enriquecer
os
dados

2.    Programação
gené.ca

3.    Evoluir
conjuntos
de...
Pré‐Processamento
dos
Dados

•  Filtragem
de
genes
inúteis

•  Normalização
(0,
1)

•  Incorporação
de
dados
de

   ontolo...
Dataset:
Câncer
de
Próstata

•  Dados
originais:
Tan
and
Gilbert,
2003

   –  hdp://sdmc.lit.org.sg/GEDatasets/Datasets.
h...
Classificação
via
Programação
Gené.ca


                   •  “Evolução”
de
uma

                      população
de
modelos...
Classificação
via
Programação
Gené.ca


Real
vs

               P
    N
    O.mização
da
função
de

Modelo

               ...
Exemplo:
Modelo
de
Classificação

Conjuntos
de
Modelos

•  Resultado
de
uma
execução
do
algoritmo:

  –  Ensemble
formado
por
100
melhores
modelos

  –  Cla...
Mineração
de
Dados

•  Atributos
mais
úteis

•  Atributos
relacionados:
agrupamento
por

   u.lidade
(genes
que
são
úteis
...
Perfis
de
U.lidade

•  Cada
atributo
tem
um
vetor
de
u.lidade
U(i)

•  U(i,j)
=
porcentagem
de
modelos
no
j‐ésimo
ensemble
...
Agrupamento
Baseado
em

            U.lidade

•  Agrupamento
hierárquico
n‐ário
dos
perfis
de

   u.lidade
por
similaridade...
Agrupamento
Baseado
em

       U.lidade

Inferindo
Relações
Intergenes

Próximos SlideShares
Carregando em…5
×

Mineração de Dados Genômicos com Open Biomind

393 visualizações

Publicada em

Programação Genética e agrupamento por utilidade para análise de dados genômicos usando o pacote Open Biomind.

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
393
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Mineração de Dados Genômicos com Open Biomind

  1. 1. Programação
Gené.ca
e
Agrupamento
por
 U.lidade
para
Análise
de
Dados
Genômicos
 Cassio
Pennachin,
Lucio
Coelho,
 Maurício
Mudado,
Ben
Goertzel

  2. 2. Desafios
Pós‐Genoma
 •  Influência
x
causa
 •  Iden.ficar
genes
e
 seus
papéis
 •  Interações
 complexas
entre
 genes
 •  Sequência
x
 expressão
(nível
de
 a.vidade)

  3. 3. Microarrays
 •  Permitem
medir
 simultaneamente
a
 expressão
de
milhares
 de
genes.
 •  Dados
com
bastante
 ruído.

  4. 4. Mineração
de
Dados
Genômicos
 •  Obje.vos:
Formulação
de
hipóteses
 –  Sugestão
de
genes
relacionados
a
uma
condição
 –  Inferência
de
relações
intergenes
 –  Inferência
de
função
de
genes
 •  Ferramentas:
 –  Agrupamento:
simples,
mas
ignora
muitos
 relacionamentos
entre
genes
e
sofre
com
a
qualidade
 de
dados
 –  Classificação:
técnicas
robustas,
mas
em
geral
acurácia
 é
menos
relevante
que
informação
inteligível

  5. 5. Metodologia
Open
Biomind
 1.  Pré‐processar
e
enriquecer
os
dados
 2.  Programação
gené.ca
 3.  Evoluir
conjuntos
de
modelos
de
classificação
 4.  Mineração
de
dados
 1.  Análise
de
u.lidade
de
atributos
 2.  MUTIC:
Agrupamento
de
atributos
com
base
em
 seu
uso
por
modelos
 h"p://code.google.com/p/openbiomind

  6. 6. Pré‐Processamento
dos
Dados
 •  Filtragem
de
genes
inúteis
 •  Normalização
(0,
1)
 •  Incorporação
de
dados
de
 ontologia:
Gene
Ontology
 (GO),
Protein
Informa.on
 Resource
(PIR)

  7. 7. Dataset:
Câncer
de
Próstata
 •  Dados
originais:
Tan
and
Gilbert,
2003
 –  hdp://sdmc.lit.org.sg/GEDatasets/Datasets.
html#Prostate
 –  12600
genes;

 –  Treinamento:
102
indivíduos
(52
câncer,
50
controle);
 –  Testes:
34
indivíduos
(25
câncer,
9
controle);
 •  Pré‐processamento:
 –  Eliminação
de
genes
com
expressão
uniforme
ou
 muito
baixa
(ruído)
 –  Inclusão
de
categorias
de
Gene
Ontology
e
PIR
 –  4779
atributos
(1705
genes;
2430
GO;
644
PIR)

  8. 8. Classificação
via
Programação
Gené.ca
 •  “Evolução”
de
uma
 população
de
modelos.
 •  Modelos
são
árvores
 com
expressões
lógicas
 ou
aritmé.cas.
 •  Modelos
compactos
e
 inteligíveis.
 •  Conjunto
diverso
de
 modelos
gerados
em
 paralelo.

  9. 9. Classificação
via
Programação
Gené.ca
 Real
vs
 P
 N
 O.mização
da
função
de
 Modelo
 qualidade:

 P
 VP
 FP
 N
 FN
 VN
 Q
=
F1‐measure
–
N/2
 F‐measure:

 Penalidade
para
modelos
 triviais
(saída
constante)
e
 modelos
complexos.
 Balanceamento
da
base
 de
dados
por
sampling
de
 classe
mais
frequente.

  10. 10. Exemplo:
Modelo
de
Classificação

  11. 11. Conjuntos
de
Modelos
 •  Resultado
de
uma
execução
do
algoritmo:
 –  Ensemble
formado
por
100
melhores
modelos
 –  Classificação:
votação
ponderada
 •  Workflow
upico:
1000
execuções.
 •  Resultados
para
Câncer
de
Próstata:
100%
de
 acurácia
em
treinamento,
97%
em
teste.
 •  Mas
acurácia
não
basta!

  12. 12. Mineração
de
Dados
 •  Atributos
mais
úteis
 •  Atributos
relacionados:
agrupamento
por
 u.lidade
(genes
que
são
úteis

em
conjunto
 para
classificar
o
problema
são
relacionados)
 •  Resultado:
 –  Anotação
de
genes
desconhecidos
 –  Sugestão
para
pesquisa
biológica

  13. 13. Perfis
de
U.lidade
 •  Cada
atributo
tem
um
vetor
de
u.lidade
U(i)
 •  U(i,j)
=
porcentagem
de
modelos
no
j‐ésimo
ensemble
que
 u.lizam
o
atributo
i.
 •  Atributos
mais
úteis:
maior
U(i)
médio
 M1
 M2
 M3
 M4
 M5
 M6
 …
 M1000
 g1
 0
 0.11
 0
 0
 0.23
 0
 …
 0.58
 g2
 0
 0.43
 0
 0
 0
 0
 …
 0
 GO1
 0.54
 0
 0
 0
 0
 0
 …
 0
 …
 …
 …
 …
 …
 …
 …
 …
 …
 Fn
 0.41
 0
 0
 0
 0
 0.56
 ...
 0

  14. 14. Agrupamento
Baseado
em
 U.lidade
 •  Agrupamento
hierárquico
n‐ário
dos
perfis
de
 u.lidade
por
similaridade.

 •  Qualidade:
homogeneidade
x
separação
 Método
 Qualidade
do
1o
 Qualidade
do
 cluster
 20o
cluster
 Por
u.lidade
 0.623
 0.543
 Por
expressão
 0.369
 0.169
 •  70%
dos
genes
dos
5
melhores
clusters
por
 u.lidade
com
relação
conhecida
com
Câncer
 de
Próstata.

  15. 15. Agrupamento
Baseado
em
 U.lidade

  16. 16. Inferindo
Relações
Intergenes


×