O esboço da solução parece razoável. Algumas sugestões:
- Especificar quais dados serão preparados (lista de mutações, sequências de mamíferos)
- No ciclo interno, verificar se a mutação existe na sequência do mamífero, não só se existe sequência
- Registar/armazenar os resultados da comparação para cada par mutação-mamífero
- No final, gerar/escrever a folha de cálculo com os resultados como especificado no problema
- Poderia incluir também validações dos dados de entrada e saida
-
Apresentação apresentado na disciplina de ???? ( não lembro rsrsr) na PUC Poços de Caldas
Tema: Indrodução a Bioinformática.
Autores:
http://www.slideshare.net/guilffer
https://www.facebook.com/danzosa
Aula ministrada no curso de Biodiversidade e Conservação, dos cursos de Ciências Biológicas e Engenharia Agronômica, da Escola Superior de Agricultura Luiz de Queiroz (ESALQ/USP).
Apresentação apresentado na disciplina de ???? ( não lembro rsrsr) na PUC Poços de Caldas
Tema: Indrodução a Bioinformática.
Autores:
http://www.slideshare.net/guilffer
https://www.facebook.com/danzosa
Aula ministrada no curso de Biodiversidade e Conservação, dos cursos de Ciências Biológicas e Engenharia Agronômica, da Escola Superior de Agricultura Luiz de Queiroz (ESALQ/USP).
Novas Perspectivas em Estudos de Ecologia MicrobianaLeandro Lemos
Aula ministrada junto à disciplina “Microbiologia Ruminal: Abordagem Molecular” [Tópico: Novas Perspectivas em Estudos de Ecologia Microbiana], do curso de pós-graduação em Ciências (Energia Nuclear), do Centro de Energia Nuclear na Agricultura (CENA/USP).
Bioinformática aplicada nas análises da microbiota do rúmenLeandro Lemos
Aula ministrada na disciplina 'Genômica e Bioinformática', do curso de pós-graduação em Ciências (Energia Nuclear), do Centro de Energia Nuclear na Agricultura (CENA/USP).
Análises de sequências metagenômicas via MG-RASTLeandro Lemos
Aula ministrada junto à disciplina "Biodiversidade e Conservação nos Trópicos: Um Enfoque Molecular"[Tópico: Análises de sequências metagenômicas via MG-RAST], do curso de pós-graduação em Ciências (Energia Nuclear), do Centro de Energia Nuclear na Agricultura (CENA/USP).
Para que um resultado de uma pesquisa científica possa ser considerado como válido, é necessário que este resultado possa ser replicado por diversos cientistas. A replicação é um dos pilares fundamentais da ciência. Basicamente é necessário que diversos cientistas coletem e analisem dados de forma independente, e cheguem no mesmo resultado.
A replicação na ciência têm sido praticada há muitos anos. No entanto, hojem em dia esta prática tem se tornado cada vez mais desafiadora, uma vez que os estudos estão se tornando cada vez maiores e mais caros, e a disponibilidade de recursos financeiros para pesquisas cada vez mais escassa.
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01NeuroMat
Apresentação sobre estratégias para o armazenamento de dados experimentais em neurociência, questionários digitais para a coleta e armazenamento de dados experimentais e meta-dados e ferramentas para o gerenciamento de arquivos.
Aula Biologia de Sistemas e ferramentas ômicasSandraMuxel
Aula expositiva apresentando conceitos básicos relacionados a biologia de sistemas e discutindo as diferentes abordagem para montar as redes emergentes. Introdução a biologia de sistemas: definição, características (reducionista e holística e propriedade emergentes) e estratégias (bottom-up e top-down);
Aula introdutória à bioinformática e genômica com enfoque em bioinformática clínica. Aula dada na cadeira de Bioquímica 2 do curso de Biomedicina da UFPE 2017.1.
Novas Perspectivas em Estudos de Ecologia MicrobianaLeandro Lemos
Aula ministrada junto à disciplina “Microbiologia Ruminal: Abordagem Molecular” [Tópico: Novas Perspectivas em Estudos de Ecologia Microbiana], do curso de pós-graduação em Ciências (Energia Nuclear), do Centro de Energia Nuclear na Agricultura (CENA/USP).
Bioinformática aplicada nas análises da microbiota do rúmenLeandro Lemos
Aula ministrada na disciplina 'Genômica e Bioinformática', do curso de pós-graduação em Ciências (Energia Nuclear), do Centro de Energia Nuclear na Agricultura (CENA/USP).
Análises de sequências metagenômicas via MG-RASTLeandro Lemos
Aula ministrada junto à disciplina "Biodiversidade e Conservação nos Trópicos: Um Enfoque Molecular"[Tópico: Análises de sequências metagenômicas via MG-RAST], do curso de pós-graduação em Ciências (Energia Nuclear), do Centro de Energia Nuclear na Agricultura (CENA/USP).
Para que um resultado de uma pesquisa científica possa ser considerado como válido, é necessário que este resultado possa ser replicado por diversos cientistas. A replicação é um dos pilares fundamentais da ciência. Basicamente é necessário que diversos cientistas coletem e analisem dados de forma independente, e cheguem no mesmo resultado.
A replicação na ciência têm sido praticada há muitos anos. No entanto, hojem em dia esta prática tem se tornado cada vez mais desafiadora, uma vez que os estudos estão se tornando cada vez maiores e mais caros, e a disponibilidade de recursos financeiros para pesquisas cada vez mais escassa.
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 01NeuroMat
Apresentação sobre estratégias para o armazenamento de dados experimentais em neurociência, questionários digitais para a coleta e armazenamento de dados experimentais e meta-dados e ferramentas para o gerenciamento de arquivos.
Aula Biologia de Sistemas e ferramentas ômicasSandraMuxel
Aula expositiva apresentando conceitos básicos relacionados a biologia de sistemas e discutindo as diferentes abordagem para montar as redes emergentes. Introdução a biologia de sistemas: definição, características (reducionista e holística e propriedade emergentes) e estratégias (bottom-up e top-down);
Aula introdutória à bioinformática e genômica com enfoque em bioinformática clínica. Aula dada na cadeira de Bioquímica 2 do curso de Biomedicina da UFPE 2017.1.
Introdução ao Armazenamento de Dados de Experimentos em Neurociência - Parte 02NeuroMat
Apresentação sobre estratégias para o armazenamento de dados experimentais em neurociência, questionários digitais para a coleta e armazenamento de dados experimentais e meta-dados e ferramentas para o gerenciamento de arquivos.
Apresentação sobre orientações de uso do repositório Dataverse da Rede Cariniana. IV Reunião Técnica da Rede de Brasileira de Repositórios Dataverse, Ibict, Braília, DF. 25 de agosto de 2017
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem baseada em ontologias e dados ligados - Cristina Ribeiro, João Lopes, João Silva, João Castro, Ricardo Amorim
Computação Cognitiva: conceitos e aplicaçõesDiego Cavalca
Material utilizado na palestra "Computação Cognitiva: conceitos e aplicações", realizada no XVI Congresso de Educação Ciência e Tecnologia (Conecte/UNILINS).
Nesta palestra apresento os principais conceitos a respeito da Computação Cognitiva, seu funcionamento e suas reais aplicações em nosso cotidiano, com base na solução IBM Watson.
Seminário "Tecnologia Assistiva" realizado pelo Instituto de Estudos Avançados da USP, Polo Ribeirão Preto.
Palestra do Prof. Dr. Marcelo Zuffo.
10/04/2012.
Este material é uma introdução aos conceitos e recursos fundamentais necessários para projetar e manipular banco de dados relacionais, bem como desenvolver aplicações com sistemas de banco de dados relacionais.
Marcondes - Curadoria de dados de Pesquisa, Semana do Bibliotecário ECI-UFMG ...CarlosMarcondes17
Discutir os impacto da grande disponibilidade de dados de pesquisa sobre o trabalho dos profissionais de informação; levantar diretrizes práticas para a gestão de dados de pesquisa no ambiente das bibliotecas universitárias; sugerir novos espaços para atuação do profissional de informação
This presentation is an overview of the history of Computer Graphics since is beginnings, in the 20th century, up to 2002. Although many interesting technical developments occurred after 2002, most of them are just technological achievements and not imaginative/disruptive theoretical advances. The document is written in Portuguese.
The CDIO™ INITIATIVE is an innovative educational framework for producing the next generation of engineers. The framework provides students with an education stressing engineering fundamentals set in the context of Conceiving - Designing - Implementing - Operating (CDIO) real-world systems and products. Throughout the world, CDIO Initiative collaborators have adopted CDIO as the framework of their curricular planning and outcome-based assessment. CDIO collaborators recognize that an engineering education is acquired over a long period and in a variety of institutions, and that educators in all parts of this spectrum can learn from practice elsewhere. The CDIO network therefore welcomes members in a diverse range of institutions ranging from research-led internationally acclaimed universities to local colleges dedicated to providing students with their initial grounding in engineering. CDIO envisions an education that stresses the fundamentals, set in the context of Conceiving - Designing - Implementing - Operating systems and products, through a curriculum organized around mutually supporting courses but with CDIO activities highly interwoven. CDIO activities are rich with student design-build-test projects, integrate learning of professional skills such as teamwork and communication, feature active and experiential learning, and are constantly improved through quality assurance process with higher aims than accreditation.
The Context of Engineering Education
Conceiving-Designing-Implementing-Operating
Edward F. Crawley, John Cha, Johan Malmqvist, and Doris R. Brodeur
4th International CDIO Conference
16 - 19 June 2008
1. Uso de Ferramentas de Software em
Bioinformática (com exemplos)
António Cardoso Costa
Departamento de Eng.ª Informática
Instituto Superior de Engenharia do Porto
Seminário sobre Bioinformática
2. 2
Agenda
●
O que é a Bioinformática
●
História da Bioinformática
●
A Bioinformática atual
●
Ferramentas de uso geral na Bioinformática
●
Utilizações da Bioinformática
●
Ferramentas à medida na Bioinformática
●
Ferramentas para entrar na Bioinformática
●
Conclusão
3. 3
O que é a Bioinformática
• A Bioinformática
– É uma área interdisciplinar que desenvolve métodos
para armazenamento, acesso, organização e análise de
dados biológicos detalhados e numa escala baixa
– Lida com dados biológicos elementares (ADN, etc.)
– Usa computadores para compreender a biologia
– Desenvolve ferramentas de software que lidam com
informação biológica numa perspetiva utilitária
– Recorre à informática, matemática, engenharia, etc.
– É muito diferente da Biologia Computacional
4. 4
ADN e Proteínas Célula
Núcleo Cromossoma
ADN
Proteínas do
Vírus Ébola
Código do ADN [4]
a c g t
Código proteico [20]
A R N D C E Q G H I
L K M F P S T W Y V
Figuras: Wikimedia
5. 5
História da Bioinformática
• Primeiras aplicações da Bioinformática
– 1950: comparação computacional de sequências
proteicas e criação de repositórios de dados biológicos
– 1960: métodos de alinhamento de sequências
– 1970: análise automatizada de sequências biológicas
– 1980: análise de genomas e criação de grandes
repositórios de dados de acesso geral (GenBank)
– 1990 em diante: desenvolvimento generalizado de
novas ferramentas bioinformáticas visando dados
biológicos – nucleótidos, aminoácidos, proteínas, etc.
6. 6
A Bioinformática atual
• Objetivos
– Analizar e interpretar vários tipos de dados biológicos
– Vertentes principais da Bioinformática
• Desenvolvimento e implementação de software que use
eficientemente os vários tipos de dados biológicos
• Desenvolvimento de algoritmos/heurísticas e medidas
estatísticas para avaliar relações entre dados de repositórios
– A Bioinformática recorre a métodos computacionais
• Reconhecimento de padrões, exploração de dados,
aprendizagem automática, visualização de informação,
simulação de processos, computação avançada, etc.
7. 7
A Bioinformática atual
• Atividades comuns e áreas de aplicação
– Mapear e analizar ADN e sequências proteicas
– Alinhar sequências com vista a compará-las
– Criar, visualizar e explorar modelos 3D de proteínas
– Extrair resultados de grandes repositórios de dados
– Anotar sequências, genomas, mutações, etc.
– Desenvolver ontologias para explorar dados biológicos
– Ajudar na análise da expressão/regulação de ADN, etc.
– Fornecer métodos e técnicas para fins forenses
8. 8
Ferramentas de acesso geral na Bioinformática
• Repositórios ou bases de dados
– São essenciais para efeitos de aplicação e investigação
– Há grande diversidade e interligação de repositórios
– Os repositórios de dados são de vários tipos
• Dados resultantes de métodos empíricos
• Dados resultantes de métodos preditivos
• Dados empíricos e preditivos
• Meta-dados que relacionam vários repositórios de dados
– Alguns casos notáveis
• Nucleótidos: GenBank (EUA), EMBL (UE)
• Proteínas: UniProt (UE), PROSITE (UE), PDB (EUA)
9. 9
Ferramentas de acesso geral na Bioinformática
• GenBank (repositório de dados do NCBI)
– «GenBank ® is the NIH genetic sequence database, an
annotated collection of all publicly available DNA
sequences (Nucleic Acids Research, 2013 Jan;
41(D1):D36-42). GenBank is part of the International
Nucleotide Sequence Database Collaboration, which
comprises the DNA DataBank of Japan (DDBJ), the
European Molecular Biology Laboratory (EMBL), and
GenBank at NCBI. These three organizations exchange
data on a daily basis...»
– Registo GenBank; Nucleótidos; BLAST; Serviços
10. 10
Ferramentas de acesso geral na Bioinformática
• EMBL (repositório de dados)
– «EMBL is at the forefront of innovation in life sciences
research, technology development and transfer, and
provides outstanding training and services to the
scientific community in its member states. This
publicly-funded non-profit institute is housed at five
sites in Europe whose expertise covers the whole
spectrum of molecular biology...»
– EMBL-UK; serviços (web)
• «EMBL-EBI provides programmatic access to various data
resources and analysis tools via Web Services technologies»
11. 11
Ferramentas de acesso geral na Bioinformática
• UniProt (repositório de dados de EBI/SIB/PIR)
– «The mission of UniProt is to provide the scientific
community with a comprehensive, high-quality and
freely accessible resource of protein sequence and
functional information...»
– Vários repositórios de sequências proteicas e serviços
• UniProtKB; UniRef; UniParc
• Proteomes – conjunto das proteínas expressas pelo genoma
• Serviços gerais (CGI Services) (Web Services)
• Serviços orientados ao ambiente JAVA (API)
12. 12
Ferramentas de acesso geral na Bioinformática
• PDB (repositório de dados)
– «The Worldwide Protein Data Bank (wwPDB) consists
of organizations that act as deposition, data processing
and distribution centers for PDB data. Members are:
RCSB PDB (USA), PDBe (Europe) and PDBj (Japan),
and BMRB (USA). The wwPDB's mission is to
maintain a single PDB archive of macromolecular
structural data that is freely and publicly available to
the global community...»
– PDBus / PDBe; Registo PDB; Serviço Web
13. 13
Ferramentas de acesso geral na Bioinformática
• Modalidades
– Através de serviços remotos Web ou FTP
• http://www.uniprot.org/uniprot/P31946
• http://rest.ensembl.org/homology/symbol/human/ABAT?;typ
e=orthologues;aligned=0
• ftp://ftp.ncbi.nlm.nih.gov/blast/db/
– Através de software local que recorre a uma API
• esearch -db protein -query ABAT | efetch -format fasta
– Através de software local previamente obtido
• clustalo --auto --force --wrap=100000 -i fich1 -o fich2
– Alternativa: software desenvolvido à medida
14. 14
Ferramentas de acesso geral na Bioinformática
• Ambientes de desenvolvimento de software
– OBF (BioJava; BioPerl; BioPython; BioSQL); etc.
• Usam ambientes de programação atuais complementados
com componentes funcionais específicos da Bioinformática
• É uma boa prática de desenvolvimento de software!
– Baseados em integração de funcionalidades/dados
• geWorkbench; InterMine; BioGraph; PATRIC; Gaggle;
UGENE; etc.
– Baseados em fluxos de trabalho (workflow)
• Armadillo; Anduril; BioUno; Galaxy; GenePattern;
Taverna Workbench; etc.
15. 15
Ferramentas de acesso geral na Bioinformática
• Software para instalação local em computador
– Código fechado/proprietário
• As organizações mantêm a propriedade intelectual/copyright
• Dendroscope – View phylogenetic trees and rooted networks
– Código aberto/livre (Listagem na Wikipedia)
• PHYLIP – Package of programs for inferring phylogenies
• Clustal – Multiple alignment of DNA/protein sequences
• JalView – MSA editing, visualisation and analysis
• PyMol – Molecular visualization system
• HyPhy – Hypothesis testing using phylogenies
20. 20
Utilizações da Bioinformática
• Como muitas pessoas usam a Bioinformática
– 1. Procurar gene BRCA1 no UniProtKB
• Selecionar 7 espécies e visualizar as sequências
• Descarregar as 7 sequências para ficheiro local
– 2. Visualizar as 7 sequências com o JalView
• Antes de serem alinhadas com um software de MSA
• Depois de serem alinhadas (observar e analisar)
– 3. Escolher uma subsequência e pesquisar no BLAST
• Verificar as sequências candidatas e analisar
– 4. Abrir sequência BRCA1_HUMAN no UniProtKB
• Visualizar BRCA1 “1jnx” em 3D no software PyMol
21. 21
Ferramentas à medida na Bioinformática
• Descrição do problema
– Dada uma lista de mutações (exemplo R283Q) em
sequências proteicas de genes humanos,
– Pesquisar essas mutações nas sequências proteicas
ortólogas de 39 mamíferos previamente definidos e
– Guardar todos os casos de mutações iguais às humanas,
nos 39 mamíferos em causa, numa folha de cálculo
– Pressupostos
• As sequências humanas são descritas pelo identificador
RefSeq (exemplo: NP_000005.2)
22. 22
Ferramentas à medida na Bioinformática
• Análise do problema
– O problema está claramente formulado? Sim/Não
– As fontes de informação estão definidas? Sim/Não
– O que está em falta para se poder resolver?
Discussão/sugestões!
23. 23
Ferramentas à medida na Bioinformática
• Análise do problema
– O problema está claramente formulado? Sim
– As fontes de informação estão definidas? Não
– O que está em falta para se poder resolver?
• A lista que define os 39 mamíferos!
• Um repositório com sequências proteicas de mamíferos!
• Um algoritmo que descreva uma solução adequada!
• Uma solução implementada de modo correto e bem testada!
24. 24
Ferramentas à medida na Bioinformática
• Preparação da solução
– Fornecida a lista com os nomes dos 39 mamíferos
– Identificado um repositório de dados com sequências
proteicas de mamíferos: Ensembl
• «The Ensembl project produces genome databases for
vertebrates and other eukaryotic species, and makes this
information freely available online...»
• Existe uma interface Web para aceder ao Ensembl e obter
automaticamente sequências proteicas de mamíferos que
sejam ortólogas de uma dada sequência proteica humana:
http://rest.ensembl.org/homology/symbol/human/X?;type=orthologues;aligned=0
– Descarregadas todas as sequências necessárias
25. 25
Ferramentas à medida na Bioinformática
• Definição da solução (algoritmo)
– Solução incluirá ações (A), decisões (D) e ciclos (C)
• Descrição simplificada da solução:
Esboço da solução?
Discussão/sugestões!
26. 26
Ferramentas à medida na Bioinformática
• Definição da solução (algoritmo)
– Solução incluirá ações (A), decisões (D) e ciclos (C)
• Descrição simplificada da solução:
A: Inicia a execução
A: Prepara os dados necessários
C: Para cada sequência de gene humano
C: .Para cada mamífero
D: ..Se existe sequência do respetivo gene ortólogo
A: ...Faz alinhamento das sequências humana+mamífero
C: ....Para cada mutação do gene humano em causa
D: .....Se há mutação na sequência do mamífero
A: ......Guarda informação da mutação encontrada
A: Armazena os resultados encontrados num ficheiro
A: Termina a execução
27. 27
Ferramentas à medida na Bioinformática
• Caraterísticas da solução encontrada
– O tempo de execução (TE) será proporcional ao
• Nº de genes humanos (N1)
• Nº de mamíferos (N2)
• Nº médio de mutações por gene humano (N3)
• TE ≈ N1 N2 N3
– A solução encontrada está próxima do ótimo
– Exemplo de resultado
ABCB1 erinaceus_europaeus 472 V=>A
nd...Vi.p.. NP_003733.2 homo_sapiens
dn...Av.s.. ENSEEUP00000004710 erinaceus_europaeus
28. 28
Ferramentas para entrar na Bioinformática
• Aprender Bioinformática
– Plataforma de aprendizagem Rosalind
• Python Village (aprender a linguagem Python)
• Bioinformatics Stronghold (descobrir algoritmos)
• Bioinformatics Armory (ferramentas prontas a usar)
• Bioinformatics Textbook Track (coleção de exercícios)
• Algorithmic Heights (exercícios sobre algoritmos)
– Curso online na plataforma Coursera
– Iniciativa Google Genomics (explicação)
– Leituras
• Livros sobre Bioinformática na Amazon UK
29. 29
Ferramentas de edição de genoma
• Baseadas na técnica CRISPR/Cas9
– CRISPR/Cas9 is a gene-editing technique that involves
expressing the RNA-guided Cas9 endonuclease along
with guide RNAs directing it to a particular sequence to
be edited. When Cas9 cuts the target sequence, the cell
repairs the damage by replacing the original sequence
with an altered version. Making a guide RNA to direct
Cas9 to cut any specific gene is straightforward. CRISPR
tremendously simplifies the process of deleting, adding,
or modifying genes and germlines, allowing them to be
inherited. In 2015 researchers successfully tested a
CRISPR-based gene drive in Drosophila. (Fonte: Wikipedia)
30. 30
Ferramentas de edição de genoma
• Vídeo sobre a técnica CRISPR/Cas9
– Artigo com explicação detalhada e figuras
– Artigo da Nature contra edição do genoma humano
– NIH não financiará edição do genoma humano
31. Uso de Ferramentas de Software em
Bioinformática (com exemplos)
António Cardoso Costa
Departamento de Eng.ª Informática
Instituto Superior de Engenharia do Porto
Seminário sobre Bioinformática