SlideShare uma empresa Scribd logo
1 de 40
Baixar para ler offline
Extracção e codificação de conteúdo de
relatórios de exames anatomo-patológicos
dactilografados.
OCR através de momentos invariantes
David Fernandes
UAb

9 de Março de 2013

david.paiva.fernandes@gmail.com
David Fernandes (UAb)

Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
1 / 40
Orientação
Professora Gracinda Carvalho (UAb)
Dra Cristina Gonçalves (Hospital de Santo António - CHP)

Apoio
Laboratório de Anatomia Patológica Doutores J Pereira
Guedes, Silva Caspurro e Manuel Dias

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
2 / 40
PROJECTO

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
3 / 40
Projecto
Anatomia patológica

especialidade médica
diagnostica doenças
exame macroscópico de peças cirúrgicas
exame microscópico de células (citologia) e tecidos
(histologia)
biopsia, raspagem, agulha
produção de relatório

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
4 / 40
Anatomia patológica
Relatórios de exame

texto livre
identificação do paciente
informação sobre a colheita
imagem microscópica das células/tecidos
descrição das peças/tecidos => observação macroscópica
observação microscópica
diagnóstico

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
5 / 40
Anatomia patológica
Relatórios de exame

5747 Hoover Blvd
Tampa, Florida 33634
Phone:
Fax:

813.884.2849
813.890.0143

Patient Name

Accession Number

SAMPLE, PATIENT
Sex
M

Age (DOB)
55 (09/29/1949)

1REL-05-03358
Account
Number
1

Chart
Number

Collected
3/2/2005

SAMPLE CLIENT

Requesting Physician

Received

1234 Test Street
Tampa, Florida 33333

SAMPLE PHYSICIAN, M.D.

3/2/2005

Referring Physician

Reported
3/3/2005

813.123.4567
Clinical Data
IRON DEFICIENCY ANEMIA

PATHOLOGY REPORT
SPECIMEN 01 CECUM COLON, BIOPSY

MICROSCOPIC DESCRIPTION
Colonic tissue fragments showing irregularly shaped malignant tumor glands
lined by pleomorphic cells with nuclear hyperchromasia. Malignant cells
infiltrate the submucosa and have an associated desmoplastic and
inflammatory response.
SPECIMEN 01, CECUM COLON, BIOPSY:
DIAGNOSIS:

Colonic tissue fragments with invasive adenocarcinoma, well to moderately differentiated.
GROSS DESCRIPTION: Received in formalin, labeled with the patient's name and "cecal mass biopsy" are multiple portions of
tan-white soft tissue measuring 0.6 x 0.6 x 0.2 cm in aggregate, which are submitted in toto in one cassette labeled 1A. kaf/m
SPECIMEN 02, DESCENDING COLON, BIOPSY:
DIAGNOSIS:

Tubular adenoma (adenomatous polyp).
GROSS DESCRIPTION: Received in formalin, labeled with the patient's name and "descending colon polyp" is a tan-pink polyp
measuring 0.7 x 0.7 x 0.3 cm. The specimen is bisected and submitted in its entirety in one cassette labeled 2A. kaf/s
MICROSCOPIC DESCRIPTION: Polypoid colonic mucosa with increased number of glands, glandular crowding and mucin
depletion in some of the glands. The glands are lined by cells with enlarged and hyperchromatic nuclei.

CASE COMMENTS: Dr. Sample's office has been notified of the findings by telephone on 3/3/05.

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
6 / 40
Anatomia patológica
Relatórios de exame
Page 1

PATIENT INFORMATION

JOHN DOE
Age: 84 years
Date of Birth: 11/09/23
Location/ID: PRIVATE OFFICE
PHYSICIAN

SPECIMEN INFORMATION

JOHN SMITH, M.D

Accession # WCS­08­99999

1234 JOHN WAY
HERCULES, CA 94547

Collected:
Received:
Reported:

02/17/2008
02/18/2008
02/20/2008

SPECIMEN SITE / COMMENTS
1. SPECIMEN SITE ­ PROSTATE, LEFT BASE
2. SPECIMEN SITE ­ PROSTATE, LEFT LATERAL BASE
3. SPECIMEN SITE ­ PROSTATE, RIGHT BASE

GROSS DESCRIPTION
1. Left base ­ Two cores measuring from 1.5 to 1.7 cm. Labeled "L21."
2. Left lateral base ­ Two cores measuring from 1.3 to 1.6 cm. Labeled "L2." 
3. Right base ­ One core measuring 1.6 cm. Labeled "R1."

MICROSCOPIC DESCRIPTION
The biopsies show a malignant neoplasm composed of small tubular glands which in many areas form single cells and cribriform
structures.

FINAL DIAGNOSIS
1. Prostate, left base, needle biopsy
­ ADENOCARCINOMA, GLEASON SCORE OF 4+4.
­ TUMOR OCCUPIES APPROXIMATELY 70% OF THE BIOPSY VOLUME.
2. Prostate, left lateral base, needle biopsy
­ ADENOCARCINOMA, GLEASON SCORE OF 4+4.
­ TUMOR OCCUPIES APPROXIMATELY 80% OF THE BIOPSY VOLUME.
3. Prostate, right base, needle biopsy
­ ADENOCARCINOMA, GLEASON SCORE OF 3+4.
­ TUMOR OCCUPIES APPROXIMATELY 50% OF THE BIOPSY VOLUME.

John Com pagno, M.D.

David Fernandes (UAb)

Original Report Review ed and Verified
Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
7 / 40
Anatomia patológica
Relatórios de exame
Page 1

PATIENT INFORMATION

JOHN DOE
Age: 45 years
Date of Birth: 03/22/62
Location/ID: 123456
PHYSICIAN

SPECIMEN INFORMATION

JOHN SMITH, M.D

Accession # WCC­08­99999

1234 JOHN WAY
HERCULES, CA 94547

Collected:
Received:
Reported:

01/11/2008
01/12/2008
01/13/2008

SPECIMEN SITE / COMMENTS
* SPECIMEN SITE ­ URINE CYTOLOGY

GROSS DESCRIPTION
Received is 150 cc`s of yellow fluid which is used for the preparation of a
ThinPrep.

MICROSCOPIC DESCRIPTION
The urine cytology shows individual urothelial cells. They show small central nuclei without increased N/C ratios. Papillary clusters are
not seen. There is an increase in the amount of inflammation with numerous clusters of neutrophils. 

FINAL DIAGNOSIS
Urine cytology
­ ABUNDANT ACUTE INFLAMMATION.
­ NO MALIGNANT CHANGES SEEN.

Wayne Garrett, D.O. Pathologist
Original Report Review ed and Verified

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
8 / 40
Anatomia patológica
Relatórios de exame

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
9 / 40
Anatomia patológica
Relatórios de exame

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
10 / 40
Projecto
Objectivo

digitalização dos relatórios (OCR)
extracção de conteúdo (NLP)
codificação com SNOMED CT (Systematized Nomenclature
Of Medicine Clinical Terms)
conceitos, descrições e relações
(Clinical finding/disorder, Procedure/intervention, Observable
entity, Body structure, Organism, Substance,
Pharmaceutical/biologic product, Specimen, Special
concept, Physical object, Physical force, Event, Environment
or geographical location, Social context, Staging and scales)

ferramenta de consulta
.. e exploração estatística

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
11 / 40
EXTRACÇÃO
DE
CONTEÚDO

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
12 / 40
Análise de imagem
Extracção de conteúdo

aquisição da imagem
processamento prévio
detecção de orientação (retrato ou paisagem)
correcção de inclinação
simplificação de cor (escala de cinzentos ou PB)
eliminação de ruído positivo e negativo
convoluções (unblur, detectores de fronteira, ...)

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
13 / 40
Análise de imagem
Extracção de características

smooth
threshold
erode
delate
contours

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
14 / 40
Análise de imagem
Extracção de características

segmentação do documento
extracção de caracteres
identificação de características
classificação

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
15 / 40
Reconhecimento de padrões
OCR - Identificação de características

utilização de descritores de forma
baseado em contornos
baseados em áreas

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
16 / 40
Reconhecimento de padrões
Classificação

agrupamento das características observadas em classes
eficiência dependente da relação
variabilidade da característica dentro de uma classe
variabilidade da característica entre classes

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
17 / 40
Reconhecimento de padrões
Classificadores

rede neuronal (perceptrão multi-layer) (MLP)
k-vizinhos mais próximos (knn)

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
18 / 40
MOMENTOS
INVARIANTES
Descritores de forma baseados em controno

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
19 / 40
Momentos invariantes
Definição

soma das intensidades dos pixeis de uma imagem
escala de cinzentos
RGB - implica o cálculo de momentos por canal
imagens binárias (P/B) interesse particular
área, centroide, orientação

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
20 / 40
Momentos invariantes
Origem

teoria dos invariantes algébricos (séc. XIX)
relações com a física
relações com a estatística

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
21 / 40
Momentos invariantes
Esboço de definição

têm em conta as duas dimensões da imagem (x, y)
possuem graus (ordens) de acordo com o peso
(ponderação) que se pretenda dar a cada uma das
componentes (x, y)

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
22 / 40
Momentos invariantes
Exemplo

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
23 / 40
Momentos invariantes
Momentos geométricos

Momento geométrico de ordem(i + j )

mij =

∑ ∑ x i y j · I (x, y )
x

y

I (x, y ) → intensidade do pixel na posição(x, y )
m00 → área ocupada pela imagem; número de pixeis da imagem
m
x = 10 → ordenada central
m00
m
y = 01 → abcissa central
m00
David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
24 / 40
Momentos invariantes
Momentos centrados

µij =

∑ ∑(x − x )i (y − y )j · I (x, y )
x

y

invariantes a translações e a inversões (! sinal)
m10
→ ordenada central
m00
m
y = 01 → abcissa central
m00

x=

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
25 / 40
Momentos centrados
Detecção de orientação

A partir dos momentos centrados de segunda ordem:

µ20 =

µ20
µ00

µ02
µ00
µ
= 11
µ00

µ02 =
µ11

Θ=

David Fernandes (UAb)

2µ11
1
atan(
)
2
µ20 − µ02

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
26 / 40
Momentos invariantes
Momentos normalizados

ηij =

µij
(1 + i +j )
2

µ00

adicionam invariância a escala

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
27 / 40
Momentos invariantes

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
28 / 40
Momentos invariantes

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
29 / 40
Momentos invariantes

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
30 / 40
Momentos invariantes
Momentos de Hu

Sete momentos propostos por M. K. Hu em 1962,calculados a
partir de momentos normalizados de segunda e terceira ordens:
I1 = η20 + η02
2
I2 = (η20 − η02 )2 + 4η11

···
I7 = (3µ21 − η03 )(η30 + η12 )[(η30 + η12 )2 − 3(η21 + η03 )2 ] − · · ·
apresentam invariância adicional a rotação

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
31 / 40
CLASSIFICAÇÃO

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
32 / 40
Classificação
Redes neuronais

modelo de neurónio de McCulloch e Pitts (1942)

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
33 / 40
Classificação
Redes neuronais

Figura: Sigmoide

f (x ) = β

David Fernandes (UAb)

1 − e−αx
1 + e−αx

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
34 / 40
Classificação
MLP - Multi-layer perceptron

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
35 / 40
MLP - Multi-layer perceptron
Treino

fornecimento de entradas e saídas esperadas
inicialização dos pesos
cálculo das saídas e do erro em relação ao esperado
propagação inversa do erro pelos pesos
recálculo das saídas
...

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
36 / 40
RESULTADOS

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
37 / 40
Resultados

.... em curso

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
38 / 40
CONCLUSÃO

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
39 / 40
Conclusão

muitos, variados e aliciantes pontos de interesse
problemas gráficos
relacionados com IA e ML
NLP
estruturação de informação ... desestruturada
desenvolvimento WEB
etc

David Fernandes (UAb)

Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
40 / 40

Mais conteúdo relacionado

Semelhante a Inforaberta2013 ocr-anatomia-patologica

biossegurança amostras laboratoriais 2012
biossegurança amostras laboratoriais 2012biossegurança amostras laboratoriais 2012
biossegurança amostras laboratoriais 2012Hosana maniero
 
A importância da radiologia na identificação e tratamento da covid 19 – tecno...
A importância da radiologia na identificação e tratamento da covid 19 – tecno...A importância da radiologia na identificação e tratamento da covid 19 – tecno...
A importância da radiologia na identificação e tratamento da covid 19 – tecno...HELENO FAVACHO
 
Como é trabalhar em um serviço de radioterapia (físico médico)
Como é trabalhar em um serviço de radioterapia (físico médico)Como é trabalhar em um serviço de radioterapia (físico médico)
Como é trabalhar em um serviço de radioterapia (físico médico)Lucas Radicchi
 
Radioterapia no Cancro da Próstata
Radioterapia no Cancro da PróstataRadioterapia no Cancro da Próstata
Radioterapia no Cancro da PróstataRui P Rodrigues
 
Radiografia panorâmica
Radiografia panorâmicaRadiografia panorâmica
Radiografia panorâmicaWaldenei Dias
 
01 liv rx princ term p rad 01a 62
01  liv rx princ term p rad  01a 6201  liv rx princ term p rad  01a 62
01 liv rx princ term p rad 01a 62Luanapqt
 
Técnica radiológica médica básica e avançada - luiz fernando boisson- 2007
Técnica radiológica médica   básica e avançada - luiz fernando boisson- 2007Técnica radiológica médica   básica e avançada - luiz fernando boisson- 2007
Técnica radiológica médica básica e avançada - luiz fernando boisson- 2007cezarlima35
 
Slides da aula de Biologia (Marcelo) sobre Introdução à Citogenética
Slides da aula de Biologia (Marcelo) sobre Introdução à CitogenéticaSlides da aula de Biologia (Marcelo) sobre Introdução à Citogenética
Slides da aula de Biologia (Marcelo) sobre Introdução à CitogenéticaTurma Olímpica
 
Utilização de ferramentas de proteção radiologica
Utilização de ferramentas de proteção radiologicaUtilização de ferramentas de proteção radiologica
Utilização de ferramentas de proteção radiologicaGuillermo Alberto López
 
Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaLeandro Lima
 

Semelhante a Inforaberta2013 ocr-anatomia-patologica (20)

Fatana 2012
Fatana 2012Fatana 2012
Fatana 2012
 
Cardiologia nuclear
Cardiologia nuclearCardiologia nuclear
Cardiologia nuclear
 
biossegurança amostras laboratoriais 2012
biossegurança amostras laboratoriais 2012biossegurança amostras laboratoriais 2012
biossegurança amostras laboratoriais 2012
 
A importância da radiologia na identificação e tratamento da covid 19 – tecno...
A importância da radiologia na identificação e tratamento da covid 19 – tecno...A importância da radiologia na identificação e tratamento da covid 19 – tecno...
A importância da radiologia na identificação e tratamento da covid 19 – tecno...
 
Como é trabalhar em um serviço de radioterapia (físico médico)
Como é trabalhar em um serviço de radioterapia (físico médico)Como é trabalhar em um serviço de radioterapia (físico médico)
Como é trabalhar em um serviço de radioterapia (físico médico)
 
Radioterapia no Cancro da Próstata
Radioterapia no Cancro da PróstataRadioterapia no Cancro da Próstata
Radioterapia no Cancro da Próstata
 
Radiografia panorâmica
Radiografia panorâmicaRadiografia panorâmica
Radiografia panorâmica
 
Higiene copia
Higiene   copiaHigiene   copia
Higiene copia
 
Temas
TemasTemas
Temas
 
37º Congresso Brasileiro de Medicina Farmacêutica | Dr. Arnaldo Colombo
37º Congresso Brasileiro de Medicina Farmacêutica | Dr. Arnaldo Colombo37º Congresso Brasileiro de Medicina Farmacêutica | Dr. Arnaldo Colombo
37º Congresso Brasileiro de Medicina Farmacêutica | Dr. Arnaldo Colombo
 
01 liv rx princ term p rad 01a 62
01  liv rx princ term p rad  01a 6201  liv rx princ term p rad  01a 62
01 liv rx princ term p rad 01a 62
 
Técnica radiológica médica básica e avançada - luiz fernando boisson- 2007
Técnica radiológica médica   básica e avançada - luiz fernando boisson- 2007Técnica radiológica médica   básica e avançada - luiz fernando boisson- 2007
Técnica radiológica médica básica e avançada - luiz fernando boisson- 2007
 
Slides da aula de Biologia (Marcelo) sobre Introdução à Citogenética
Slides da aula de Biologia (Marcelo) sobre Introdução à CitogenéticaSlides da aula de Biologia (Marcelo) sobre Introdução à Citogenética
Slides da aula de Biologia (Marcelo) sobre Introdução à Citogenética
 
Apresentação do Simpósio.pptx
Apresentação do Simpósio.pptxApresentação do Simpósio.pptx
Apresentação do Simpósio.pptx
 
New Tom Cbct
New Tom CbctNew Tom Cbct
New Tom Cbct
 
Peculiaridades nas práticas de publicação das Ciências da Saúde no Brasil: re...
Peculiaridades nas práticas de publicação das Ciências da Saúde no Brasil: re...Peculiaridades nas práticas de publicação das Ciências da Saúde no Brasil: re...
Peculiaridades nas práticas de publicação das Ciências da Saúde no Brasil: re...
 
Peculiaridades nas práticas de publicação das Ciências da Saúde no Brasil: re...
Peculiaridades nas práticas de publicação das Ciências da Saúde no Brasil: re...Peculiaridades nas práticas de publicação das Ciências da Saúde no Brasil: re...
Peculiaridades nas práticas de publicação das Ciências da Saúde no Brasil: re...
 
Utilização de ferramentas de proteção radiologica
Utilização de ferramentas de proteção radiologicaUtilização de ferramentas de proteção radiologica
Utilização de ferramentas de proteção radiologica
 
Rp Bs Ind Ex
Rp Bs Ind ExRp Bs Ind Ex
Rp Bs Ind Ex
 
Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em Bioinformática
 

Inforaberta2013 ocr-anatomia-patologica

  • 1. Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados. OCR através de momentos invariantes David Fernandes UAb 9 de Março de 2013 david.paiva.fernandes@gmail.com David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic 9 de Março de 2013 1 / 40
  • 2. Orientação Professora Gracinda Carvalho (UAb) Dra Cristina Gonçalves (Hospital de Santo António - CHP) Apoio Laboratório de Anatomia Patológica Doutores J Pereira Guedes, Silva Caspurro e Manuel Dias David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic 9 de Março de 2013 2 / 40
  • 3. PROJECTO David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic 9 de Março de 2013 3 / 40
  • 4. Projecto Anatomia patológica especialidade médica diagnostica doenças exame macroscópico de peças cirúrgicas exame microscópico de células (citologia) e tecidos (histologia) biopsia, raspagem, agulha produção de relatório David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic 9 de Março de 2013 4 / 40
  • 5. Anatomia patológica Relatórios de exame texto livre identificação do paciente informação sobre a colheita imagem microscópica das células/tecidos descrição das peças/tecidos => observação macroscópica observação microscópica diagnóstico David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic 9 de Março de 2013 5 / 40
  • 6. Anatomia patológica Relatórios de exame 5747 Hoover Blvd Tampa, Florida 33634 Phone: Fax: 813.884.2849 813.890.0143 Patient Name Accession Number SAMPLE, PATIENT Sex M Age (DOB) 55 (09/29/1949) 1REL-05-03358 Account Number 1 Chart Number Collected 3/2/2005 SAMPLE CLIENT Requesting Physician Received 1234 Test Street Tampa, Florida 33333 SAMPLE PHYSICIAN, M.D. 3/2/2005 Referring Physician Reported 3/3/2005 813.123.4567 Clinical Data IRON DEFICIENCY ANEMIA PATHOLOGY REPORT SPECIMEN 01 CECUM COLON, BIOPSY MICROSCOPIC DESCRIPTION Colonic tissue fragments showing irregularly shaped malignant tumor glands lined by pleomorphic cells with nuclear hyperchromasia. Malignant cells infiltrate the submucosa and have an associated desmoplastic and inflammatory response. SPECIMEN 01, CECUM COLON, BIOPSY: DIAGNOSIS: Colonic tissue fragments with invasive adenocarcinoma, well to moderately differentiated. GROSS DESCRIPTION: Received in formalin, labeled with the patient's name and "cecal mass biopsy" are multiple portions of tan-white soft tissue measuring 0.6 x 0.6 x 0.2 cm in aggregate, which are submitted in toto in one cassette labeled 1A. kaf/m SPECIMEN 02, DESCENDING COLON, BIOPSY: DIAGNOSIS: Tubular adenoma (adenomatous polyp). GROSS DESCRIPTION: Received in formalin, labeled with the patient's name and "descending colon polyp" is a tan-pink polyp measuring 0.7 x 0.7 x 0.3 cm. The specimen is bisected and submitted in its entirety in one cassette labeled 2A. kaf/s MICROSCOPIC DESCRIPTION: Polypoid colonic mucosa with increased number of glands, glandular crowding and mucin depletion in some of the glands. The glands are lined by cells with enlarged and hyperchromatic nuclei. CASE COMMENTS: Dr. Sample's office has been notified of the findings by telephone on 3/3/05. David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic 9 de Março de 2013 6 / 40
  • 7. Anatomia patológica Relatórios de exame Page 1 PATIENT INFORMATION JOHN DOE Age: 84 years Date of Birth: 11/09/23 Location/ID: PRIVATE OFFICE PHYSICIAN SPECIMEN INFORMATION JOHN SMITH, M.D Accession # WCS­08­99999 1234 JOHN WAY HERCULES, CA 94547 Collected: Received: Reported: 02/17/2008 02/18/2008 02/20/2008 SPECIMEN SITE / COMMENTS 1. SPECIMEN SITE ­ PROSTATE, LEFT BASE 2. SPECIMEN SITE ­ PROSTATE, LEFT LATERAL BASE 3. SPECIMEN SITE ­ PROSTATE, RIGHT BASE GROSS DESCRIPTION 1. Left base ­ Two cores measuring from 1.5 to 1.7 cm. Labeled "L21." 2. Left lateral base ­ Two cores measuring from 1.3 to 1.6 cm. Labeled "L2."  3. Right base ­ One core measuring 1.6 cm. Labeled "R1." MICROSCOPIC DESCRIPTION The biopsies show a malignant neoplasm composed of small tubular glands which in many areas form single cells and cribriform structures. FINAL DIAGNOSIS 1. Prostate, left base, needle biopsy ­ ADENOCARCINOMA, GLEASON SCORE OF 4+4. ­ TUMOR OCCUPIES APPROXIMATELY 70% OF THE BIOPSY VOLUME. 2. Prostate, left lateral base, needle biopsy ­ ADENOCARCINOMA, GLEASON SCORE OF 4+4. ­ TUMOR OCCUPIES APPROXIMATELY 80% OF THE BIOPSY VOLUME. 3. Prostate, right base, needle biopsy ­ ADENOCARCINOMA, GLEASON SCORE OF 3+4. ­ TUMOR OCCUPIES APPROXIMATELY 50% OF THE BIOPSY VOLUME. John Com pagno, M.D. David Fernandes (UAb) Original Report Review ed and Verified Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic 9 de Março de 2013 7 / 40
  • 8. Anatomia patológica Relatórios de exame Page 1 PATIENT INFORMATION JOHN DOE Age: 45 years Date of Birth: 03/22/62 Location/ID: 123456 PHYSICIAN SPECIMEN INFORMATION JOHN SMITH, M.D Accession # WCC­08­99999 1234 JOHN WAY HERCULES, CA 94547 Collected: Received: Reported: 01/11/2008 01/12/2008 01/13/2008 SPECIMEN SITE / COMMENTS * SPECIMEN SITE ­ URINE CYTOLOGY GROSS DESCRIPTION Received is 150 cc`s of yellow fluid which is used for the preparation of a ThinPrep. MICROSCOPIC DESCRIPTION The urine cytology shows individual urothelial cells. They show small central nuclei without increased N/C ratios. Papillary clusters are not seen. There is an increase in the amount of inflammation with numerous clusters of neutrophils.  FINAL DIAGNOSIS Urine cytology ­ ABUNDANT ACUTE INFLAMMATION. ­ NO MALIGNANT CHANGES SEEN. Wayne Garrett, D.O. Pathologist Original Report Review ed and Verified David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic 9 de Março de 2013 8 / 40
  • 9. Anatomia patológica Relatórios de exame David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic 9 de Março de 2013 9 / 40
  • 10. Anatomia patológica Relatórios de exame David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 10 / 40
  • 11. Projecto Objectivo digitalização dos relatórios (OCR) extracção de conteúdo (NLP) codificação com SNOMED CT (Systematized Nomenclature Of Medicine Clinical Terms) conceitos, descrições e relações (Clinical finding/disorder, Procedure/intervention, Observable entity, Body structure, Organism, Substance, Pharmaceutical/biologic product, Specimen, Special concept, Physical object, Physical force, Event, Environment or geographical location, Social context, Staging and scales) ferramenta de consulta .. e exploração estatística David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 11 / 40
  • 12. EXTRACÇÃO DE CONTEÚDO David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 12 / 40
  • 13. Análise de imagem Extracção de conteúdo aquisição da imagem processamento prévio detecção de orientação (retrato ou paisagem) correcção de inclinação simplificação de cor (escala de cinzentos ou PB) eliminação de ruído positivo e negativo convoluções (unblur, detectores de fronteira, ...) David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 13 / 40
  • 14. Análise de imagem Extracção de características smooth threshold erode delate contours David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 14 / 40
  • 15. Análise de imagem Extracção de características segmentação do documento extracção de caracteres identificação de características classificação David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 15 / 40
  • 16. Reconhecimento de padrões OCR - Identificação de características utilização de descritores de forma baseado em contornos baseados em áreas David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 16 / 40
  • 17. Reconhecimento de padrões Classificação agrupamento das características observadas em classes eficiência dependente da relação variabilidade da característica dentro de uma classe variabilidade da característica entre classes David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 17 / 40
  • 18. Reconhecimento de padrões Classificadores rede neuronal (perceptrão multi-layer) (MLP) k-vizinhos mais próximos (knn) David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 18 / 40
  • 19. MOMENTOS INVARIANTES Descritores de forma baseados em controno David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 19 / 40
  • 20. Momentos invariantes Definição soma das intensidades dos pixeis de uma imagem escala de cinzentos RGB - implica o cálculo de momentos por canal imagens binárias (P/B) interesse particular área, centroide, orientação David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 20 / 40
  • 21. Momentos invariantes Origem teoria dos invariantes algébricos (séc. XIX) relações com a física relações com a estatística David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 21 / 40
  • 22. Momentos invariantes Esboço de definição têm em conta as duas dimensões da imagem (x, y) possuem graus (ordens) de acordo com o peso (ponderação) que se pretenda dar a cada uma das componentes (x, y) David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 22 / 40
  • 23. Momentos invariantes Exemplo David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 23 / 40
  • 24. Momentos invariantes Momentos geométricos Momento geométrico de ordem(i + j ) mij = ∑ ∑ x i y j · I (x, y ) x y I (x, y ) → intensidade do pixel na posição(x, y ) m00 → área ocupada pela imagem; número de pixeis da imagem m x = 10 → ordenada central m00 m y = 01 → abcissa central m00 David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 24 / 40
  • 25. Momentos invariantes Momentos centrados µij = ∑ ∑(x − x )i (y − y )j · I (x, y ) x y invariantes a translações e a inversões (! sinal) m10 → ordenada central m00 m y = 01 → abcissa central m00 x= David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 25 / 40
  • 26. Momentos centrados Detecção de orientação A partir dos momentos centrados de segunda ordem: µ20 = µ20 µ00 µ02 µ00 µ = 11 µ00 µ02 = µ11 Θ= David Fernandes (UAb) 2µ11 1 atan( ) 2 µ20 − µ02 Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 26 / 40
  • 27. Momentos invariantes Momentos normalizados ηij = µij (1 + i +j ) 2 µ00 adicionam invariância a escala David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 27 / 40
  • 28. Momentos invariantes David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 28 / 40
  • 29. Momentos invariantes David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 29 / 40
  • 30. Momentos invariantes David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 30 / 40
  • 31. Momentos invariantes Momentos de Hu Sete momentos propostos por M. K. Hu em 1962,calculados a partir de momentos normalizados de segunda e terceira ordens: I1 = η20 + η02 2 I2 = (η20 − η02 )2 + 4η11 ··· I7 = (3µ21 − η03 )(η30 + η12 )[(η30 + η12 )2 − 3(η21 + η03 )2 ] − · · · apresentam invariância adicional a rotação David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 31 / 40
  • 32. CLASSIFICAÇÃO David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 32 / 40
  • 33. Classificação Redes neuronais modelo de neurónio de McCulloch e Pitts (1942) David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 33 / 40
  • 34. Classificação Redes neuronais Figura: Sigmoide f (x ) = β David Fernandes (UAb) 1 − e−αx 1 + e−αx Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 34 / 40
  • 35. Classificação MLP - Multi-layer perceptron David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 35 / 40
  • 36. MLP - Multi-layer perceptron Treino fornecimento de entradas e saídas esperadas inicialização dos pesos cálculo das saídas e do erro em relação ao esperado propagação inversa do erro pelos pesos recálculo das saídas ... David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 36 / 40
  • 37. RESULTADOS David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 37 / 40
  • 38. Resultados .... em curso David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 38 / 40
  • 39. CONCLUSÃO David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 39 / 40
  • 40. Conclusão muitos, variados e aliciantes pontos de interesse problemas gráficos relacionados com IA e ML NLP estruturação de informação ... desestruturada desenvolvimento WEB etc David Fernandes (UAb) Extracção e codificação de conteúdo de relatóriosde Março de 2013 9 de exames anatomo-patológic 40 / 40