1. Extracção e codificação de conteúdo de
relatórios de exames anatomo-patológicos
dactilografados.
OCR através de momentos invariantes
David Fernandes
UAb
9 de Março de 2013
david.paiva.fernandes@gmail.com
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
1 / 40
2. Orientação
Professora Gracinda Carvalho (UAb)
Dra Cristina Gonçalves (Hospital de Santo António - CHP)
Apoio
Laboratório de Anatomia Patológica Doutores J Pereira
Guedes, Silva Caspurro e Manuel Dias
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
2 / 40
4. Projecto
Anatomia patológica
especialidade médica
diagnostica doenças
exame macroscópico de peças cirúrgicas
exame microscópico de células (citologia) e tecidos
(histologia)
biopsia, raspagem, agulha
produção de relatório
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
4 / 40
5. Anatomia patológica
Relatórios de exame
texto livre
identificação do paciente
informação sobre a colheita
imagem microscópica das células/tecidos
descrição das peças/tecidos => observação macroscópica
observação microscópica
diagnóstico
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
5 / 40
6. Anatomia patológica
Relatórios de exame
5747 Hoover Blvd
Tampa, Florida 33634
Phone:
Fax:
813.884.2849
813.890.0143
Patient Name
Accession Number
SAMPLE, PATIENT
Sex
M
Age (DOB)
55 (09/29/1949)
1REL-05-03358
Account
Number
1
Chart
Number
Collected
3/2/2005
SAMPLE CLIENT
Requesting Physician
Received
1234 Test Street
Tampa, Florida 33333
SAMPLE PHYSICIAN, M.D.
3/2/2005
Referring Physician
Reported
3/3/2005
813.123.4567
Clinical Data
IRON DEFICIENCY ANEMIA
PATHOLOGY REPORT
SPECIMEN 01 CECUM COLON, BIOPSY
MICROSCOPIC DESCRIPTION
Colonic tissue fragments showing irregularly shaped malignant tumor glands
lined by pleomorphic cells with nuclear hyperchromasia. Malignant cells
infiltrate the submucosa and have an associated desmoplastic and
inflammatory response.
SPECIMEN 01, CECUM COLON, BIOPSY:
DIAGNOSIS:
Colonic tissue fragments with invasive adenocarcinoma, well to moderately differentiated.
GROSS DESCRIPTION: Received in formalin, labeled with the patient's name and "cecal mass biopsy" are multiple portions of
tan-white soft tissue measuring 0.6 x 0.6 x 0.2 cm in aggregate, which are submitted in toto in one cassette labeled 1A. kaf/m
SPECIMEN 02, DESCENDING COLON, BIOPSY:
DIAGNOSIS:
Tubular adenoma (adenomatous polyp).
GROSS DESCRIPTION: Received in formalin, labeled with the patient's name and "descending colon polyp" is a tan-pink polyp
measuring 0.7 x 0.7 x 0.3 cm. The specimen is bisected and submitted in its entirety in one cassette labeled 2A. kaf/s
MICROSCOPIC DESCRIPTION: Polypoid colonic mucosa with increased number of glands, glandular crowding and mucin
depletion in some of the glands. The glands are lined by cells with enlarged and hyperchromatic nuclei.
CASE COMMENTS: Dr. Sample's office has been notified of the findings by telephone on 3/3/05.
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
6 / 40
7. Anatomia patológica
Relatórios de exame
Page 1
PATIENT INFORMATION
JOHN DOE
Age: 84 years
Date of Birth: 11/09/23
Location/ID: PRIVATE OFFICE
PHYSICIAN
SPECIMEN INFORMATION
JOHN SMITH, M.D
Accession # WCS0899999
1234 JOHN WAY
HERCULES, CA 94547
Collected:
Received:
Reported:
02/17/2008
02/18/2008
02/20/2008
SPECIMEN SITE / COMMENTS
1. SPECIMEN SITE PROSTATE, LEFT BASE
2. SPECIMEN SITE PROSTATE, LEFT LATERAL BASE
3. SPECIMEN SITE PROSTATE, RIGHT BASE
GROSS DESCRIPTION
1. Left base Two cores measuring from 1.5 to 1.7 cm. Labeled "L21."
2. Left lateral base Two cores measuring from 1.3 to 1.6 cm. Labeled "L2."
3. Right base One core measuring 1.6 cm. Labeled "R1."
MICROSCOPIC DESCRIPTION
The biopsies show a malignant neoplasm composed of small tubular glands which in many areas form single cells and cribriform
structures.
FINAL DIAGNOSIS
1. Prostate, left base, needle biopsy
ADENOCARCINOMA, GLEASON SCORE OF 4+4.
TUMOR OCCUPIES APPROXIMATELY 70% OF THE BIOPSY VOLUME.
2. Prostate, left lateral base, needle biopsy
ADENOCARCINOMA, GLEASON SCORE OF 4+4.
TUMOR OCCUPIES APPROXIMATELY 80% OF THE BIOPSY VOLUME.
3. Prostate, right base, needle biopsy
ADENOCARCINOMA, GLEASON SCORE OF 3+4.
TUMOR OCCUPIES APPROXIMATELY 50% OF THE BIOPSY VOLUME.
John Com pagno, M.D.
David Fernandes (UAb)
Original Report Review ed and Verified
Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
7 / 40
8. Anatomia patológica
Relatórios de exame
Page 1
PATIENT INFORMATION
JOHN DOE
Age: 45 years
Date of Birth: 03/22/62
Location/ID: 123456
PHYSICIAN
SPECIMEN INFORMATION
JOHN SMITH, M.D
Accession # WCC0899999
1234 JOHN WAY
HERCULES, CA 94547
Collected:
Received:
Reported:
01/11/2008
01/12/2008
01/13/2008
SPECIMEN SITE / COMMENTS
* SPECIMEN SITE URINE CYTOLOGY
GROSS DESCRIPTION
Received is 150 cc`s of yellow fluid which is used for the preparation of a
ThinPrep.
MICROSCOPIC DESCRIPTION
The urine cytology shows individual urothelial cells. They show small central nuclei without increased N/C ratios. Papillary clusters are
not seen. There is an increase in the amount of inflammation with numerous clusters of neutrophils.
FINAL DIAGNOSIS
Urine cytology
ABUNDANT ACUTE INFLAMMATION.
NO MALIGNANT CHANGES SEEN.
Wayne Garrett, D.O. Pathologist
Original Report Review ed and Verified
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
8 / 40
9. Anatomia patológica
Relatórios de exame
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatórios de exames anatomo-patológic
9 de Março de 2013
9 / 40
10. Anatomia patológica
Relatórios de exame
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
10 / 40
11. Projecto
Objectivo
digitalização dos relatórios (OCR)
extracção de conteúdo (NLP)
codificação com SNOMED CT (Systematized Nomenclature
Of Medicine Clinical Terms)
conceitos, descrições e relações
(Clinical finding/disorder, Procedure/intervention, Observable
entity, Body structure, Organism, Substance,
Pharmaceutical/biologic product, Specimen, Special
concept, Physical object, Physical force, Event, Environment
or geographical location, Social context, Staging and scales)
ferramenta de consulta
.. e exploração estatística
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
11 / 40
13. Análise de imagem
Extracção de conteúdo
aquisição da imagem
processamento prévio
detecção de orientação (retrato ou paisagem)
correcção de inclinação
simplificação de cor (escala de cinzentos ou PB)
eliminação de ruído positivo e negativo
convoluções (unblur, detectores de fronteira, ...)
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
13 / 40
14. Análise de imagem
Extracção de características
smooth
threshold
erode
delate
contours
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
14 / 40
15. Análise de imagem
Extracção de características
segmentação do documento
extracção de caracteres
identificação de características
classificação
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
15 / 40
16. Reconhecimento de padrões
OCR - Identificação de características
utilização de descritores de forma
baseado em contornos
baseados em áreas
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
16 / 40
17. Reconhecimento de padrões
Classificação
agrupamento das características observadas em classes
eficiência dependente da relação
variabilidade da característica dentro de uma classe
variabilidade da característica entre classes
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
17 / 40
18. Reconhecimento de padrões
Classificadores
rede neuronal (perceptrão multi-layer) (MLP)
k-vizinhos mais próximos (knn)
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
18 / 40
19. MOMENTOS
INVARIANTES
Descritores de forma baseados em controno
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
19 / 40
20. Momentos invariantes
Definição
soma das intensidades dos pixeis de uma imagem
escala de cinzentos
RGB - implica o cálculo de momentos por canal
imagens binárias (P/B) interesse particular
área, centroide, orientação
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
20 / 40
21. Momentos invariantes
Origem
teoria dos invariantes algébricos (séc. XIX)
relações com a física
relações com a estatística
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
21 / 40
22. Momentos invariantes
Esboço de definição
têm em conta as duas dimensões da imagem (x, y)
possuem graus (ordens) de acordo com o peso
(ponderação) que se pretenda dar a cada uma das
componentes (x, y)
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
22 / 40
24. Momentos invariantes
Momentos geométricos
Momento geométrico de ordem(i + j )
mij =
∑ ∑ x i y j · I (x, y )
x
y
I (x, y ) → intensidade do pixel na posição(x, y )
m00 → área ocupada pela imagem; número de pixeis da imagem
m
x = 10 → ordenada central
m00
m
y = 01 → abcissa central
m00
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
24 / 40
25. Momentos invariantes
Momentos centrados
µij =
∑ ∑(x − x )i (y − y )j · I (x, y )
x
y
invariantes a translações e a inversões (! sinal)
m10
→ ordenada central
m00
m
y = 01 → abcissa central
m00
x=
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
25 / 40
26. Momentos centrados
Detecção de orientação
A partir dos momentos centrados de segunda ordem:
µ20 =
µ20
µ00
µ02
µ00
µ
= 11
µ00
µ02 =
µ11
Θ=
David Fernandes (UAb)
2µ11
1
atan(
)
2
µ20 − µ02
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
26 / 40
27. Momentos invariantes
Momentos normalizados
ηij =
µij
(1 + i +j )
2
µ00
adicionam invariância a escala
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
27 / 40
28. Momentos invariantes
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
28 / 40
29. Momentos invariantes
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
29 / 40
30. Momentos invariantes
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
30 / 40
31. Momentos invariantes
Momentos de Hu
Sete momentos propostos por M. K. Hu em 1962,calculados a
partir de momentos normalizados de segunda e terceira ordens:
I1 = η20 + η02
2
I2 = (η20 − η02 )2 + 4η11
···
I7 = (3µ21 − η03 )(η30 + η12 )[(η30 + η12 )2 − 3(η21 + η03 )2 ] − · · ·
apresentam invariância adicional a rotação
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
31 / 40
33. Classificação
Redes neuronais
modelo de neurónio de McCulloch e Pitts (1942)
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
33 / 40
34. Classificação
Redes neuronais
Figura: Sigmoide
f (x ) = β
David Fernandes (UAb)
1 − e−αx
1 + e−αx
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
34 / 40
35. Classificação
MLP - Multi-layer perceptron
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
35 / 40
36. MLP - Multi-layer perceptron
Treino
fornecimento de entradas e saídas esperadas
inicialização dos pesos
cálculo das saídas e do erro em relação ao esperado
propagação inversa do erro pelos pesos
recálculo das saídas
...
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
36 / 40
38. Resultados
.... em curso
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
38 / 40
40. Conclusão
muitos, variados e aliciantes pontos de interesse
problemas gráficos
relacionados com IA e ML
NLP
estruturação de informação ... desestruturada
desenvolvimento WEB
etc
David Fernandes (UAb)
Extracção e codificação de conteúdo de relatóriosde Março de 2013
9 de exames anatomo-patológic
40 / 40