이미지 문서에서 문자인식(OCR)을 처리하여 개인정보의 포함여부에 따라, 문서를 분류하는 처리 기능을 제공합니다
Privacy OCR은 스캔, 복사, 촬영된 이미지 파일 형태의 문서, 신분증, 각종 증명서/신청서 등을 문자인식(OCR)하여 이미지 내의 개인정보 및 지문정보를 추출하여 해당 정보를 이미지 내에서 식별되지 않도록 마스킹 하는 기능을 제공합니다.
주민등록증, 개인정보, 지문정보 마스킹 기능 이미지 파일 암호화
1. 개인정보 및 지문정보 폐기(마스킹) 솔루션
Privacy OCR
www.zionsecurity.co.kr
1
상담(구축) 문의
솔루션사업부 이유신 이사
Tel : 070-4685-2648 (대)
H/P : 010-2700-2648
E-mail : zion@zionsecurity.co.kr
www.zionsecurity.co.kr
2. 개인정보 및 지문정보 폐기 배경
2
2014년 10월
국가인권위원회는 금융기관 및 이동통신사가 서비스 이용자의 주민등록증
뒷면을 복사·저장해 지문정보를 수집하는 관행이 개인정보자기결정권을
침해할 수 있다고 보고 그 동안 수집한 지문정보를 폐기하도록 안전행정부와
금융위원회, 방송통신위원회 등에 권고했다.
2015년 1월
금융위원회는 각 업권별 협회 및 모든 금융사에 ‘인권위 신분증
사본저장제도 개선권고에 대한 조치계획’을 내려 보냈다. 금융위는 본인
확인 등을 위해 신분증 사본을 저장하는 과정에서 지문 정보를 수집하지 말
것이며 앞으로 지문정보를 정보주체(고객) 동의없이 수집·이용하는 경우에는
개인정보보호법, 신용정보보호법 위반 등으로 처분할 수 있다고 밝혔다.
또 보관 중인 고객의 지문정보를 폐기할 것을 권고했다. 보관 중인 서류나
컴퓨터에 저장된 파일은 파기하고, 파기가 어려울 경우 지문 정보 부분에
구멍을 뚫거나 스티커로 가리는 식으로 대안을 강구하라고 했다.
3. 개인정보 안전성 확보조치 기준
3
개인정보 보호법에 의한 “개인정보의 안전성 확보조치 기준”에 따르면
개인정보의 일부만 파기하는 경우 복구 또는 재생되지 아니하도록 개인정보가
저장된 매체 형태에 따라 다음과 같은 조치를 하도록 한다.
(1) 전자적 파일 형태인 경우
운영체제, 응용프로그램, 상용 도구 등에서 제공하는 삭제 기능을 사용하여
삭제하거나 백업 시 파기 대상 정보를 제외한 백업을 실시하는 등의 방법을
활용하여 개인정보를 삭제한다. 또한, 복구 관련 기록·활동에 대해 모니터링
하거나 주기적 점검을 통해 비 인가된 복구에 대해 조치하는 등의 관리 및
감독을 실시하도록 한다.
(2) 기록물, 인쇄물, 서면, 그 밖의 기록매체인 경우
해당 부분을 마스킹, 천공 등으로 삭제하도록 한다. 회원가입 신청서에 기재된
주민등록번호 삭제 시, 해당 신청서에서 주민등록번호가 제거되도록 절삭,
천공 또는 펜 등으로 마스킹 하는 경우가 해당 할 수 있다.
4. 이미지 문서 개인정보보호 방안
4
이미지 문서 개인정보보호 방안
(1) 이미지내에 개인정보가 포함되어 있는지 여부를 문자인식(OCR) 처리하여 확인
(2) 개인정보가 포함되어 있다면 해당 이미지내의 개인정보가 식별되지 않도록 개인정보
영역을 마스킹 처리 또는 해당 이미지를 암호화하여 조회 불가 처리
문자인식 엔진
이미지 문자인식
텍스트 및 속성추출
개인정보 패턴 인식
개인정보 필터링 로깅
개인정보 마스킹
이미지 파일 암호화
5. 제품소개
5
Privacy OCR은 이미지 문서에서 문자인식(OCR)을 처리하여 개인정보의 포함여부에 따라,
문서를 분류하는 처리 기능을 제공합니다.
이미지 OCR
- 개인정보 필터링 인식
- 개인정보 키워드 인식
- 특정 증명서 타이틀 인식
- 문서 자동 분류
- 분류 로그 조회
개인정보포함
이미지 문서
일반
이미지 문서
파일 스토리지
처리 프로세스
(1단계) 주민번호 필터링을 하여 주민번호가 포함여부 확인 분류
(2단계) 주민번호 미탐지시 개인정보 관련 키워드 및 증명서 타이틀 인식을 통한 분류
[키워드]
: 주민번호, 주민등록번호
[증명서 인식]
: 주민등록증, 운전면허증, 여권, 주민등록등초본, 인감증명서, 가족관계증명서,
기본증명서 등
P r i v a c y O C R
6. 제품소개
6
Privacy OCR은 스캔, 복사, 촬영된 이미지 파일 형태의 문서, 신분증, 각종 증명서/신청서 등을
문자인식(OCR)하여 이미지 내의 개인정보 및 지문정보를 추출하여 해당 정보를 이미지 내에서
식별되지 않도록 마스킹 하는 기능을 제공합니다.
이미지 Input 마스킹 이미지 Output
P r i v a c y O C R
7. 제품소개
이미지 문자인식
텍스트 및 속성추출
개인정보 패턴 인식
개인정보 데이터 로깅
개인정보 마스킹 정보
생성
이미지 Input
***********
개인정보 이미지
마스킹
로그DB
개인정보
문서정보 로깅 [기타]
보안정책에 따른 기능
개발 및 연동 작업
제품소개
8. 제품소개
이미지 문자이식
텍스트 및 속성추출
이미지 서식 및 문자인식
서식 좌표추출
개인정보 마스킹 정보
생성
이미지 Input
개인정보 이미지
마스킹
로그DB
개인정보
문서정보 로깅 [기타]
보안정책에 따른 기능
개발 및 연동 작업
사전 서식 등록
제품소개
9. 지문정보 필터링 기술 특장점
9
지문정보 필터링 기술 특장점
주민등록증 뒷면 키워드 검출
검출된 키워드의 상대적 좌표에 의한
지문위치 필터링
주민등록증 뒷면 키워드가 검출되지 않는 저해상도(번짐, 훼손,
2bit 비트맵 등)의 신분증을 대상으로 지문 유사도 체크를 통한
지문위치 필터링
지문의 특징점 매칭을 통한 정합성이 아닌 유사도 임계치를
활용한 유사도 기법 사용
P r i v a c y O C R
10. 문자인식(OCR) 인식률
10
이미지 문서에 대한 100% 인식률을 가진 문자인식(OCR) 소프트웨어는 존재하지 않음
글자 인식률 : 숫자 > 영문 > 한글
필기체 인식 : 불특정 위치의 한글, 숫자 필기체 인식은 거의 불가
인식률 90% 이상 : 흰색 바탕의 인쇄체의 300DPI 이상의 이미지 파일
인식률은 이미지 파일의 DPI와 훼손상태, 글자와 바탕무늬 및 색상에 따라 달라짐
문자인식 실패(비정상으로 인식하는 경우 포함) Case
- 기울기가 20도 이상 기울어져 있는 이미지
- 문서가 심하게 사다리꼴로 촬영된 이미지
- 배경무늬로 인하여 글자와 배경의 구분이 모호한 이미지
- 글자 위에 도장 또는 서명 등으로 겹쳐진 이미지
- 너무 흐리게 복사 스캔된 글자 구분이 어려운 이미지
- 너무 진하게 복사 스캔되어 글자가 번지는 현상의 이미지
- 글자가 계단식으로 표현되거나 글자 중간에 끊어져 보이는 이미지
- 빛 반사가 들어가 글자 구분이 어려운 이미지
- 흔들려서 복사 스캔되어 글자가 늘어져 보이는 이미지 등
12. 이미지 파일 암호화 (옵션)
12
개인정보가 포함된 이미지 파일에 대한 파일 암호화
암호화 모듈 : 국가정보원 인증 암호화 모듈 사용
암호 알고리즘과 암호함수 , 프로세스를 구현한 소프트웨어 조합의 집합 형태인 동적
라이브러리 암호모듈로 API 함수를 이용하여 세부적으로 블록 암호 , 공개키암호 , 해시 ,
전자서명 전자서명 , 메시지 인증 , 난수 발생기 발생기 등과 같은 암호 서비스를 이용
13. 제품 지원 환경
13
OCR서버 OS 및 사양
• Windows 2008 Server Standard 64bit 이상
• Intel Xeon 2.3Ghz 4-Core 이상
• Memory 8GB 이상
• Image : JPG, PNG, BMP, GIF, TIFF, PDF
• License : CPU Core 수 (4-Core기본 + 2배수(4, 8, 16))
- 배치처리 시 총 처리 이미지 건수 및 마스킹 처리 기간, 실시간 처리시 동시처리건수 및
마스킹 처리 시간을 고려하여 CPU Core 개수의 라이선스 산정
Software
Windows 2012 Server – 64bit
MS SQL Server – 64bit
Tomcat, Java VM
이미지 개인정보보호 S/W
Code1 Privacy OCR
Server Engine
Image File Interface Module
이미지 OCR서버
DB
OCR서버 License Key 방식
- Real Server : 소프트웨어 Key
- VM Server : USB동글 하드웨어 Key-Lock
P r i v a c y O C R
14. 개인정보 및 지문정보 폐기 고려사항
14
(1) 총 처리대상 이미지 건수
: 배치처리 시 검색 대상의 모든 이미지 건수(파일 수)
: 실시간 처리 시에는 동시처리 예상이미지 건수(파일 수)
(2) 자동화 마스킹 처리로 언제까지 할 것인지에 대한 기간산정
: 상기 (1)의 배치처리 시 건수에 대한 목표 처리기간
: 총 처리대상 이미지 건수와 목표 처리기간에 따라 H/W 사양 및 대수
S/W 라이런스를 산정
(3) 수동 마스킹 처리 및 육안 검사
: 자동화 마스킹 처리 되지 못한 이미지에 대한 수동 마스킹 처리
: 수동 마스킹 처리를 위해서는 육안 검사가 병행되어함
: 육안 검사 및 수동 마스킹 처리를 위한 용역기간 및 인원 산정
15. OCR엔진 소개
15
ABBYY FineReader Engine(1)은 OCR (인쇄체) , ICR (필기체) , OMR (체크마크), BCR
(명함인식), 1/2차원 바코드 인식뿐만 아니라, 강력하고 간단한 API를 통해 엔진의 모든 기능
상세 제어할 수 있는 세계 최고 OCR 인식률을 보유한 지능형 OCR엔진입니다.
Code1 Privacy OCR은 ABBYY FineReader Engine을 기반으로하여 최적화된 성능과 강력한
문자인식 및 문서처리 기능을 제공합니다.
이미지 가져오기 스캐너, 메모리, 이미지 파일 등 다양한 포맷에서 이미지 가져오기
이미지 전처리 이미지를 보관하거나 인식하기 위하여 이미지 품질을 향상시키는 다양한 이미지 보정 제공
문서 분석 문서 전체를 논리적으로 분석, 문서 레이아웃 유지 또는 수동으로 블록 지정, 송장 번호 등을 위한 특수
분석, 이미지 위 텍스트 찾기 모드, 자동 문서 변환 기능 등
OCR 및 다른 인식 기술 폭넓은 OCR 언어 지원 및 ICR , OMR , 바코드 인식, 패턴 훈련과 사용자 언어 생성 등 특수 기능
인식된 텍스트 내보내기 인식된 결과 Export에 대한 다양한 매개변수 옵션, 이미지 해상도, 문서 레이아웃 재구성 등
※ (1) ABBYY FineReader는 세계적인 OCR, ICR, 데이터 / 문서 캡처 솔루션 전문 기업인 ABBYY사 OCR엔진 제품입니다.