"Dataset and metrics for predicting local visible differences" Paper Review
SIGGRAPH 2018 참석 후기 및 논문 리뷰
Dataset and metrics for predicting local visible differences
수아랩 이호성
SIGGRAPH 2018
• SIGGRAPH(Special Interest Group on Graphics and Interactive Techniques)
• 컴퓨터 그래픽스의 최대 규모를 자랑하는 컨퍼런스
• 8.12(일) ~ 8.16(목) 캐나다 밴쿠버에서 개최
SIGGRAPH 2018 – Exhibition
• 각종 그래픽스, VR/AR 등 다양한 주제의 데모, 포스터, 전시 활발
• VR Theater, Electronic Theater 등 관람할 수 있는 contents
• Technology 뿐만 아니라 Art 관련 전시회도 다수
• NVIDIA 젠슨 황 회장이 Turing 아키텍처 기반 GPU 공개
SIGGRAPH 2018 – Training
• NVIDIA의 Hands-On Training Session
• 1시간 30분 ~ 2시간 분량의 실습 수업 진행
• 정해진 수업 시간에만 사용 가능한 aws cloud 제공 및 실습 코드(jupyter notebook) 제공
• “Image Super Resolution using Autoencoders”
• “Analogous Image generation using CycleGAN”
• “Image creation using Generative Adversarial Networks in Tensorflow and DIGITS”
• “Anomaly Detection with Variational Autoencoder”
• “Image Style Transfer with Torch”
• etc (Reinforcement Learning, Character Animation)
SIGGRAPH 2018 – Technical Paper
• 굉장히 광범위한 주제의 논문 발표
• 광학, 유체, VR/AR, Sketching, 3D rendering, 음성 등
• 학회 첫날 “Fast Forward”라는 프로그램이 굉장히 인상적
• 모든 oral presentation 발표자들이 각 30초간 자신의 연구를 소개 (총 172편)
• 비디오 준비 or 말로 빠르게 ppt 발표
• https://www.youtube.com/watch?v=CV_14aUBxsI
SIGGRAPH 2018 – Paper Review
• Technical Paper의 “Perception & Haptics” Session의 논문
• “Dataset and metrics for predicting local visible differences”
Introduction
• “Dataset and metrics for predicting local visible differences”
• 질문: 사람이 인식하는 시각적 차이를 예측할 수 있을까?
• 원본 이미지가 있고, 무언가를 거친 타겟 이미지가 있을 때, 둘 간의 차이를 나타내는 metric
• 컴퓨터가 인식하는 시각적 차이는 주로 PSNR, SSIM 등의 quality metric을 사용
• 지엽적인 difference는 사람은 잘 구분하지만 위의 metric은 구분하지 못함, vice versa
• 결국 application을 위해서는 quality metric보다는 사람을 기준으로 metric을 이용할 필요
• 예시
• 배심원: 컴퓨터
• 숫자: 컴퓨터가 계산한 quality metric
• 원본 이미지가 주어졌다고 가정하고, 타겟 이미지를 보여주는 상황
Introduction
• “Dataset and metrics for predicting local visible differences”
• 질문: 사람이 인식하는 이미지간 시각적 차이를 예측할 수 있을까?
• 컴퓨터가 인식하는 시각적 차이는 주로 PSNR, SSIM 등의 numerical metric을 사용
• 사람 눈에 잘 보이는 difference들은 사람은 잘 구분하지만 위의 metric은 구분하지 못함
→ “사람이 인식하는 이미지간 시각적 차이”를 예측하는 학습 방법론 제안!
Related Work
• Image Metric
• Quality metric
• Reference image와 distorted image의 차이를 하나의 global quality score를 예측
• PSNR(Peak Signal-to-Noise Ratio), SSIM(Structural Similarity Index Metric), VSI(Visual Saliency-Induced Index), etc
• 사람이 주관적으로 평가한 지표인 MOS(Mean Opinion Score) 등의 지표도 있음
• Visibility metric
• 사람이 reference image와 distorted image를 보고 차이를 감지하는 지를 예측
• 결과를 visibility map으로 예측 → 사람이 반응하는 정도에 따라 graphics application 성능 조절에 사용
Contribution
• “사람이 인식하는 이미지간 시각적 차이”를 예측하는 학습 방법론 제안!
• 사람이 어떻게 인식하는지 학습 데이터가 필요!
• 존재하는 데이터셋 매우 부족 → largest publicly available dataset 제작!
• 취득해도 GT로 사용하기엔 noisy할 가능성 높음 → statistical modeling 방법 제안!
• 기존 방법론들보다 우수한 성능!
• CNN-based 방법론을 통해 기존 방법론들보다 우수한 방법론 제안!
• 이 방법을 기존 방법론에 적용하여 재학습 시키면 성능 향상! (이식성)
• 3가지 실험을 통해 실용적인 application에 적용 가능함 입증!
• JPEG Compression
• Super-Resolution
• Watermarking
Method
• Dataset 제작
• Visible distortion 관련 소규모의 데이터셋을 취합하여 “Stimuli” 라는 데이터셋 제작
• 총 557장으로 구성되어 있으며 각기 다른 특징(distortion)을 가짐
• 이미지에 대한 visibility map(GT) 취득을 위해 실험자를 모집하여 데이터 수집
Stimuli dataset 예시
Method
• Dataset 제작(실험 환경)
• Visible distortion 관련 소규모의 데이터셋을 취득하여 “Stimuli” 라는 데이터셋 제작
• 이미지에 대한 visibility map(GT) 취득을 위해 실험자를 모집하여 데이터 수집
• 편의성을 위해 software 제작 – visible distortion marking web application
• 46명의 실험자로부터 visibility marking data 취득 (동일한 환경, 보수 지급, 피로 방지 차원에서 여러 번에 나눠서 실험)
• 동일한 위치에 distortion magnitude를 3단계로 나눠서 차례대로(low – middle – high) marking
실험용 sofeware 예시
Method
• Dataset 제작(Data modeling)
• 실험자들로부터 취득한 data를 그대로 사용하지 않고 통계적 모델링 기법 사용
• 앞선 실험으로 얻은 data들이 Stochastic process의 결과물이므로 noisy하고 100% 신뢰하기 어렵다고 주장
• ex) 실제로 같은 이미지를 같은 사람한테 보여줬을 때 결과가 다른 경우도 있었음.
• ex) 모든 곳에 집중하는 것이 아니고, 일부 영역은 아예 집중해서 관찰하지 않는 경우도 있음.
• 그대로 사용하는 경우, biased 된 결과들의 평균의 경향만 학습 가능
• Marking tool 이용으로 인한 실수가 발생할 확률(𝑃 𝑚𝑖𝑠 = 0.01) 모델링
• 정신물리학 연구에서 흔히 사용되는 실수 확률 모델링 기법으로, 예기치 못한 실수로 인해 모델이 over penalizing 하는 것 방지
통계적 모델링 예시
Method
• Dataset 제작(Data modeling)
• 실험자가 해당 지역에 주의를 기울일 확률(𝑃𝑎𝑡𝑡) 모델링
• 사람이 모든 detectable difference에 대해서 주의를 기울이기는 힘듦.
• Distortion이 지엽적일수록 𝑃𝑎𝑡𝑡는 낮은 경향 / 사람마다 경향(실력)이 다름
• 마찬가지로 같은 사람이 같은 지역(pixel)을 볼 때도 있고 안 볼 때도 있음(noise)
• 𝑑𝑖𝑓𝑓𝑝𝑖𝑥𝑒𝑙 > 20 → 𝑃𝑑𝑒𝑡 = 1 이라는 가정 하에 확률 분포 추정
• Ω : set of all pixels (x,y) with 𝑑𝑖𝑓𝑓𝑝𝑖𝑥𝑒𝑙 > 20
통계적 모델링 예시
상황 attend detect
집중하고 발견함 O O
집중했는데 못 발견함 O X
아예 집중을 못함 X X
데이터셋간 𝑃𝑎𝑡𝑡 차이
Method
• Dataset 제작(Data modeling)
• 앞선 확률분포 모델링을 통해 최종 결과의 확률분포 모델링
• 𝑃𝑎𝑡𝑡, 𝑃𝑑𝑒𝑡 로 나눠서 modeling해서 보다 더 정확한 GT 제작
Modeling의 중요성
데이터셋에 따른 𝑃𝑑𝑒𝑡 분포
Method
• Training Process
• Siamese CNN 기반 network 구조 제안
• 기존 Siamese architecture와 다르게 각 branch 마다 다른 weight를 사용(not sharing)
• 이미지를 48x48 patch로 분할하여 학습 및 테스트 진행
GT patch
Loss
Model architecture & training process
Result
• 기존 metric 대비 높은 성능
• 대부분의 데이터셋에서 CNN 기반 제안한 방법론이 성능 우수
• 제안하는 방법론을 기존 방법에 적용하여 재학습 시 성능 우수
기존 metric 재학습 성능 기존 metric 대비 CNN 성능
Applications
• JPEG compression
• 대표적인 손실 압축 방법이며, 흔히 볼 수 있는 .jpg, .jpeg 이미지 등의 확장자를 사용
• 압축률을 높일수록 파일 크기는 줄어들지만 화질도 감소 → 적당히 압축하는 것이 중요
• 주로 고정된 압축률 사용 → 사람이 느끼는 화질에 따라 압축률을 조절하면 파일 크기를 줄일 수 있지 않을까?
JPEG 압축 화질 비교(출처: 위키백과)
오른쪽에서 왼쪽으로 갈수록 압축률 증가
JPEG 압축 화질 비교
(출처: https://sirv.com/help/resources/jpeg-quality-comparison/)
Applications
• JPEG compression
• 4AFC(four alternative forced choice) QUEST 라는 실험을 수행
• Distorted image와 정상 image 3장, 총 4장의 image를 보여주고 distorted image를 선택하도록 지시
• 압축률을 조절하며 실험자들이 75% 확률 이하로 선택하는 지점(압축률)을 찾음
• 제안하는 방법으로 찾은 압축률과 위의 실험에서 찾은 압축률 비교 실험 수행
• 제안 하는 방법의 output인 visibility map의 최대 값이 0.5를 넘어서는 지점(압축률)을 찾음
• 기존 고정 압축률 사용 대비 60% 정도 file size를 줄일 수 있음( + 약간의 화질 저하)
JPEG 압축률 유사도 실험
Applications
• Super-Resolution
• 실험을 위해 1.1 ~ 6.0 배 downsampling 후 SR 알고리즘(POCS, 2011)으로 복원한 이미지 사용
• JPEG 실험과 유사한 방식으로 진행(더 직관적인 실험 결과)
• 4AFC 실험에서 75% 이하로 맞춘 사람들의 비율(Users)과 Visible map의 최대 값의 유사도 비교
• User(ㅡㅡ) 와 CNN(ㅡㅡ) 그래프가 가장 유사
SR downsampling에 따른 유사도 실험
Applications
• Content-adaptive watermarking
• 이미지에 티 안 나게 watermark를 삽입 → 어느 위치가 티가 안 날까?
• Watermark patch(64x64)를 이미지에 삽입 (진한 patch 부터 연하게 줄이면서 실험)
• CNN metric의 output(visibility map)의 pixel maximum 값이 0.06 이하가 되는 시점의 watermark intensity를 사용
• 학습되지 않은 유형의 watermark에 대해서도 그럭저럭 잘 될 수 있음을 보여줌.
Watermarking 예시
Limitations & Conclusion
• Limitations
• 작은 image에 대해서는 예측 성능이 좋지 않음
• 실험 데이터 취득 과정에서 몇몇 제약이 있음(조명, 사람과 화면 사이의 거리)
• 더 많은 실험을 통해 데이터를 축적하면 성능이 좋아질 것으로 기대
• Conclusion
• Visibility metric을 위한 public dataset 구축, CNN 모델 제안
• 아직 가야할 길이 멀지만, 기존 baseline 대비 괜찮은 성능 제시
• Image Processing 분야에서 quality metric뿐만 아니라 visibility metric도 적용하면 좋을 것으로 보임
• ex) Real-time image SR을 위해 CNN 복잡도, bit precision 조절 등을 해야 할 때, 얼만큼 줄일 수 있을지에 대한 지표 제공