1. Korea Use Case
Semantic Search and Mining
언어 통계적 분석을 활용한 검색 서비스의 만족도 향상
2010. 11. 12
최광선 부장 / 시맨틱그룹
2. Korea Use Case : Semantic Search and Mining
Contents
1. Overview of Semantic Search
2. Saltlux’s Approach to Semantic Search
3. Saltlux’s Experiences
2
3. What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
History of Search
http://www.searchenginejournal.com/search-engine-history/13152/
Notable Search Engine Milestones :
• 1994 : Yahoo! created by Stanford University students Jerry Wang and David Filo in a campus trailer. Yahoo was originally an Internet
bookmark list and directory of interesting sites.
• 1996 : Sergey Brin and Larry Page, two Stanford University students test Backrub, a new search engine which ranks sites based on inbound
link relevancy and popularity. Backrub would ultimately become Google.
• 1998 : Goto.com launches with Sponsored Links and paid search. Advertisers bid on Goto.com to rank above organic search results which
were powered by Inktomi. Goto.com is ultimately acquired by Yahoo.
• 2000 : Yahoo partners with Google and lets Google power their organic results instead of Inktomi. Beforehand Google was a little known
search engine. The end result, Yahoo introduces their largest competitor to the world and Google becomes a household name.
• 2003 : Google launches AdSense after acquiring Blogger.com. AdSense serves contextually targeted Google AdWords ads on publisher sites.
The mix of AdSense and Blogger.com leads to a surge in monetized simple Internet publishing and a blogging revolution.
• 2006 : Google acquires user generated video sharing network YouTube which ultimately becomes the 2nd most used search property in the
world. Google is still working on properly monetizing YouTube.
• 2009 : In an attempt to challenge Google’s 70% grip of the search market, Yahoo and Microsoft join forces to partner on a 10 year search
deal. And the future is now. 3
[IN2] and STORM™
4. What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례 : Yahoo! Search Monkey
전통적인 검색 결과
타이틀, 요약, URL수준의 정보만 제공
SearchMonkey의 검색 결과
의
Yahoo 일반 검색 화면 Higuma Japanese 레스토랑에 대한 리뷰,
사진, 별점, 주소, 전화번호와 같은 추가적인
정보들을 제공
Yahoo!Search 크롤러가 웹 페이지와
RDF/Microformat 데이터, Data RSS Feed
등 데이터들을 수집하고, SearchMonkey를
통해 정의된 메타데이터들을 추출합니다.
Yahoo!Search 검색 시, 추출된 웹 페이지
SearchMonkey 검색 화면 메타데이터 정보를 이용하여 검색 결과를
특 징 재구성하여
컨텐츠들에 대한 메타데이터들은 FOAF,
검색 사용자들에게 기존 검색의 몇 줄 안 되는 텍스트보다 유용한 SIOC, DC, vCard, vCalender 등 상위
정보를 제공하기 위해 웹 사이트의 구조화된 데이터(페이지의 온톨로지와 사용자정의 데이터 형식을
시맨틱 마크업 정보 또는 데이터 피드)를 사용 이용하여 MicroFormat, eRDF, RDFa형태로
생성
4
[IN2] and STORM™
5. What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례 : Powerset
특징
사람, 장소, 사물에 대한 다양한 사실의
발견
질문의 의미와 관련한 콘텐츠 식별
검색 결과에 대한 요약
문장으로 구성된 질의에 응답된 결과제공
Henry Vii married Elizabeth
미니 뷰어를 통한 문서 요약결과 제공
5
[IN2] and STORM™
6. What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례 : Open Calais
식별된 개체명을 구조화(온톨로지)화여
외부의 어플리케이션에서 활용
콘텐츠로 부터 개체명(Named Entity)를
식별함
6
[IN2] and STORM™
7. What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례 : EVRI
개념어에 대한 정제된 정보 제공 개념어간 관계 네트워크를 통한 탐색
소셜 미디어를 통한 실시간 검색
7
[IN2] and STORM™
8. What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례 : COGNITION
개념어 해석을 통한 관련 인스턴스
검색
vehicle (개념어) DC-9 (인스턴스 명)
개념어 해석을 통한 관련 개념어 검색
vechicle(개념어) plane (하위 개념어)
개념어 해석
동의어 해석, 개념어 해석, 의미
분석, 구문 분석, 불린 연산 등을
통한 다양한 질의
8
[IN2] and STORM™
9. What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례 : Wolfram Alpha
검색어에 대한 분석된
가정과 이해 표시
인물
인명 정보와 관련 분석
통계 제시
제시된 검색어에 대한
대안어 제시
9
[IN2] and STORM™
10. What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례 : 네이버 랩 시맨틱 영화검색
인물에 대한 개체명 인식
10
[IN2] and STORM™
11. What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례 : 네이버 랩 시맨틱 영화검색
인물 중심의 의미기반 검색
확장 검색 그래프를 통한 탐색
11
[IN2] and STORM™
12. What is Semantic Search? Korea Use Case : Semantic Search and Mining
1. Overview of Semantic Search
사례 : 네이트 시맨틱 검색
검색어 자동완성
검색어 중심의 관련 정보 구성
문장 분석을 통하 의미 키워드
식별 및 구조화된 검색 결과
제공
12
[IN2] and STORM™
13. Semantic Search is … Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
위키피디아(Wikipedia)에서는 …
13
[IN2] and STORM™
14. Semantic Search is … Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
키워드 검색 (Keyword Search) vs. 시맨틱 검색 (Semantic Search)
14
[IN2] and STORM™
15. Semantic Search is … Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
시맨틱 네트워크 (Semantic Network)
생산자 전자제품
기업
하위어 핸드폰
소유
휴대단말기
동의어
브랜드
하위어 모바일폰
제품 휴대폰 동의어
휴대전화
하위어
삼성
터치폰 스마트폰 탑재
LG 소유 O/S
소유 애니콜
제품 WinCE
사이언 제품
햅틱 블랙잭 탑재
15
[IN2] and STORM™
16. Semantic Search is … Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
사례 : 솔트룩스 아울림
중심 주제어(토픽) 제시
중심 주제어 간의 연관성
분석을 통한 네트워크 구성
주제 도메인, 시간, 관계를
통한 네트워크 필터링과 탐색
16
[IN2] and STORM™
17. Using Text Mining Technologies Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
어휘 통계(공기성 분석)를 이용한 시맨틱 네트워크의 구축
삼성전자는 휴대폰 햅
삼성전자
틱을 새롭게 출시를 하새로운
핸드폰 시장에
였다. 햅틱은 풀 터치폰 특히,
바람이 불고 있다. ,
휴대폰
기능을고가 핸드폰 중 햅틱과
가지고 있고, 애
핸드폰
니콜 브랜드 중 가장
iPhone이 터치폰 이라
제품이 될 것으
고가의는 새로운 기능으로 고 애니콜
로 보인다. 유혹한다.
객을 햅틱
삼성전자 휴대폰 햅틱 터치폰 애니콜 핸드폰
삼성전자 휴대폰 햅틱 터치폰 애니콜 핸드폰
삼성전자
삼성전자 7 5 3 6 2
휴대폰
휴대폰 9 4 3 0
햅틱
햅틱 5 4 2
터치폰
터치폰 2 0
애니콜
애니콜 0
핸드폰
핸드폰 17
[IN2] and STORM™
18. Using Text Mining Technologies Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
문서 군집(클러스터링)을 이용한 의미의 구별
프랑스 LCD
와인 보르도 TV
포도 삼성
18
[IN2] and STORM™
19. Using Text Mining Technologies Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
토픽랭크
특성 벡터 추출/색인 문서 집합 선정 : VSM Word Co-occurrence 분석
systems
compatibility Criteria
systems
types nonstrict
linear natural numbers
constraints
diophantine inequations Upper
solutions equations bounds
algorithms components
set strict
minimal construction
토픽간의 네트워크 구성 토픽 클러스터링
19
[IN2] and STORM™
20. Using Text Mining Technologies Korea Use Case : Semantic Search and Mining
2. Saltlux’s Approach to Semantic Search
토픽랭크
삼성
LG
블랙잭
개체명/관계 인식
애니콜
WinCE
사이언 햅틱
생산자 전자제품
기업 하위어
핸드폰
소유
휴대단말기 동의어
브랜드
하위어 모바일폰
제품 휴대폰 동의어
휴대전화
하위어
삼성
터치폰 스마트폰 탑재
LG 소유 O/S
소유 애니콜
제품 WinCE
사이언 제품
햅틱 블랙잭 탑재
20
[IN2] and STORM™
21. Put Toghether Korea Use Case : Semantic Search and Mining
2. Saltlux’s approach to Semantic Search
정보 마이닝 기술을 이용한 검색 성능의 향상
키워드 기반 검색 시스템의 구조
검색 시스템의 구조
키워드 추출
수집된 정보로 부터 검색 대상이
되는 키워드를 선별함
색인기
선별된 키워드를 중심으로 색인을
생성함
인덱스(색인파일)
인덱스(색인파일)
생성된 색인 결과를 질의하기 쉽도록
정리한 파일
정보 마이닝 기반 검색 시스템의 구조 랭킹
키워드를 중심으로 정보(문서)들의
관련성을 측정함
검색
질의에 적합한 결과 목록을 구성하여
제공함
질의 분석기
사용자의 질의를 기계가 이해할 수
있는 질의로 변환
특성 추출
정보 마이닝에 사용될 통계적 패턴을
식별
정보 마이닝
대상 정보들에 대해 요약, 분류,
군집을 수행
21
[IN2] and STORM™
22. Two type of Semantich Search Korea Use Case : Semantic Search and Mining
2. Saltlux’s approach to Semantic Search
시맨틱 검색의 접근법
약한 시맨틱 검색의 특징 강한 시맨틱 검색의 특징
키워드 및 개체명을 의미 메타데이터 자동 생성
중심으로 한 특성 추출 (RDF, RDFa, GRDDL 등의
정보의 구조화 통계에 활용)
기반한 의미 분석 대용량 지식 베이스의
공기어 분석, LSA(Latent 구축과 질의
Semantic Analysis) 등의 온톨로지 및 규칙 기반
기법이 활용됨 질의와 추론
정보의 군집과 분석 상황인지 등과 연계 가능한
자동 분류와 요약 검색 서비스
약한 시맨틱 검색과 강한 시맨틱 검색
22
[IN2] and STORM™
23. Why Semantic Search ? Korea Use Case : Semantic Search and Mining
2. Saltlux’s approach to Semantic Search
시맨틱 검색의 효과
정확률
• 시맨틱 (semantic meta-data : semantic annotation, triple)
• Text Mining (IE, NE, Clustering, Classification)
• Human Computing, Collective Intelligence
(user comment, evaluation, tag)
• Personalization, Intent Driven Ranking
• 온톨로지 (Subsumption 리즈닝)
• 고품질 형태소 분석
• 랭킹 기술 (Page Rank) • Text Mining (Word Clustering)
• 손맛 (지식인 등) • Meta-search, Mash-up
• 유의어 사전(시소러스)
재현율
연결/분석성 23
[IN2] and STORM™
24. Saltlux’s Approachs Korea Use Case : Semantic Search and Mining
2. Saltlux’s approach to Semantic Search
시맨틱 검색에 대한 접근 방법
시장(mayor, market, hunger), 말(speech, 솔트룩스.대표이사, 솔트룩스.주소,
horse, checker, end) 등의 용어 의미를 솔트룩스.제품 등과 같이 검색 대상 개체의
의미 모호성 해소 구분해 색인, 검색 시 의미에 따른 분류 수행 구체적 특징들에 대해 확장 검색할 수 있는
개체명 인식, 시맨틱 어노테이션, 용어 군집, 기능.
온톨로지 기술 등 적용 개체 특징 트리플 관점에서 predicate를 통한 정보
(property) 네비게이션 형태를 취함
구축된 온톨로지를 활용하거나, 텍스트로부터
확장 검색 부분 구문분석(partial parsing)을 통해 관련
정보를 자동 추출 가능(네이트 시맨틱 검색
핸드폰 = 휴대폰 = 셀룰라폰, 과일 ⊃ 사과 ∋
유형)
부사, 정치인 ⊃ 대통령 ∋ 이명박 등의
한국어의 경우 의존 문법 기반한 분석 유리.
개념적 상하위 관계, 동의어/유의어 관계,
인스턴스 등을 확장하여 검색
어휘 개념 예를들어, 정치인을 검색하면, 이명박이라는
확장 검색 키워드를 포함한 문서도 검색
시소러스(워드넷) 및 온톨로지 활용, 질의 시
냉면-맛집/요리법/역사, 청담동-
포함관계 추론 가능
교통/식당/카페 등, 사용자의 검색 의도에
온톨로지 파퓰레이션 등 자동화 기술 통한
자동 구축 가능 의도 기반 검색 따른 목적 주제를 제시하는 검색
사용자 로그 등 검색 패턴 분석을 통해 주제에
따른 사용자 의도 발견과 주제별 인덱싱
천안함-침몰-어뢰, 장동건-고소영-결혼 등과
같이 연관된 주제들을 연결해 확장 검색할 수
연관 주제 있는 기능
확장 검색 특정 주제를 둘러싼 컨텍스트와 트랜드
이해를 목적으로 함 – 공기어분석, LSA,
토픽랭크 등의 분석 기법 적용
24
[IN2] and STORM™
25. [IN2] Discovery 2 Korea Use Case : Semantic Search and Mining
3. Saltlux’s Experiences
An integrated solution for Semantic Search
• 최신정보, 통합검색, 오늘의 토픽 (관심
주제어), 중요 토픽 동향, 이미지 및 동영상
검색, 외부 연계 검색 등이 한눈에 제공되는
통합 검색 포탈 지원
• 의미기반 질의어 자동 완성
기능
25
[IN2] and STORM™
26. [IN2] Discovery 2 Korea Use Case : Semantic Search and Mining
3. Saltlux’s Experiences
An integrated solution for Semantic Search
• 확장 가능한 의미기반 분석
서비스 컴포넌트 (Discovery
Box)
• 외부 정보 연계 검색
• 중요 키워드 제시
• 검색어에 대한 문서량 트렌드
• 최근 검색어 • 실시간 미리보기 결과
• 인기 검색어 • 요약보기, 개체보기, 내용보기
등 다양한 미리보기 제공
• 지식 저장소 별 검색결과 • 자동번역 연결 기능
통합 제공
• 실시간 미리보기
• 유사문서 검색
26
[IN2] and STORM™
27. Thank you!
135-848 서울특별시 강남구 대치동 967 덕일빌딩 5, 6, 7 층
Tel : 02-3402-0081 Home : www.saltlux.com
Fax: 02-3402-0082 E-mail : saltluxinc@saltlux.com