1. О МЕТОДОЛОГИИ НАПОЛНЕНИЯ ОНТОЛОГИЙ Рубашкин В. Ш. кафедр а информационных систем в искусстве и гуманитарных науках Факультет филологии и искусств СПбГУ
2. Общая ситуация: «Технология впереди методологии» Концептуальное моделирование – область, не имеющая прочных дисциплинарных традиций. «Междисциплинарная» или «бездисциплинарная»? «Где готовят…?» «Инженерия знаний»? Языковый комплекс RDF/OWL превращается в стандарт де-факто для сетевого представления знаний. Как применять?... Границы приличий…
3. Как наполнять зависит от ответа на вопрос что должно наполняться. Единого ответа пока нет. Поэтому приходится начинать с вопроса о востребованной функциональности онтологии .
4.
5.
6.
7.
8. Целевые технологии Традиционные : Автоматический перевод: 1. Выбор правильного переводного эквивалента 2. Поддержка синтаксического анализа. 3. Поддержка перевода "по прецедентам" (генерализация образцов). OCR и Speech Recognition : 1. Семантические фильтры (на лексическом и грамматическом уровнях) 2. Поиск подходящего прецедента (генерализация образцов). Грамматический корректор : 1. Проверка семантических согласований в синтаксических связях. 2. Проверка наличия семантически обязательных элементов в предложении. 3. Поиск подходящего прецедента (генерализация образцов).
9.
10.
11.
12. Как поступать с реальной терминологией, чтобы описать ее средствами OWL? Немногие примеры, предлагаемые в качестве образца и методического руководства и имеющие один источник OWL Web Ontology Language Guide http://www.w3.org/TR/2004/REC-owl-guide-20040210/ бродят по всему Интернету и воспроизводятся в тысячах документов. – «Виноделие» – «Пицца» Язык OWL и наполнение онтологии Natalya Noy - так приходит слава!
13. установление отношения объемной совместимости между концептами. В OWL для этого имеется конструкция disjointWith . Конкретный пример – определение несовместимости понятий через использование конструкции D isjointWith <owl:Class rdf:ID=" Паста "> <rdfs:subClassOf rdf:resource="# Съестное "/> <owl:disjointWith rdf:resource="# Мясо "/> <owl:disjointWith rdf:resource="# Дичь "/> <owl:disjointWith rdf:resource="# Морепродукты "/> <owl:disjointWith rdf:resource="# Десерт "/> <owl:disjointWith rdf:resource="# Фрукты "/> </owl:Class> «каждый с каждым»? - Ср. «Русский семантический словарь»! Язык OWL и наполнение онтологии
14.
15. Язык OWL и наполнение онтологии Далее можно определять несовмесимые подклассы рептилий: <owl:Class rdf:about="#Amphisbaenidae"> <rdfs:subClassOf rdf:resource="#Reptile" /> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty rdf:resource="#family-name"/> <owl:hasValue>Amphisbaenidae</owl:hasValue> </owl:Restriction> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:about="#Agamidae"> <rdfs:subClassOf rdf:resource="#Reptile" /> <rdfs:subClassOf> <owl:Restriction> <owl:onProperty rdf:resource="#family-name"/> <owl:hasValue>Agamidae</owl:hasValue> </owl:Restriction> </rdfs:subClassOf> </owl:Class> и т.д.
16. Язык OWL и наполнение онтологии При таком описании все подклассы исходного класса обязаны быть несовместимыми. Что исключает возможность многоаспектной классификации. ( DisjointUnionOf в OWL отсутствует.) Макротело - красный - синий - зеленый - … - тяжелый - легкий - … - твердый - жидкий - газ Так таксономия OWL может только констатировать, что все перечисляемое есть подклассы класса Макротело . Нужно : Совместимость признаков и несовместимость их значений
17. Язык OWL и наполнение онтологии Возникают трудности и с формализацией вопросно-ответных соответствий. (Потеряна связь с соответствующими признаками: цвет, вес, агрегатное состояние, форма ) Чтобы восстановить эту связь, свойство цвет придется определить так: < owl : ObjectProperty rdf : ID = ”Цвет”> <rdf:type rdf:resource="&owl:FunctionalProperty" /> <rdfs:domain rdf:resource = ”# Макротело ” /> <rdfs:range rdf:resource = ”# Макротело ”/> </owl:ObjectProperty>
18. Язык OWL и наполнение онтологии Для вопроса Какого цвета (этот) шар? необходимо формально отграничить корректные ответы ( Шар красный ) от некорректных (Шар тяжелый , Шар твердый и т. д.). Ср. * Какого цвета (этот) синий шар?
19. Язык OWL и наполнение онтологии При традиционном использовании OWL остается одна возможность - сформировать искусственные подклассы и переопределить в терминах этих подклассов области значений всех релевантных для исходного класса Макротело признаков: Макротело - Тела имеющие цвет -- красный -- синий -- зеленый -- … - Тела имеющие вес -- тяжелый -- легкий -- … - Тела, характеризующиеся агрегатным состоянием --твердый -- жидкий -- газ
20.
21. Язык OWL и наполнение онтологии Следующий естественный шаг: Макротело - по цвету: -- красный -- синий -- зеленый -- … - по весу: -- тяжелый -- легкий -- … - по агрегатному состоянию: --твердый -- жидкий -- газ -- …
22.
23. Язык OWL и наполнение онтологии Состав собственно таксономии: терминология предметной области или специально конструируемое "дерево признаков"? Чаще всего набор предметных имен не может быть упорядочен в одном аспекте, но может быть описан в некотором пространстве «призначных координат». Техническое устройство: описание в двух аспектах – - функциональность - принцип действия (способ реализации функции).
24. Язык OWL и наполнение онтологии Для конкретных классов объектов обычно возникают специализированные аспекты классификации. Транспортные средства: - среда перемещения ( наземный, водный, воздушный транспорт ); - источник энергии движения ( электротранспорт , топливосжигающий транспорт, ветровой транспорт, мускульный транспорт, … ). Воздушный транспорт: - способ создания подъемной силы (самолет, вертолет, аэростат) .
25. Язык OWL и наполнение онтологии Конкретные названия будут определяться в терминах релевантных таксономических классов. Троллейбус НЕРЕЛЬСОВЫЙ & ЭЛЕКТРИЧЕСКИЙ & ПАССАЖИРСКИЙ & БЕЗ_АВТОНОМНОГО ИСТОЧНИКА ЭНЕРГИИ
26. Язык OWL и наполнение онтологии Сами имена таксономических классов зачастую вообще не имеют явного представления в профессиональном языке - конструктор онтологии вынужден заниматься терминотворчеством (не всегда удовлетворительным с чисто языковой точки зрения, но неизбежным). SUMO – MILO: SelfPoweredRoadVehicle (subclass SelfPoweredRoadVehicle RoadVehicle) (subclass SelfPoweredRoadVehicle PoweredVehicle) (documentation SelfPoweredRoadVehicle EnglishLanguage " … &% SelfPoweredRoadVehicle covers motorcycles, semi-trailers, RVs, etc., as well as Automobiles. This class includes vehicles powered by electricity, gasoline, diesel, and other fuels.")
27. Общие рекомендации 1) Объектом формализации должны быть не отдельные термины, а терминосистемы, представляющие определенную предметную область. Формализация должна быть одинаковой для всего ряда однотипных языковых явлений. 2) Формализация частных терминосистем должна опираться на хорошо выстроенную онтологию верхнего уровня
28. Действия по формализации частных терминосистем 1) Содержательный анализ словарных определений и вычленение из них базовых признаков и других информационно значимых элементов. 2) Построение иерархической системы базовых признаков для рассматриваемой предметной области ("дерева признаков"). 3) Логическая реконструкция словарных определений в терминах построенной на этапе 2 системы базовых признаков. 4) Перевод полученных толкований на язык описания лексики, принятый в онторедакторе. Логический контроль должен быть "зашит" в технологию ввода; должен не обнаруживать ошибки, а предотвращать их появление.