2. Технологии
Технологическая
платформа Opiner
4
➢ Собирает данные
➢ Определяет объекты и
категории
➢ Определяет тональность
текстов
➢ Извлекает ключевые
атрибуты и их тональность
➢ Удаляет дубликаты и
кластеризует тексты
Данные клиента:
Тексты
Поисковые запросы
URL страницы
Получение
результатов
обработки по API
3. Сбор данных
Социальные сети
Блоги и форумы
Новости и
веб страницы
Обработка и индексирование
под высокими нагрузками
(200 документов в секунду)
4. Определение объектов
Тематическая классификация
Мультиязычная конфигурация
1. Извлечение всех кандидатов в объекты
2. Определение значений всех
неоднозначных терминов (F-мера 77%)
3. Поиск всех тематических категорий у объектов
4. Агрегация и определение основных тематик текста
5. Определение тональности
1. Поиск всех ключевых объектов и
атрибутов для определения тональности
2. Определение ключевых оценочных
слов и выражений
3. Применение правил комбинирования и
отрицания
4. Определение тональности с помощью машинного
обучения (F-мера на уровне 80%)
6. Удаление дубликатов
и кластеризация
1. Удаление дубликатов при высоких
нагрузках ~ 200 документов в секунду
2. Кластеризация документов по смыслу
или тематике (F-мера 90%)