2. О фирме ProNET
15 лет на ИТ-рынке Украины
Законченные проекты, отмеченные
наградами и дипломами
Партнерские отношения с вендорами
Сертифицированные специалисты
Индивидуальный подход к Заказчику
Гибкая ценовая политика
Автоматизированное управление
обработкой сервисных заявок
3. Как принимаются решения?
Base: 675 US and European
Интуитивные решения business executives and managers
Source: BusinessWeek Research
Services
Всегда
75% случаев Интуитивные решения
50% случаев принимаются >60%
25% случаев менеджеров в >50%
Никогда
случаев
Доступность информации для
принятия важных решений
Количество
неверных
Почти
решений
41% 22%
Мало достаточно (но
принятых 77%
не всегда)
менеджерами
38% Слишком по причине
много некорректной
информации
4. Знаете ли ВЫ что?
Знаете ли Вы что около 70-80%
затрат при построении
аналитической системы идет на
интеграцию и очистку данных?
5. Задачи бизнеса
Повысить эффективность, оптимизация затраты
Повышение конкурентоспособности
Улучшение качества обслуживания клиентов
Выполнение требований регуляторов
Прогнозирование, аналитика данных
Использование всех данных для принятия
правильных решений
Данные (информация) – один из самых ценных активов любой организации, если они (она) доступны,
корректны, своевременны, достаточны и не противоречивы.
6. Основные проекты для задач бизнеса
Бизнес-задачи
Улучшение
принятия Улучшение
Повышение
решений и Поддержка обслуживания Аутсорсинг Повышение
выполнение Улучшение эффективности
слияний и клиентов неосновных эффективности
требований бизнеса и снижение
поглощений и операционной функций сети партнеров
регулирующих затрат
органов эффективности
ИТ-инициативы
Управление
Управленческая Внедрение Information Хаб бизнес-
Консолидация Интеграция
и регуляторная новых Lifecycle справочных процессами
приложений B2B
отчетность приложений Management данных и интеграция
по требованию
ИТ-проекты
Хранилища Миграция Архивация Консолидация Управление Синхронизация Обмен
данных данных и управление данных НСИ данных данными B2B
тестовыми средами
7. Зачем строить хранилище данных?
В финансовом секторе возможны выделить
основные виды задач, для которых требуется
построение хранилищ данных:
Формировании отчетности о деятельности
организации для ТОП-менеджеров, инвесторов,
контролирующих органов, владельцев и т.п.
Оперативный анализ данных об активности клиентов,
поступающие через различные контакт-центры (Call-
центр, веб-портал и т.п.)
Обеспечение данными системы по управлению
рисками
Обеспечение аудита и прозрачности данных в банке
8. Подход Informatica
Архивация Синхро- Обработка Обмен
Хранилище Миграция данных и Консолидация Управление
данных данных данных НСИ низация комплексных данными
управление данных
средами событий B2B
SWIFT NACHA HIPAA …
Данные вне компании Приложения Базы данных Файлы Данные партнеров
10. Что такое Хранилище Данных?
Хранилище данных (Data Warehouse) — предметно-
ориентированная информационная база данных, специально
разработанная и предназначенная для подготовки отчётов и бизнес-
анализа с целью поддержки принятия решений в организации.
Представление данных в
Хранилище Данных радикально
отличается от представление в
транзакционных системах
Хранилище данных не привносит
новой информации и ограниченно
данными операционных систем
11. Основные задачи ХД
Предоставление «правдивой» информации для
принятия решений
Участие в процессе извлечения знаний
«Данные->Информация -> Знания -> Полученные
решения» (в соотв. с потребностями пользователя)
Доставка чистых консолидированных данных для
отчетности и аналитики
Анализ данных из различных корпоративных систем
Формирование отчетности без понимания структур
операционных систем
Доступность любых данных из любых систем для
бизнес- пользователей
Минимальное влияние средств отчетности на системы-
источники
12. Первый шаг – простая отчетность
Рамки – Пользователь, сотрудники
Департамента
Поддерживаемые приложения - Отчетность
Гибкость – заранее определенный набор
Операционная Отчеты данных
система без агрегации ИТ-пользователи – программисты
данных Бизнес-пользователи – небольшая группа
аналитиков
Слабые возможности анализа данных, невозможность
анализа консолидированных данных
Высокая стоимость и ресурсоемкость разработки, поддержки
и сопровождения
Высокая нагрузка на операционные системы
Необходимость привлечения различных специалистов для
разработки отчетов из разных систем
Несовпадение данных в отчетах
13. Следующий шаг – витрина данных
Рамки – задачи уровня Департаментов
Бизнес-приложения - Отчетность
Гибкость – Набор заранее предопределенных
данных
ИТ-пользователи – ETL-разработчики, архитекторы
Операционная Бизнес-пользователи – небольшой набор аналитиков
система
Витрина
данных
Операционная
система
Отдельная витрина для каждой бизнес-сущности
Различные варианты внедрений для разных витрин
Различные команды для разных систем-источников
Высокая стоимость внедрения
14. ХД – все данные организации в одном месте
Рамки проекта – Компания в целом
Бизнес-приложения – Все типы,
включая BI, CRM, ERP, OLTP
Гибкость – Независимость от типов
данных, СУБД, приложений
Пользователи – Разработчики,
Операционная архитекторы, аналитики
система Бизнес-пользователи – Все
Оперативное
Операционная хранилище Отчеты
система данных
(ODS) Центральное
Хранилище
Данных
Операционная Витрины
система данных
Системы- Оперативная Анализ, Анализ,
источники отчетность отчеты отчеты
15. Преимущества ХД при построение отчетности
Корреляция информации из нескольких операционных
систем
Постоянное наличие оперативных данных
Снижение нагрузки на операционные системы
Упрощение создания новых отчетов и модификации
старых
Повышение качества данных, возможность очистки
данных
Снижение трудоемкости разработки за счет бизнес-
ориентированной структуры данных
Ускорение формирования отчетов за счет агрегации
Любой уровень детализации данных
16. Преимущества ХД при анализе данных
Корреляция информации из нескольких операционных
систем
Постоянное наличие оперативных данных
Снижение нагрузки на операционные системы
Упрощение создания новых отчетов и модификации
старых
Повышение качества данных, возможность очистки
данных
Снижение трудоемкости разработки за счет бизнес-
ориентированной структуры данных
Ускорение формирования отчетов за счет агрегации
Любой уровень детализации данных
17. Пример BI-решения
отчетность
Reporting Services
Integration Services
Разработчик
Загрузка данных
Источники
Храни лище Куб данных
данных Пользователь
аналитика
Analysis Services
СУБД
19. Использование INFORMATICA PowerCenter
Единый
Системы,
файлы
справочник
клиентов
Базы
данных
• Informatica PowerCenter обеспечивает начальную загрузку данных
• Informatica PowerCenter обеспечивает загрузку изменений и
распространение мастер-данных различными способами: пакетно, на
основе сообщений, в реальном времени
• Informatica Data Quality очищает, стандартизирует, обогащает данные и
ведет мониторинг качества
• Identity Resolution (Identity Match Option) выявляет дубликаты и связывает
сущности
20. Подключение произвольных источников
Lotus Notes
ORACLE E Business
SAP NetWeaver
Приклад.
SAS Источник системы
MS SQL Server данных
MS Access
Книги Excel
MS SQL
MS SSAS
Oracle
Teradata
Sybase
СУБД Неструктурированные
Informix данные
DB2
Текстовые файлы
Технолог. стандарты ХД
Неструктуриров. Данные
..более 100 разл. источников
23. Обеспечение качества данных
1. Профилирование данных 2. Определение критериев
2. Определение критериев
качества данных
качества данных
Качество
6. Мониторинг качества 3. Проектирование и
3. Проектирование и
данных
данных разработка и правил
разработка и правил
качества
качества
5. Выявление исключений 4. Внедрение сервисов
4. Внедрение сервисов
качества данных
качества данных
Разовые, периодические и онлайн-процессы по обеспечению
качества данных
Клиенты, продукты и любые другие типы данных
Как отдельный проект или в составе любого интеграционного
проекта
Значительные наработки правил для стран СНГ
24. Профилирование данных
• Определение параметров данных
– Статистика по полям, форматам
– Определение уникальности, полноты, дубликатов значений,
соответствия форматам и т.д.
• Структурный и функциональный анализ
– Функциональные зависимости полей и записей
– Расширенный анализ структур данных источников
– Проверка целостности ссылочных данных
• Возможность просмотра результатов профилирования
• Использование собственных функций для анализа данных
• Список проблем и
Приложения недостатков
• Метаданные исходных данных
• Данные • Анализ
Базы данных зависимостей
Платформа Informatica
• Отчеты и
заключения по
качеству данных
Файлы
25. Informatica Data Quality
Обработка данных, требующих
синтаксического разбора:
Имена DQ
Адреса Designer Dashboard
SAP
Телефоны Siebel
Oracle
Business
Товарные номенклатуры Runtim
Runti
IDQ
Server Applications
e
me
Паспортные данные Repository Informatica
PowerCenter
Налоговые номера
RealtimeSDK
Банковские реквизиты Data
Любая другая информация Integration/
Quality
Стандартизация и проверка данных Sources
Services
Сравнение и поиск дубликатов записей
вероятностными методами
Мониторинг качества данных
Визуальные средства Informatica Analyst
и Developer для создания процессов
обеспечения и оценки качества данных
26. Informatica PowerCenter
Наглядность отображения процессов трансформации данных
Возможность проследить способ формирования каждого значения и влияния
каждого из полей на результирующее значение
27. Informatica PowerCenter
Уменьшение нагрузки на систему-источник за счет проведения одновременной
записи обработанных данных, в несколько таблиц-приемников
Параллелизация расчетов для увеличения производительности
Любые режимы работы процессов: по расписанию, по запросу, в реальном
времени
28. Масштабируемость
Partition Point
Увеличение
Client
Administration Operations
производительности
Development
платформы
Provider Thread Transformation Threads Consumer Thread
PowerCenter путем
распараллеливания
процессов обработки
данных различными
Repository Service Repository
методами
Параллелизация в памяти сервера Informatica PowerCenter
Integration Service
Динамическое и статическое распределение потоков на основе
числа процессоров, серверов или особенностей источника
данных
Эффективная работа с большими объемами данных
30. INFORMATICA – лидер интеграции данных
Как один из наиболее общепризнанных
поставщиков в области интеграции данных ,
Informatica продолжает увеличивать свое
присутствие и сохранять позицию на рынке,
отражающуюся в отчетах в большей степени,
чем у других вендоров
Платформа предлагает некую федерацию
данных, которая сводит интеграцию данных и
качество в единую архитектуру, что является
технологическим трендом
Заказчики Informatica используют единую
платформу для решений большего количества
задач, чем заказчики конкурентов.
Клиенты Informatica продолжают выражать
высокую степень удовлетворения работой по
таким параметрам как скорость внедрения,
производительность, техническая поддержка,
Informatica – один из лидеров Квадранта
Gartner в области интеграции данных доступность обучения.
данных за 2011 год
32. Преимущества INFORMATICA
Мощная высокопроизводительная промышленная
платформа масштаба предприятия для интеграции и
обеспечения качества данных
Высокоэффективное решение любых задач обеспечения
качества данных для любого типа проектов – от локальных
систем до глобальных хранилищ данных
Обработка любых типов данных из любых систем на любых
языках
Визуальность, прозрачность, самодокументирование
Успешный опыт применения в крупнейших мировых
компаниях, а также в России и странах СНГ, быстрый time-to-
market проектов
Развитые наработки и наличие обученных специалистов и
команд внедрения
33. Спасибо за внимание!
Пожалуйста,
задавайте вопросы
04073, г. Киев, ул. Марка Вовчка, 18А
(+38) 044-390-09-11, 390-09-19
dep_itsm@pronet.ua
www.pronet.ua
33
Notas do Editor
Современное предприятие сталкивается с проблемами обработки все возрастающего числа документами. Классический подход к решению задачи – ввести в работу предприятия электронный документооборот. Предлагаем вашему вниманию платформу для построения электронного документооборота – Directum. Рассказать о всех достоинствах этой платформы в короткой презентации невозможно. Вашему вниманию представим информацию, которая позволит сформировать, я надеюсь, положительное впечатление.
Вот данные опроса, проведенного журналом Business Week среди руководителей предприятий. Обратите внимание, что опрос проводился на западе, т.е. там, где уровень автоматизации предприятий значительно выше чем в России. И тем не менее, даже западным руководителям не хватает информации и они вынуждены пользоваться интуицией, шестым чувством, пальцем небо и т.п. В результате количество неверных решений, причиной которых служило отсутствие или недостоверность информации составляет 77%. Но неверно было бы предположить, что организации не пытались решить эту проблему ранее и собственными силами. Вот 3 основных пути, которыми можно пойти
So, in addition to the traditional EDW fed by transactional systems, And interacting with data marts in various ways, The Operational Data Store has emerged to support a variety of needs for near-real time access. Note the complexity of typical data flows and processes: from Transaction Systems directly to EDW from Transaction Systems to ODS, then to EDW From EDW to DM From DM to EDW Bidirectional between DM and EDW … and lots of others If we summmarize enterprise data requirements, in a single chart, we get something like…
So, in addition to the traditional EDW fed by transactional systems, And interacting with data marts in various ways, The Operational Data Store has emerged to support a variety of needs for near-real time access. Note the complexity of typical data flows and processes: from Transaction Systems directly to EDW from Transaction Systems to ODS, then to EDW From EDW to DM From DM to EDW Bidirectional between DM and EDW … and lots of others If we summmarize enterprise data requirements, in a single chart, we get something like…
So, in addition to the traditional EDW fed by transactional systems, And interacting with data marts in various ways, The Operational Data Store has emerged to support a variety of needs for near-real time access. Note the complexity of typical data flows and processes: from Transaction Systems directly to EDW from Transaction Systems to ODS, then to EDW From EDW to DM From DM to EDW Bidirectional between DM and EDW … and lots of others If we summmarize enterprise data requirements, in a single chart, we get something like…
Key Takeaway: Informatica can be used as the primary platform to load, cleanse, and index the hub. And For any hub…. PowerCenter is used for the initial load of the hub and any ongoing batch loads. PowerCenter can automatically capture master data from source systems to push it to the MDM hub using change data capture. It can connect to the enterprise message-oriented middleware to transport master data from and to the MDM Hub or optionally sit in the SOA architecture by exposing all data manipulation through Web Services. PowerCenter RealTime Edition can support both reading and writing to Hub at any latency – in real time as soon as a master data is modified, or batch.
Informatica Metadata Manager helps you browse and analyze metadata from disparate metadata repositories so that you can understand and manage how information and processes are derived. [CLICK] Metadata is imported into a metadata management warehouse repository that provides [CLICK] a consolidated metadata catalog, enables personalized data lineage, and supports multiple business glossaries of business terms organized into categories and sub-categories. [CLICK] Metadata reports enable users to view dependencies between objects, view activities and identify problems. Through a URL API you can access business glossary terms and metadata manager lineage diagrams from 3 rd party BI applications.
Informatica Metadata Manager helps you browse and analyze metadata from disparate metadata repositories so that you can understand and manage how information and processes are derived. [CLICK] Metadata is imported into a metadata management warehouse repository that provides [CLICK] a consolidated metadata catalog, enables personalized data lineage, and supports multiple business glossaries of business terms organized into categories and sub-categories. [CLICK] Metadata reports enable users to view dependencies between objects, view activities and identify problems. Through a URL API you can access business glossary terms and metadata manager lineage diagrams from 3 rd party BI applications.
A PowerCenter task spawns a multi-threaded process to facilitates the extraction, transformation, and load necessary for a data integration task. Memory Buffer Pool -- forward animation PowerCenter uses an in memory buffer pool which is loaded as the data is extracted from its original location. This buffer pool is divided into smaller blocks of memory that will act as the vehicle for moving the data along its journey. This buffer pool is used as a pipeline to make the data available to each component of the defined data integration process by keeping each thread in the process busy. Partition Point -- forward animation PowerCenter facilitates this each of these unique tasks by interrogating the defined transformation rules. When PowerCenter finds either logical or user defined similarly grouped tasks it creates a boundary called a partition point. Once the partition points are defined, threads are spawned to execute each of the respective tasks that have been assigned to it. These thread working with the buffer pool work in parallel to efficiently integrate the data. There is a provider thread (note there could be more than one) that load the buffer pool with data from the original data structures. There are one or more transformation threads responsible for applying integration logic defined within the client tools There is a consumer thread (note there could be more than one) that unloads the buffer pool for the data consumer. Parallel Processing -- forward animation As data is loaded into the pipeline, it is marked as being ready for transformation. The first transformation thread then executes integration tasks it has been assigned upon the data without ever moving it and the marks it as being ready for the next thread. If other transformation thread exist, it then applies its executes its tasks as the first and marks the data as being ready for the next thread until all transformation threads have been completed. Then the consumer thread unloads the data for the consumer once completed the block is marked as being ready to start the journey again. Keeping in mind that each thread is executing upon blocks as they are made available, thus processing the data in parallel.