SlideShare uma empresa Scribd logo
1 de 55
Большие данные на предприятиях
Подводные камни и как на них не наткнуться
Андрей Пивоваров
Руководитель группы перспективных технологий
2
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Confidential – 3
Big Data – это новые возможности,
ставшие доступными, благодаря новым
технологиям или подходам к обработке
больших объемов данных
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Почему Большие Данные стали использовать на
«традиционных» предприятиях?
• Технологии, раньше используемые только в
веб-проектах (Hadoop, NoSQL) стали достаточно зрелыми
– Не обязательно держать штат программистов, чтобы ими пользоваться
• Появились новые возможности для получения конкурентных преимуществ:
– Глубокий анализ поведения клиентов
– Высокоточная реклама
– Объединение и анализ данных из многих источников, в том числе неструктурированных
– Анализ мошенничеств
– и т.д.
• Big Data технологии позволяют существенно удешевить хранение и обработку
данных
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
CaixaBank, Испания
CaixaBank - крупнейший финансовый институт Испании,
дочка Сберегательного банка Испании, la Caixa
13,7 миллиона клиентов
5 920 отделений
367 миллиардов евро актив
Задачи
Получение максимальной выгоды от имеющейся информации о заказчиках, полученной по любому
из существующих каналов (офисы, интернет, телефон, банковские системы, терминалы…)
Создание новой модели унифицированных корпоративных данных и дополнительных возможностей
аналитики на основе новой Information Management Architecture
Примеры использования
• Идентификация возможноcтей для cross-selling и up-selling
• Разработка персонифицированных предложений для клиентов
• Управление рисками и повышение лояльности к бренду
• Улучшенный анализ мошенничества
• Отслеживание новых нормативных и регуляторных требований
Лучше понимать клиента, анализируя все возможные данные о нём
CaixaBank назван самым инновационным банком в мире - World’s Most Innovative Bank at the 2013 Global Banking Innovation
Awards (Ноябрь 2013)
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Отличия традиционных предприятий от интернет-проектов
в контексте Больших данных
• Бизнес предприятия не построен вокруг создания кластеров
• Большие данные начинают использоваться как новые возможности,
дополняющие существующие системы
• Значительные наработки и инвестиции в области реляционных СУБД и
отсутствие или небольшой опыт в областях типа Hadoop
– Отсюда обязательное требование по интеграции ТБД с реляционными базами,
системами бизнес-анализа и т.д.
• Пользователи требуют обеспечить работу с Большими данными как с
обычной СУБД, используя привычные инструменты
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Направления работы корпорации Oracle в области
Больших данных
• Оптмизированные программно-аппаратные комплексы для Больших
данных на базе Cloudera Hadoop Distribution
• Интеграция данных в Hadoop/NoSQL и традиционных реляционных
данных
• Разработка собственной Oracle NoSQL Database и других продуктов
• Оптимизация (ускорение доступа) к данным
• Безопасность
• Визуализация Больших данных
• Методология построения систем Больших данных на основе
практического проектного опыта
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data Management System
SOURCES
РЕЗЕРВУАР ДАННЫХ ХРАНИЛИЩЕ ДАННЫХ
Oracle Database
Oracle Industry
Models
Oracle Advanced
Analytics
Oracle Spatial & Graph
Big Data Appliance
Apache
Flume
Oracle
GoldenGate
Oracle Event
Processing
Cloudera Hadoop
Oracle Big Data SQL
Oracle NoSQL
Oracle R Advanced
Analytics for Hadoop
Oracle R Distribution
Oracle Database
In-Memory, Multi-tenant
Oracle Industry Models
Oracle Advanced
Analytics
Oracle Spatial & Graph
Exadata
Oracle
GoldenGate
Oracle Event
Processing
Oracle Data
Integrator
Oracle Big Data
Connectors
Oracle Data
Integrator/
GoldenGate
БИЗНЕС АНАЛИТИКА
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Преимущества построения систем с резервуаром
данных
1
Дешевое хранение
Только значимые и
актуальные данные живут
в реляционном ХД
Гибкость
В резервуаре хранятся
любые данные, не нужна
предопредленная
структура и модель
хранения
Data Warehouse
Традиционные
источники данных
Новые источники
Резервуар данных Хранилище данных
Предварительная
обработка данных на
распределенном кластере
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Hadoop
• Apache Hadoop - распределенная масштабируемая вычислительная
архитектура
• Одна из самых популярных платформ для хранения и обработки
больших объемов данных
• Подходит для аналитических задач
• Очень быстро развивается
• Oracle совместно с Cloudera производит программно аппаратный
комплекс для Hadoop (и Oracle NoSQL DB)
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Подводные камни мира Больших данных
• Hadoop – это не только дешево, но кластер –
это множество узлов, которые нужно
инсталлировать, сопровождать, управлять и т.д.
• Недооценка сложностей, которые возникают при
переходе от «песочниц» к проекту масштаба
предприятия
– Возможность использования кучи дешевого железа –
хорошо, но имеет свою цену
• Недооценка недостатков Hadoop
– Hadoop предназначен для загрузки больших кусков данных
– Нет транзакций и т.д.
• Недооценка сложности интеграции данных из двух
миров (реляционного и Hadoop)
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
BIG DATA
Appliance
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Appliance X5-2
•Готовый Hadoop или Oracle NoSQL DB кластер
•Совместно тестируется разработчиками Oracle и
Cloudera
•Оптимизирован для высочайшей
производительности
•Единое окно техподдержки по всей системе,
включая ПО Cloudera
•До 864TB в одной стойке
–Возможны также конфигурации 1/3 и 2/3 стойки
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data Appliance X5-2
Sun Oracle X5-2L Servers. На каждом:
• 2 * 18 Core Intel Xeon E5 Processors
• 128 GB Memory
• 48TB Disk space
Программное обеспечение(4.1):
• Oracle Linux6.5, Oracle JDK 7u72
• Oracle Big Data SQL 1.1*
• Cloudera Distribution of Apache Hadoop 5.3 – EDH Edition
• Cloudera Manager 5.3
• Oracle R Distribution 3.1.1-2
• Oracle NoSQL Database CE 3.2.4
* Oracle Big Data SQL is separately licensed
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (1/2)
• Подбирать и оптимизировать компоненты – сервера, диски,
количество дисков, процессоры, сети, память и т.п.
• Заключать отдельный договор о поддержке с Cloudera
• Собирать кластер
• Настраивать сетевые коммутаторы
• Инсталлировать операционную систему на каждом узле и
• Отслеживать и устанавливать оптимальные версии драйверов и
прошивок для каждого компонента
• Настраивать операционную систему для оптимальной
производительности (у нас же очень много данных!)
• Настраивать Java
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Что вам НЕ придется делать с Big Data Appliance (2/2)
• Инсталлировать дополнительное ПО от Cloudera
• Тестировать работоспособность и производительность каждого
узла кластера
• Заниматься самостоятельно трудоемкой процедурой
многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и
т.п.
• И просто следить за тем, что нужно что-то проапгрейдить
• Изучать как это все сделать без остановки и прерывания работы
пользователей
• Заниматься дизайном перебансировки кластера при его
расширении
• И т.д. и т.п.
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data SQL
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Разные подходы – разные преимущества
1
0
1
2
3
4
5
Мощь инструментов
Встроенный функционал
ACID транизакции
Безопасность
Разнообразие форматов
данных
Разреженные данные
Простота ETL
Стоимость хранения
Простота загрузки
Взаимодействие с другими
системами
Hadoop
RDBMS
• У Hadoop свои плюсы
• У СУБД свои
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Недостатки существующих систем Больших данных
• Для работы с Hadoop и реляционными базами данных
требуются разные навыки
• Существующие механизмы доступа к данным в Hadoop
функционально ограничены или работают медленно
• Конечные пользователи используют разные инструменты для
работы с Hadoop и реляционными базами
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
0
1
2
3
4
5
Мощь инструментов
Встроенный функционал
ACID транизакции
Безопасность
Разнообразие форматов
данных
Разреженные данные
Простота ETL
Стоимость хранения
Простота загрузки
Взаимодействие с другими
системами
Hadoop
RDBMS
Цель
Есть ли возможность объединить два мира?
2
Как это сделать?
И как это использовать?
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
SQL
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
SQL существует и спользуется уже более 40 лет
SELECT dept, sum(salary)
FROM emp, dept
WHERE dept.empid = emp.empid
GROUP BY dept
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Apache Hive
• Apache Hive
– Один из самых популярных проектов для обработки данных над
Hadoop
– Инфраструктура, эмулирующая реляционную СУБД над Hadoop
– Есть SQL-подобный язык HiveQL
– Позволяет строить аналог свербольших хранилищ данных в Hadoop
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
SQL on Hadoop – не только Hive
Stinger
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
HiveQL: SQL очень ограничен
• Basic functions
– round, sqrt, floor, ceiling, concat,
lower, upper, etc.
• Aggregate functions
– count, sum, min, max, avg,
variance, stddev, covar, etc.
• Windowing functions
– lag, lead, first, last, row_number,
dense_rank, cume_dist,
percent_rank, ntile
SQL
Ограничения:
• Подзапросы
• Объединения
• Стат функции
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
next = lineNext.getQuantity();
}
if (!q.isEmpty() && (prev.isEmpty() || (eq(q, prev) && gt(q, next)))) {
state = "S";
return state;
}
if (gt(q, prev) && gt(q, next)) {
state = "T";
return state;
}
if (lt(q, prev) && lt(q, next)) {
state = "B";
return state;
}
if (!q.isEmpty() && (next.isEmpty() || (gt(q, prev) && eq(q, next)))) {
state = "E";
return state;
}
if (q.isEmpty() || eq(q, prev)) {
state = "F";
return state;
}
return state;
}
private boolean eq(String a, String b) {
if (a.isEmpty() || b.isEmpty()) {
return false;
}
return a.equals(b);
}
private boolean gt(String a, String b) {
if (a.isEmpty() || b.isEmpty()) {
return false;
}
return Double.parseDouble(a) > Double.parseDouble(b);
}
private boolean lt(String a, String b) {
if (a.isEmpty() || b.isEmpty()) {
return false;
}
return Double.parseDouble(a) < Double.parseDouble(b);
}
public String getState() {
return this.state;
}
}
BagFactory bagFactory = BagFactory.getInstance();
@Override
public Tuple exec(Tuple input) throws IOException {
long c = 0;
String line = "";
String pbkey = "";
V0Line nextLine;
V0Line thisLine;
V0Line processLine;
V0Line evalLine = null;
V0Line prevLine;
boolean noMoreValues = false;
String matchList = "";
ArrayList<V0Line> lineFifo = new ArrayList<V0Line>();
boolean finished = false;
DataBag output = bagFactory.newDefaultBag();
if (input == null) {
return null;
}
if (input.size() == 0) {
return null;
}
Object o = input.get(0);
if (o == null) {
return null;
}
//Object o = input.get(0);
if (!(o instanceof DataBag)) {
int errCode = 2114;
Сравнение Oracle SQL c HiveQL
Simplified, sophisticated, standards based syntax
SELECT first_x, last_z
FROM ticker MATCH_RECOGNIZE (
PARTITION BY name ORDER BY time
MEASURES FIRST(x.time) AS first_x,
LAST(z.time) AS last_z
ONE ROW PER MATCH
PATTERN (X+ Y+ W+ Z+)
DEFINE X AS (price < PREV(price)),
Y AS (price > PREV(price)),
W AS (price < PREV(price)),
Z AS (price > PREV(price) AND
z.time - FIRST(x.time) <= 7 ))
250+ строк на Java UDF 12 строк на Oracle SQL
В 20 раз меньше кода
Поиск шаблона (W) в биржевых данных
10:00 10:05 10:10 10:15 10:20 10:25
Ticker
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Данные хранятся во многих местах
Транзакции
RelationalHadoop
Логи
NoSQL
Профили клиентов
SQL
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Big Data SQL
Новая технология для обращения к данным в Hadoop из Oracle Database
Запросы кOracle,
Hadoop иNoSQL
Oracle SQL
Oracle
NoSQLDB
HDFS
DataNode
Oracle
NoSQLDB
HDFS
DataNode
OracleDatabase
StorageServer
OracleDatabase
StorageServer
•Для пользователя не важно, где лежат данные – в
Oracle или в Hadoop
•Использование данных в Hadoop любыми BI
инструментами
•Все возможности языка SQL Oracle
•Использование наработок Exadata
•Интеграция Big Data Appliance и Exadata
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Потенциал для запросов к любой системе
Расширение на любой
источник в будущем
Ит.д.…
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Интеграция больших
данных
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Подходы к интеграции больших данных
ETLETL HDFS
Традиционные ETL
инструменты
Spark
Sqoop Sqoop
Hive
Pig
Manual Code
Ручное кодирование
Spark
Sqoop
Hive
Pig
ODI
Oozie
Sqoop
Oracle Data Integrator
GG
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Data Integrator
Не требуется
отдельный ETL
сервер
Логический и
физический
дизайн
разделены
Физическое
выполнение
кода SQL, Hive,
Pig, Spark
Использование
Oozie или ODI
Java Agent
Библиотека
операторов
Возмоно
определять свои
функции
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Enterprise Metadata Management
ETL
BI
Dashboards
App
ETL
ETL
Как считаются
продажи?
Что произойдет, если
я поменяю эту
таблицу?
Какие отчеты
используют данные
с этого сервера? Sys Admin
Руководитель
Разрабочик BI
Из какой системы
пришли
данные?
Польщователь
Какой отчет
использует эти
данные?
CDC
Hadoop
Data Lake
Data Steward
Можно ли
доверять
источнику?
ETL
разрабочтик
Я хочу провести
эксперимент. Какие
данные у меня есть в
наличии?
Data Scientist
GG
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Big Data
Discovery
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Проблемы аналитической обработки Больших Данных
Сложность инструментария
• Hadoop инструменты рассчитаны на
экспертов
• Существующие BI инструменты не
рассчитаны на Hadoop
• Нишевые инструменты имеют
ограниченную функциональность
80% усилий тратится
на подготовку
данных
Неопределенность данных
• Большой объем, гибкая структура
• Полезность данных не очевидна
• Значительные усилия по подготовке
данных
Зависимость от
высоко-
квалифицированных
экспертов
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Требуется новый подход
Быстрой
трансформации и
обогащения данных для
эффективной работы с
ними
Снятия барьеров с
Больших данных для
исследования и поиска
новых возможностей
Единый интуитивный визуальный интерфейс для ...
Поиска и изучения
для понимания
потенциала данных
find explore transform discover share
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
3
Oracle Big Data Discovery
Визуализация данных Hadoop
find explore transform discover share
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
КаталогOracle Big Data Discovery
Понять потенциал
Больших Данных
4
• Доступ к
интерактивному
каталогу данных,
расположенных в
Hadoop
• Удобный поиск и
навигация в наборах
данных
• Суммарная
информация о
наборах данных;
описания, теги
пользователей
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
ИзучениеOracle Big Data Discovery
Понять потенциал
Больших Данных
4
• Визуализация
статистической
информации по
всем атрибутам
• Сортировака
атрибутов на
основе потенциала
данных
• Распределение
данных, качество
данных и выбросы
• Понимание
корелляции между
атрибутами
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
4
Oracle Big Data Discovery
Разблокировать Большие Данные • Drag&drop интрефейс для
создания аналитических
приложений
• Использование поисковых
возможностей и фасетной
навигации
• Объединение различных
данных для более глубокого
анализа
• Поиск новых патернов,
закономерностей в
интерактивном визуальном
аналитическом интерфейсе
Исследование
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Information
Management Reference
architecture
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Information Management Reference Architecture
Уровеньдоступакданным
Бизнес
аналитика
Информаци-
онные
сервисы
Простота и скорость
загрузки данных
Стоимость запроса к
данным
Уровень производительного
доступа
Фундаментальный слой
данных (3N форма)
Хранилище первичной информации
Data
Science
Первичная информация хранится
без всяких изменений
Данные очищены, организованы в
некоторую структуру, но абстрагированы
от бизнес процессов
Данные организованы в соответствии с
требованиями бизнес процессов, для достижения
максимальной производительности
Исследование данных Среда разработки
Исследование данных,
выявление новых
закономерностей
Разработка
взаимодействия всех
слоев приложения
Источники данных
Мультиструктурные
источники
Контент
Docs Web & Social Media
SMS
Структурированные
Данные
(из реляционных источников)
Мастер данные
Планирование и
бюджетирование
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
При создании Oracle IM Ref Architecture учитывается:
• Мультивендорный ландшафт заказчиков
• Хранилища данных и аналитика постоянно эволюционируют
• Существование разных типов данных (структурированные,
неструктурированные) и подходов к их обработке
• Необходимость не только обработки исторических данных, но и
существование задач реагирования в режиме близком к реальному
времени (Fast Data)
• Необходимость хранения исходных данных
• Необходимость создания «песочниц» для
экспериментов
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
5
Есть вопросы?
Andrey.Pivovarov@oracle.com
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
5
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Exadata
Database Machine
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Oracle Exadata X5
• Машина для СУБД Oracle
– Хранилища данных
– OLTP
– Смешанные нагрузки
– Консолидация
• Высочайшая производительность СУБД Oracle
– Exadata Software используется для предобработки данных
прямо на уровне системы хранения
• До 672TB в одной стойке
• Exadata позволяет использовать новейшие технологии:
– In Memory Database Option
– Колоночное хранение данных
– Опционально – 100% хранение данных на Flash
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Exadata X5-2 Hardware
 2-Socket Database Servers
– Fastest Xeon chips, 18-core, 256 GB to 768 GB DRAM
 InfiniBand Network
– 40 Gb InfiniBand внутренняя сеть
– 10 Gb or 1 Gb Ethernet для внешей связи
 2-Socket Storage Servers
– 16 ядер на сервере для предобработки данных на СХД
– Extreme Flash (EF) Storage  12.8 TB Ultra-Fast PCI Flash Drives
или
– High Capacity (HC) Storage  6.4 TB Ultra-Fast PCI Flash Cards
+ 48 TB SAS disks
5
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Примеры конфигураций Exadata для рахличных нагрузок
5
16 Database Servers +
5 High Capacity Storage Servers
DB In-Memory Machine Extreme Flash OLTP Machine
8 Database Servers +
8 Extreme Flash Storage Servers
Data Warehousing Machine
Много серверов БД, много памяти
несколько серверов хранения
100% Flash хранение данных
для OLTP систем
Большой объем хранилища
Большое количество серверов БД
576 DB Cores
13.3 TB RAM
32 TB Flash
240 TB Disk
288 DB Cores
2 TB RAM
102 TB Flash
288 DB Cores
224 Storage
Cores
90 TB Flash
672 TB Disk
8 Database Servers +
14 High Capacity Storage Servers
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Масштабируемость Exadata
Тысячи процессорных ядер
Петабайты данных
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
• Захват и анализ данных с сенсоров
• Огромные объем данных в единицу
времени
Ускорение летных испытаний для сокращения
времени поставки новых самолетов
Ускорение летных испытаний
Solution components: Real-Time Decisions, Event Processing
Solution Components: BDA and NoSQL
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
Рецепты: Поиск ошибок и мошенничеств
• 8 миллионов рецептов обрабатывается
каждый день
• Поиск неправильного использования
препаратов
• Интеграция структурированных и
неструктурированных данных
• Геоаналитика
У мненьшение количества ошибок
и мошенничеств
Solution components:, BI Foundation, Endeca, Advanced Analytics – ‘R’ statistical
analysis & data mining, Exalytics, Exadata
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
• 18M учеников и 42 000 школ
• Аналитика поведения учеников и
учителей
• Комбинация RDBMS и Hadoop
• Цель – сделать образование более
эффективным
Улучшение аналитики для системы образования
Трансформация образования в Турции
Solution components: Real-Time Decisions, Event Processing
Solution Components: 2 BDA, 2 Exadata, 2 Exalogic, 2 Exalytics, IDM
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
• Аналитика и предложеия в реальном
времени
• Использование Event Processing
• Сервис предоставляется внешним
партнерам
• Генерация новых доходов
Геомаркетинг для предоставления новых услуг
Монетизация данных
Copyright © 2014 Oracle and/or its affiliates. All rights reserved. |
•Как вам удалось изменить счет с 1-8 на 9-8?
Oracle Big Data в Oracle Team USA
Мы взломали код
•300 сенсоров на яхте
•выдают 2 ГБ данных за одну гонку

Mais conteúdo relacionado

Mais procurados

Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data applianceCleverDATA
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruLviv Startup Club
 
Business Intelligence. Современный взгляд
Business Intelligence. Современный взглядBusiness Intelligence. Современный взгляд
Business Intelligence. Современный взглядAndrey Korshikov
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open LabDell_Russia
 
Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleAndrey Akulov
 
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopBigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopAndrey Orlov
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхDenodo
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data propositionAndrey Akulov
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: ВведениеDenodo
 
Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных Yuri Yashkin
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovIlya Gershanov
 
Технологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхТехнологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхAndrey Akulov
 
Oracle Data Warehouse Cloud
Oracle Data Warehouse CloudOracle Data Warehouse Cloud
Oracle Data Warehouse CloudAndrey Gorbunov
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big DataAndrey Akulov
 
MONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копированияMONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копированияYuri Yashkin
 
SSAS Multidimension и Tabular: что выбрать?
SSAS Multidimension и Tabular: что выбрать?SSAS Multidimension и Tabular: что выбрать?
SSAS Multidimension и Tabular: что выбрать?Andrey Korshikov
 
Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхDenodo
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopYury Petrov
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovoqueryhunter
 
Andrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaAndrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaVolha Banadyseva
 

Mais procurados (20)

Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
Short enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ruShort enterprise data hub on apache hadoop ru
Short enterprise data hub on apache hadoop ru
 
Business Intelligence. Современный взгляд
Business Intelligence. Современный взглядBusiness Intelligence. Современный взгляд
Business Intelligence. Современный взгляд
 
Big Data Open Lab
Big Data Open LabBig Data Open Lab
Big Data Open Lab
 
Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий Oracle
 
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopBigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данных
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 
Виртуализация Данных: Введение
Виртуализация Данных: ВведениеВиртуализация Данных: Введение
Виртуализация Данных: Введение
 
Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных Шесть важнейших качеств платформы для анализа Больших данных
Шесть важнейших качеств платформы для анализа Больших данных
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
 
Технологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхТехнологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших Данных
 
Oracle Data Warehouse Cloud
Oracle Data Warehouse CloudOracle Data Warehouse Cloud
Oracle Data Warehouse Cloud
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big Data
 
MONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копированияMONT Решения Micro Focus для резервного копирования
MONT Решения Micro Focus для резервного копирования
 
SSAS Multidimension и Tabular: что выбрать?
SSAS Multidimension и Tabular: что выбрать?SSAS Multidimension и Tabular: что выбрать?
SSAS Multidimension и Tabular: что выбрать?
 
Открытая сессия по виртуализации данных
Открытая сессия по виртуализации данныхОткрытая сессия по виртуализации данных
Открытая сессия по виртуализации данных
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
Andrei Kirilenkov. Vertica
Andrei Kirilenkov. VerticaAndrei Kirilenkov. Vertica
Andrei Kirilenkov. Vertica
 

Destaque

3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компанию3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компаниюantishmanti
 
1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой братantishmanti
 
Oracle big data for finance
Oracle big data for financeOracle big data for finance
Oracle big data for financeCleverDATA
 
1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данных1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данныхantishmanti
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?Mikhail Alekseev
 
«Oracle Application Quality Management: Средства тестирования и управления те...
«Oracle Application Quality Management: Средства тестирования и управления те...«Oracle Application Quality Management: Средства тестирования и управления те...
«Oracle Application Quality Management: Средства тестирования и управления те...Andrey Akulov
 
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...World Brand Academy
 
Алексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформа
Алексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформаАлексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформа
Алексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформаExpolink
 
Oracle 11g с нуля: первые шаги с СУБД Oracle
Oracle 11g с нуля: первые шаги с СУБД OracleOracle 11g с нуля: первые шаги с СУБД Oracle
Oracle 11g с нуля: первые шаги с СУБД OracleSkillFactory
 
Кластеризация на примере соцсети "Одноклассники"
Кластеризация на примере соцсети "Одноклассники"Кластеризация на примере соцсети "Одноклассники"
Кластеризация на примере соцсети "Одноклассники"Tsvetelina Miteva
 
Mail.ru on Big Data Russia
Mail.ru on Big Data RussiaMail.ru on Big Data Russia
Mail.ru on Big Data Russiarusbase.vc
 
PostgreSQL. Стильно. Модно. Молодёжно
PostgreSQL. Стильно. Модно. МолодёжноPostgreSQL. Стильно. Модно. Молодёжно
PostgreSQL. Стильно. Модно. МолодёжноVladislav Bezverhiy
 
NumBuster on Big Data Russia
NumBuster on Big Data RussiaNumBuster on Big Data Russia
NumBuster on Big Data Russiarusbase.vc
 
Scorista on Big Data Russia
Scorista on Big Data RussiaScorista on Big Data Russia
Scorista on Big Data Russiarusbase.vc
 
Google на конференции Big Data Russia
Google на конференции Big Data RussiaGoogle на конференции Big Data Russia
Google на конференции Big Data Russiarusbase.vc
 
Big data как конкурентное преимущество в условиях кризиса
Big data как конкурентное преимущество в условиях кризисаBig data как конкурентное преимущество в условиях кризиса
Big data как конкурентное преимущество в условиях кризисаГлеб Кащеев
 
SAP on Big Data Russia
SAP on Big Data RussiaSAP on Big Data Russia
SAP on Big Data Russiarusbase.vc
 
Презентация Big data
Презентация Big dataПрезентация Big data
Презентация Big dataSatur-D
 

Destaque (20)

3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компанию3 джозеп курто превращаем вашу организацию в big data компанию
3 джозеп курто превращаем вашу организацию в big data компанию
 
1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат
 
Oracle big data for finance
Oracle big data for financeOracle big data for finance
Oracle big data for finance
 
1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данных1 20150424 ydf_mlevin_мифы и легенды о больших данных
1 20150424 ydf_mlevin_мифы и легенды о больших данных
 
4 azure 24 04
4 azure 24 044 azure 24 04
4 azure 24 04
 
Что такое Big Data ?
Что такое Big Data ?Что такое Big Data ?
Что такое Big Data ?
 
«Oracle Application Quality Management: Средства тестирования и управления те...
«Oracle Application Quality Management: Средства тестирования и управления те...«Oracle Application Quality Management: Средства тестирования и управления те...
«Oracle Application Quality Management: Средства тестирования и управления те...
 
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
Digital Branding Summit 15-16 october 2014. Александр Филатов (Розничная сеть...
 
Oracle
OracleOracle
Oracle
 
Алексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформа
Алексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформаАлексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформа
Алексей Захаров (Oracle): Oracle Business Intelligence - аналитическая платформа
 
Oracle 11g с нуля: первые шаги с СУБД Oracle
Oracle 11g с нуля: первые шаги с СУБД OracleOracle 11g с нуля: первые шаги с СУБД Oracle
Oracle 11g с нуля: первые шаги с СУБД Oracle
 
Кластеризация на примере соцсети "Одноклассники"
Кластеризация на примере соцсети "Одноклассники"Кластеризация на примере соцсети "Одноклассники"
Кластеризация на примере соцсети "Одноклассники"
 
Mail.ru on Big Data Russia
Mail.ru on Big Data RussiaMail.ru on Big Data Russia
Mail.ru on Big Data Russia
 
PostgreSQL. Стильно. Модно. Молодёжно
PostgreSQL. Стильно. Модно. МолодёжноPostgreSQL. Стильно. Модно. Молодёжно
PostgreSQL. Стильно. Модно. Молодёжно
 
NumBuster on Big Data Russia
NumBuster on Big Data RussiaNumBuster on Big Data Russia
NumBuster on Big Data Russia
 
Scorista on Big Data Russia
Scorista on Big Data RussiaScorista on Big Data Russia
Scorista on Big Data Russia
 
Google на конференции Big Data Russia
Google на конференции Big Data RussiaGoogle на конференции Big Data Russia
Google на конференции Big Data Russia
 
Big data как конкурентное преимущество в условиях кризиса
Big data как конкурентное преимущество в условиях кризисаBig data как конкурентное преимущество в условиях кризиса
Big data как конкурентное преимущество в условиях кризиса
 
SAP on Big Data Russia
SAP on Big Data RussiaSAP on Big Data Russia
SAP on Big Data Russia
 
Презентация Big data
Презентация Big dataПрезентация Big data
Презентация Big data
 

Semelhante a 1 big data oracle digi oct

Новости и анонсы Oracle Open World 2014
Новости и анонсы Oracle Open World 2014Новости и анонсы Oracle Open World 2014
Новости и анонсы Oracle Open World 2014Andrey Akulov
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийAndrey Akulov
 
Евгения Курмачева (Oracle): Oracle Database 12c
Евгения Курмачева (Oracle): Oracle Database 12cЕвгения Курмачева (Oracle): Oracle Database 12c
Евгения Курмачева (Oracle): Oracle Database 12cExpolink
 
Database as a Service
Database as a ServiceDatabase as a Service
Database as a ServiceAndrey Akulov
 
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStackSergey Lukjanov
 
Обзор интегрированных систем Oracle
Обзор интегрированных систем OracleОбзор интегрированных систем Oracle
Обзор интегрированных систем OracleAndrey Akulov
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы HadoopTechnopark
 
Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...
Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...
Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...MUK
 
Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)Andrey Akulov
 
Oracle Cloud Computing portfolio and strategy
Oracle Cloud Computing portfolio and strategyOracle Cloud Computing portfolio and strategy
Oracle Cloud Computing portfolio and strategyAndrey Akulov
 
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...IBS
 
Oracle. Олег Файницкий. "Безопасность - главный приоритет облачных решений Or...
Oracle. Олег Файницкий. "Безопасность - главный приоритет облачных решений Or...Oracle. Олег Файницкий. "Безопасность - главный приоритет облачных решений Or...
Oracle. Олег Файницкий. "Безопасность - главный приоритет облачных решений Or...Expolink
 
Drupal в облаке - Владимир Юнев
Drupal в облаке - Владимир ЮневDrupal в облаке - Владимир Юнев
Drupal в облаке - Владимир ЮневDrupalCamp MSK
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхDenodo
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015Ilya Gershanov
 
Андрей Купченко - Active.by Облачные технологии в Беларуси
Андрей Купченко - Active.by Облачные технологии в БеларусиАндрей Купченко - Active.by Облачные технологии в Беларуси
Андрей Купченко - Active.by Облачные технологии в БеларусиSergey Polazhenko
 
Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...
Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...
Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...Банковское обозрение
 

Semelhante a 1 big data oracle digi oct (20)

Новости и анонсы Oracle Open World 2014
Новости и анонсы Oracle Open World 2014Новости и анонсы Oracle Open World 2014
Новости и анонсы Oracle Open World 2014
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
 
Евгения Курмачева (Oracle): Oracle Database 12c
Евгения Курмачева (Oracle): Oracle Database 12cЕвгения Курмачева (Oracle): Oracle Database 12c
Евгения Курмачева (Oracle): Oracle Database 12c
 
Database as a Service
Database as a ServiceDatabase as a Service
Database as a Service
 
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
 
Обзор интегрированных систем Oracle
Обзор интегрированных систем OracleОбзор интегрированных систем Oracle
Обзор интегрированных систем Oracle
 
Operational Reporting
Operational ReportingOperational Reporting
Operational Reporting
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы Hadoop
 
Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...
Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...
Engineered Systems - интегрированные системы Oracle. Обзор возможностей новог...
 
Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)Новые возможности по разработке приложений (ADF, SOA, BPM)
Новые возможности по разработке приложений (ADF, SOA, BPM)
 
MySQL NDB Cluster
MySQL NDB ClusterMySQL NDB Cluster
MySQL NDB Cluster
 
Oracle Cloud Computing portfolio and strategy
Oracle Cloud Computing portfolio and strategyOracle Cloud Computing portfolio and strategy
Oracle Cloud Computing portfolio and strategy
 
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
Иван Тимофев, HP. Архивация баз данных и миграция устаревших приложений cиспо...
 
Oracle. Олег Файницкий. "Безопасность - главный приоритет облачных решений Or...
Oracle. Олег Файницкий. "Безопасность - главный приоритет облачных решений Or...Oracle. Олег Файницкий. "Безопасность - главный приоритет облачных решений Or...
Oracle. Олег Файницкий. "Безопасность - главный приоритет облачных решений Or...
 
Drupal в облаке - Владимир Юнев
Drupal в облаке - Владимир ЮневDrupal в облаке - Владимир Юнев
Drupal в облаке - Владимир Юнев
 
Знакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данныхЗнакомство с виртуализацией данных для профессионалов в области данных
Знакомство с виртуализацией данных для профессионалов в области данных
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
 
Андрей Купченко - Active.by Облачные технологии в Беларуси
Андрей Купченко - Active.by Облачные технологии в БеларусиАндрей Купченко - Active.by Облачные технологии в Беларуси
Андрей Купченко - Active.by Облачные технологии в Беларуси
 
JD Edwards Orchestrator and AIS server
JD Edwards Orchestrator and AIS serverJD Edwards Orchestrator and AIS server
JD Edwards Orchestrator and AIS server
 
Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...
Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...
Сергей Мелехов, Менеджер по развитию бизнеса вычислительных систем Oracle Вос...
 

1 big data oracle digi oct

  • 1.
  • 2. Большие данные на предприятиях Подводные камни и как на них не наткнуться Андрей Пивоваров Руководитель группы перспективных технологий 2
  • 3. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Confidential – 3 Big Data – это новые возможности, ставшие доступными, благодаря новым технологиям или подходам к обработке больших объемов данных
  • 4. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Почему Большие Данные стали использовать на «традиционных» предприятиях? • Технологии, раньше используемые только в веб-проектах (Hadoop, NoSQL) стали достаточно зрелыми – Не обязательно держать штат программистов, чтобы ими пользоваться • Появились новые возможности для получения конкурентных преимуществ: – Глубокий анализ поведения клиентов – Высокоточная реклама – Объединение и анализ данных из многих источников, в том числе неструктурированных – Анализ мошенничеств – и т.д. • Big Data технологии позволяют существенно удешевить хранение и обработку данных
  • 5. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | CaixaBank, Испания CaixaBank - крупнейший финансовый институт Испании, дочка Сберегательного банка Испании, la Caixa 13,7 миллиона клиентов 5 920 отделений 367 миллиардов евро актив Задачи Получение максимальной выгоды от имеющейся информации о заказчиках, полученной по любому из существующих каналов (офисы, интернет, телефон, банковские системы, терминалы…) Создание новой модели унифицированных корпоративных данных и дополнительных возможностей аналитики на основе новой Information Management Architecture Примеры использования • Идентификация возможноcтей для cross-selling и up-selling • Разработка персонифицированных предложений для клиентов • Управление рисками и повышение лояльности к бренду • Улучшенный анализ мошенничества • Отслеживание новых нормативных и регуляторных требований Лучше понимать клиента, анализируя все возможные данные о нём CaixaBank назван самым инновационным банком в мире - World’s Most Innovative Bank at the 2013 Global Banking Innovation Awards (Ноябрь 2013)
  • 6. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Отличия традиционных предприятий от интернет-проектов в контексте Больших данных • Бизнес предприятия не построен вокруг создания кластеров • Большие данные начинают использоваться как новые возможности, дополняющие существующие системы • Значительные наработки и инвестиции в области реляционных СУБД и отсутствие или небольшой опыт в областях типа Hadoop – Отсюда обязательное требование по интеграции ТБД с реляционными базами, системами бизнес-анализа и т.д. • Пользователи требуют обеспечить работу с Большими данными как с обычной СУБД, используя привычные инструменты
  • 7. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Направления работы корпорации Oracle в области Больших данных • Оптмизированные программно-аппаратные комплексы для Больших данных на базе Cloudera Hadoop Distribution • Интеграция данных в Hadoop/NoSQL и традиционных реляционных данных • Разработка собственной Oracle NoSQL Database и других продуктов • Оптимизация (ускорение доступа) к данным • Безопасность • Визуализация Больших данных • Методология построения систем Больших данных на основе практического проектного опыта
  • 8. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Big Data Management System SOURCES РЕЗЕРВУАР ДАННЫХ ХРАНИЛИЩЕ ДАННЫХ Oracle Database Oracle Industry Models Oracle Advanced Analytics Oracle Spatial & Graph Big Data Appliance Apache Flume Oracle GoldenGate Oracle Event Processing Cloudera Hadoop Oracle Big Data SQL Oracle NoSQL Oracle R Advanced Analytics for Hadoop Oracle R Distribution Oracle Database In-Memory, Multi-tenant Oracle Industry Models Oracle Advanced Analytics Oracle Spatial & Graph Exadata Oracle GoldenGate Oracle Event Processing Oracle Data Integrator Oracle Big Data Connectors Oracle Data Integrator/ GoldenGate БИЗНЕС АНАЛИТИКА
  • 9. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Преимущества построения систем с резервуаром данных 1 Дешевое хранение Только значимые и актуальные данные живут в реляционном ХД Гибкость В резервуаре хранятся любые данные, не нужна предопредленная структура и модель хранения Data Warehouse Традиционные источники данных Новые источники Резервуар данных Хранилище данных Предварительная обработка данных на распределенном кластере
  • 10. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Hadoop • Apache Hadoop - распределенная масштабируемая вычислительная архитектура • Одна из самых популярных платформ для хранения и обработки больших объемов данных • Подходит для аналитических задач • Очень быстро развивается • Oracle совместно с Cloudera производит программно аппаратный комплекс для Hadoop (и Oracle NoSQL DB)
  • 11. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Подводные камни мира Больших данных • Hadoop – это не только дешево, но кластер – это множество узлов, которые нужно инсталлировать, сопровождать, управлять и т.д. • Недооценка сложностей, которые возникают при переходе от «песочниц» к проекту масштаба предприятия – Возможность использования кучи дешевого железа – хорошо, но имеет свою цену • Недооценка недостатков Hadoop – Hadoop предназначен для загрузки больших кусков данных – Нет транзакций и т.д. • Недооценка сложности интеграции данных из двух миров (реляционного и Hadoop)
  • 12. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | BIG DATA Appliance
  • 13. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Appliance X5-2 •Готовый Hadoop или Oracle NoSQL DB кластер •Совместно тестируется разработчиками Oracle и Cloudera •Оптимизирован для высочайшей производительности •Единое окно техподдержки по всей системе, включая ПО Cloudera •До 864TB в одной стойке –Возможны также конфигурации 1/3 и 2/3 стойки
  • 14. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Appliance X5-2 Sun Oracle X5-2L Servers. На каждом: • 2 * 18 Core Intel Xeon E5 Processors • 128 GB Memory • 48TB Disk space Программное обеспечение(4.1): • Oracle Linux6.5, Oracle JDK 7u72 • Oracle Big Data SQL 1.1* • Cloudera Distribution of Apache Hadoop 5.3 – EDH Edition • Cloudera Manager 5.3 • Oracle R Distribution 3.1.1-2 • Oracle NoSQL Database CE 3.2.4 * Oracle Big Data SQL is separately licensed
  • 15. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Что вам НЕ придется делать с Big Data Appliance (1/2) • Подбирать и оптимизировать компоненты – сервера, диски, количество дисков, процессоры, сети, память и т.п. • Заключать отдельный договор о поддержке с Cloudera • Собирать кластер • Настраивать сетевые коммутаторы • Инсталлировать операционную систему на каждом узле и • Отслеживать и устанавливать оптимальные версии драйверов и прошивок для каждого компонента • Настраивать операционную систему для оптимальной производительности (у нас же очень много данных!) • Настраивать Java
  • 16. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Что вам НЕ придется делать с Big Data Appliance (2/2) • Инсталлировать дополнительное ПО от Cloudera • Тестировать работоспособность и производительность каждого узла кластера • Заниматься самостоятельно трудоемкой процедурой многуровнего апгрейда и патчирования BIOS, OS, Java, Hadoop и т.п. • И просто следить за тем, что нужно что-то проапгрейдить • Изучать как это все сделать без остановки и прерывания работы пользователей • Заниматься дизайном перебансировки кластера при его расширении • И т.д. и т.п.
  • 17. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Big Data SQL
  • 18. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Разные подходы – разные преимущества 1 0 1 2 3 4 5 Мощь инструментов Встроенный функционал ACID транизакции Безопасность Разнообразие форматов данных Разреженные данные Простота ETL Стоимость хранения Простота загрузки Взаимодействие с другими системами Hadoop RDBMS • У Hadoop свои плюсы • У СУБД свои
  • 19. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Недостатки существующих систем Больших данных • Для работы с Hadoop и реляционными базами данных требуются разные навыки • Существующие механизмы доступа к данным в Hadoop функционально ограничены или работают медленно • Конечные пользователи используют разные инструменты для работы с Hadoop и реляционными базами
  • 20. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 0 1 2 3 4 5 Мощь инструментов Встроенный функционал ACID транизакции Безопасность Разнообразие форматов данных Разреженные данные Простота ETL Стоимость хранения Простота загрузки Взаимодействие с другими системами Hadoop RDBMS Цель Есть ли возможность объединить два мира? 2 Как это сделать? И как это использовать?
  • 21. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | SQL
  • 22. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | SQL существует и спользуется уже более 40 лет SELECT dept, sum(salary) FROM emp, dept WHERE dept.empid = emp.empid GROUP BY dept
  • 23. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Apache Hive • Apache Hive – Один из самых популярных проектов для обработки данных над Hadoop – Инфраструктура, эмулирующая реляционную СУБД над Hadoop – Есть SQL-подобный язык HiveQL – Позволяет строить аналог свербольших хранилищ данных в Hadoop
  • 24. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | SQL on Hadoop – не только Hive Stinger
  • 25. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | HiveQL: SQL очень ограничен • Basic functions – round, sqrt, floor, ceiling, concat, lower, upper, etc. • Aggregate functions – count, sum, min, max, avg, variance, stddev, covar, etc. • Windowing functions – lag, lead, first, last, row_number, dense_rank, cume_dist, percent_rank, ntile SQL Ограничения: • Подзапросы • Объединения • Стат функции
  • 26. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | next = lineNext.getQuantity(); } if (!q.isEmpty() && (prev.isEmpty() || (eq(q, prev) && gt(q, next)))) { state = "S"; return state; } if (gt(q, prev) && gt(q, next)) { state = "T"; return state; } if (lt(q, prev) && lt(q, next)) { state = "B"; return state; } if (!q.isEmpty() && (next.isEmpty() || (gt(q, prev) && eq(q, next)))) { state = "E"; return state; } if (q.isEmpty() || eq(q, prev)) { state = "F"; return state; } return state; } private boolean eq(String a, String b) { if (a.isEmpty() || b.isEmpty()) { return false; } return a.equals(b); } private boolean gt(String a, String b) { if (a.isEmpty() || b.isEmpty()) { return false; } return Double.parseDouble(a) > Double.parseDouble(b); } private boolean lt(String a, String b) { if (a.isEmpty() || b.isEmpty()) { return false; } return Double.parseDouble(a) < Double.parseDouble(b); } public String getState() { return this.state; } } BagFactory bagFactory = BagFactory.getInstance(); @Override public Tuple exec(Tuple input) throws IOException { long c = 0; String line = ""; String pbkey = ""; V0Line nextLine; V0Line thisLine; V0Line processLine; V0Line evalLine = null; V0Line prevLine; boolean noMoreValues = false; String matchList = ""; ArrayList<V0Line> lineFifo = new ArrayList<V0Line>(); boolean finished = false; DataBag output = bagFactory.newDefaultBag(); if (input == null) { return null; } if (input.size() == 0) { return null; } Object o = input.get(0); if (o == null) { return null; } //Object o = input.get(0); if (!(o instanceof DataBag)) { int errCode = 2114; Сравнение Oracle SQL c HiveQL Simplified, sophisticated, standards based syntax SELECT first_x, last_z FROM ticker MATCH_RECOGNIZE ( PARTITION BY name ORDER BY time MEASURES FIRST(x.time) AS first_x, LAST(z.time) AS last_z ONE ROW PER MATCH PATTERN (X+ Y+ W+ Z+) DEFINE X AS (price < PREV(price)), Y AS (price > PREV(price)), W AS (price < PREV(price)), Z AS (price > PREV(price) AND z.time - FIRST(x.time) <= 7 )) 250+ строк на Java UDF 12 строк на Oracle SQL В 20 раз меньше кода Поиск шаблона (W) в биржевых данных 10:00 10:05 10:10 10:15 10:20 10:25 Ticker
  • 27. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Данные хранятся во многих местах Транзакции RelationalHadoop Логи NoSQL Профили клиентов SQL
  • 28. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Big Data SQL Новая технология для обращения к данным в Hadoop из Oracle Database Запросы кOracle, Hadoop иNoSQL Oracle SQL Oracle NoSQLDB HDFS DataNode Oracle NoSQLDB HDFS DataNode OracleDatabase StorageServer OracleDatabase StorageServer •Для пользователя не важно, где лежат данные – в Oracle или в Hadoop •Использование данных в Hadoop любыми BI инструментами •Все возможности языка SQL Oracle •Использование наработок Exadata •Интеграция Big Data Appliance и Exadata
  • 29. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Потенциал для запросов к любой системе Расширение на любой источник в будущем Ит.д.…
  • 30. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Интеграция больших данных
  • 31. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Подходы к интеграции больших данных ETLETL HDFS Традиционные ETL инструменты Spark Sqoop Sqoop Hive Pig Manual Code Ручное кодирование Spark Sqoop Hive Pig ODI Oozie Sqoop Oracle Data Integrator GG
  • 32. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Data Integrator Не требуется отдельный ETL сервер Логический и физический дизайн разделены Физическое выполнение кода SQL, Hive, Pig, Spark Использование Oozie или ODI Java Agent Библиотека операторов Возмоно определять свои функции
  • 33. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Enterprise Metadata Management ETL BI Dashboards App ETL ETL Как считаются продажи? Что произойдет, если я поменяю эту таблицу? Какие отчеты используют данные с этого сервера? Sys Admin Руководитель Разрабочик BI Из какой системы пришли данные? Польщователь Какой отчет использует эти данные? CDC Hadoop Data Lake Data Steward Можно ли доверять источнику? ETL разрабочтик Я хочу провести эксперимент. Какие данные у меня есть в наличии? Data Scientist GG
  • 34. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Big Data Discovery
  • 35. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Проблемы аналитической обработки Больших Данных Сложность инструментария • Hadoop инструменты рассчитаны на экспертов • Существующие BI инструменты не рассчитаны на Hadoop • Нишевые инструменты имеют ограниченную функциональность 80% усилий тратится на подготовку данных Неопределенность данных • Большой объем, гибкая структура • Полезность данных не очевидна • Значительные усилия по подготовке данных Зависимость от высоко- квалифицированных экспертов
  • 36. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Требуется новый подход Быстрой трансформации и обогащения данных для эффективной работы с ними Снятия барьеров с Больших данных для исследования и поиска новых возможностей Единый интуитивный визуальный интерфейс для ... Поиска и изучения для понимания потенциала данных find explore transform discover share
  • 37. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 3 Oracle Big Data Discovery Визуализация данных Hadoop find explore transform discover share
  • 38. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | КаталогOracle Big Data Discovery Понять потенциал Больших Данных 4 • Доступ к интерактивному каталогу данных, расположенных в Hadoop • Удобный поиск и навигация в наборах данных • Суммарная информация о наборах данных; описания, теги пользователей
  • 39. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | ИзучениеOracle Big Data Discovery Понять потенциал Больших Данных 4 • Визуализация статистической информации по всем атрибутам • Сортировака атрибутов на основе потенциала данных • Распределение данных, качество данных и выбросы • Понимание корелляции между атрибутами
  • 40. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 4 Oracle Big Data Discovery Разблокировать Большие Данные • Drag&drop интрефейс для создания аналитических приложений • Использование поисковых возможностей и фасетной навигации • Объединение различных данных для более глубокого анализа • Поиск новых патернов, закономерностей в интерактивном визуальном аналитическом интерфейсе Исследование
  • 41. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Information Management Reference architecture
  • 42. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Information Management Reference Architecture Уровеньдоступакданным Бизнес аналитика Информаци- онные сервисы Простота и скорость загрузки данных Стоимость запроса к данным Уровень производительного доступа Фундаментальный слой данных (3N форма) Хранилище первичной информации Data Science Первичная информация хранится без всяких изменений Данные очищены, организованы в некоторую структуру, но абстрагированы от бизнес процессов Данные организованы в соответствии с требованиями бизнес процессов, для достижения максимальной производительности Исследование данных Среда разработки Исследование данных, выявление новых закономерностей Разработка взаимодействия всех слоев приложения Источники данных Мультиструктурные источники Контент Docs Web & Social Media SMS Структурированные Данные (из реляционных источников) Мастер данные Планирование и бюджетирование
  • 43. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | При создании Oracle IM Ref Architecture учитывается: • Мультивендорный ландшафт заказчиков • Хранилища данных и аналитика постоянно эволюционируют • Существование разных типов данных (структурированные, неструктурированные) и подходов к их обработке • Необходимость не только обработки исторических данных, но и существование задач реагирования в режиме близком к реальному времени (Fast Data) • Необходимость хранения исходных данных • Необходимость создания «песочниц» для экспериментов
  • 44. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 5 Есть вопросы? Andrey.Pivovarov@oracle.com
  • 45. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | 5
  • 46. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Exadata Database Machine
  • 47. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Oracle Exadata X5 • Машина для СУБД Oracle – Хранилища данных – OLTP – Смешанные нагрузки – Консолидация • Высочайшая производительность СУБД Oracle – Exadata Software используется для предобработки данных прямо на уровне системы хранения • До 672TB в одной стойке • Exadata позволяет использовать новейшие технологии: – In Memory Database Option – Колоночное хранение данных – Опционально – 100% хранение данных на Flash
  • 48. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Exadata X5-2 Hardware  2-Socket Database Servers – Fastest Xeon chips, 18-core, 256 GB to 768 GB DRAM  InfiniBand Network – 40 Gb InfiniBand внутренняя сеть – 10 Gb or 1 Gb Ethernet для внешей связи  2-Socket Storage Servers – 16 ядер на сервере для предобработки данных на СХД – Extreme Flash (EF) Storage  12.8 TB Ultra-Fast PCI Flash Drives или – High Capacity (HC) Storage  6.4 TB Ultra-Fast PCI Flash Cards + 48 TB SAS disks 5
  • 49. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Примеры конфигураций Exadata для рахличных нагрузок 5 16 Database Servers + 5 High Capacity Storage Servers DB In-Memory Machine Extreme Flash OLTP Machine 8 Database Servers + 8 Extreme Flash Storage Servers Data Warehousing Machine Много серверов БД, много памяти несколько серверов хранения 100% Flash хранение данных для OLTP систем Большой объем хранилища Большое количество серверов БД 576 DB Cores 13.3 TB RAM 32 TB Flash 240 TB Disk 288 DB Cores 2 TB RAM 102 TB Flash 288 DB Cores 224 Storage Cores 90 TB Flash 672 TB Disk 8 Database Servers + 14 High Capacity Storage Servers
  • 50. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Масштабируемость Exadata Тысячи процессорных ядер Петабайты данных
  • 51. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | • Захват и анализ данных с сенсоров • Огромные объем данных в единицу времени Ускорение летных испытаний для сокращения времени поставки новых самолетов Ускорение летных испытаний Solution components: Real-Time Decisions, Event Processing Solution Components: BDA and NoSQL
  • 52. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | Рецепты: Поиск ошибок и мошенничеств • 8 миллионов рецептов обрабатывается каждый день • Поиск неправильного использования препаратов • Интеграция структурированных и неструктурированных данных • Геоаналитика У мненьшение количества ошибок и мошенничеств Solution components:, BI Foundation, Endeca, Advanced Analytics – ‘R’ statistical analysis & data mining, Exalytics, Exadata
  • 53. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | • 18M учеников и 42 000 школ • Аналитика поведения учеников и учителей • Комбинация RDBMS и Hadoop • Цель – сделать образование более эффективным Улучшение аналитики для системы образования Трансформация образования в Турции Solution components: Real-Time Decisions, Event Processing Solution Components: 2 BDA, 2 Exadata, 2 Exalogic, 2 Exalytics, IDM
  • 54. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | • Аналитика и предложеия в реальном времени • Использование Event Processing • Сервис предоставляется внешним партнерам • Генерация новых доходов Геомаркетинг для предоставления новых услуг Монетизация данных
  • 55. Copyright © 2014 Oracle and/or its affiliates. All rights reserved. | •Как вам удалось изменить счет с 1-8 на 9-8? Oracle Big Data в Oracle Team USA Мы взломали код •300 сенсоров на яхте •выдают 2 ГБ данных за одну гонку