DataStax Enterprise et Cas d'utilisation de Apache Cassandra
1. DataStax Enterprise (DSE)
et Cas d’utilisation
Zenika Lyon – 09/04/15
Victor Coustenoble Ingénieur Solutions
victor.coustenoble@datastax.com
@vizanalytics
2. 2
DataStax délivre une plateforme de la base de données
Apache Cassandra, conçue spécifiquement pour les
besoins en Performance et Disponibilité exigés par les
applications d’Internet des Objets, Web ou Mobiles, en
offrant aux entreprises une base de données Sécurisée
toujours disponible, qui reste Simple à administrer même
pour des déploiements à grande échelle, dans un seul ou
de Multiples Data Centers et dans le Cloud.
3. Aperçu
Fondé en avril 2010
~30 500+
Santa Clara, Austin, New York, London, Paris, Sydney
400+
Employés Pourcent Clients
3
4. Straightening the road
RELATIONAL DATABASES
CQL SQL
OpsCenter / DevCenter Management tools
DSE for search & analytics Integration
Security Security
Support, consulting & training 30 years ecosystem
9. Table In-Memory = Lecture depuis MemTable
• Apporte tous les bénéfices de Cassandra à une base de données en mémoire
• Simple à utiliser
• Les tables en mémoire ressemblent et fonctionnent comme toute table Cassandra
• Idéal pour les cas d’utilisation demandant une latence faible en lecture
• Peut être combiné avec de l’analytique en mémoire pour un framework complet de
processus transactionnel/analytique en mémoire
• Ecritures sont durables
• Amélioration de x10-x100
9
10. Securité dans Apache CassandraFONCTIONSBENEFICES
Authentication Interne
Gestion des ID de login et des
mots de passe dans la base de
données
+ S’assure que seuls les
utilisateurs autorisés peuvent
accèder à la base de données
utilisant la validation interne
+ Simple à implémenter et facile
à comprendre
+ Pas de courbe
d’apprentissage par rapport au
monde relationnel
Gestion de la Permission des
Objects
Contrôle des accès aux objets et
des actions des utilisateurs dans la
base de données
+ Fournit un contrôle fin des
utilisateurs pouvant
ajouter/modifier/supprimer/lire
les données
+ Utilisation des commandes
classiques GRANT/REVOKE
des systèmes relationnels
+ Pas de courbe d’apprentissage
Encryption Client à Noeud
Protége les données naviguant
vers et depuis le cluster de base
de données
+ S’assure que les données ne
peuvent pas être
interceptées/volées lors de
l’acheminement au serveur
+ Les données sont sécurisées à
la fois en transit vers/depuis la
base de données et sur la base
de données; une couverture
compléte est assurée
11. Securité Avancée dans DataStax EnterpriseFONCTIONSBENEFICES
Authentication externe
Utilisation de systèmes de sécurité
externes pour gérer la sécurité
+ Seuls les utilisateurs autorisés
peuvent accèder à la base de
données utilisant la validation
externe
+ Utilisation des meilleurs
systèmes de sécurité externes
(Kerberos, LDAP, Active
Directory)
+ Authentification unique pour tous
les domaines de données
Chiffrement Transparent des
Données
Processus de cryptage des
données au repos
+ Protége les données sensibles
au repos contre le vol et contre
la lecture au niveau du système
de fichier
+ Pas besoin de changement au
niveau applicatif
Audit des Données
Propose des pistes d’audit pour
savoir qui a fait/vu quoi et quand
+ Fournit aux administrateurs des
pistes d’audit de tous les accès
et changements
+ Contrôle fin pour auditer
seulement ce qui est nécessaire
+ Utilisation de l’interface log4j
pour assurer les opérations
d’audit de performance et
d’efficacité
13. OpsCenter - La visualisation de votre Cluster
Monitoring
● Visualisation des noeuds
● Métriques & Alertes *
● Activité des noeuds
● Temps Réel
Opérations
● Configuration
● Opération sur les noeuds
● Opération de masse
● Re-équilibrage *
● Sauvegarde / Restauration *
● Point In Time Recovery *
• Visuel, interface utilisateur Web.
• Tâches d’installation, de configuration, et d’administration avec de simples clics
• Support visuel des Services de Gestion Automatique DataStax
• API REST permettant de scripter toutes les fonctions de OpsCenter
• Fonctionne sur tout type de terminal (tablette, etc.)
• Historique des métriques *
• Accès sécurisé *
* Seulement dans Datastax Enterprise
18. Moteur de Recherche
• Recherche sur des données Cassandra à travers une intégration forte du moteur Solr
• Facettes, filtres, recherche geospatial, recherche plein texte, etc…
• Opérations de recherche temps réel
• Requêtes de recherche depuis CQL et l’API REST de Solr
• Avantages par rapport à Solr seul:
• Pas de goulot d’étranglement, le client peut lire/écrire sur tous les noeuds Solr
• Partionnement et réplication des index de recherche pour la montée en charge et la disponibilité
• Support Multi-DataCenter
• Durabilité de la donnée (Solr manque de log, les données peuvent être perdues)
18
Replication
Cassandra
Application
Opérationnelle
Noeuds
Recherche
20. Analytique Batch Externe - BYOH
“Bring Your Own Hadoop”
Hadoop Externe
Resource
Manager
Requête
Hive
• Support Hadoop 2.x
• Noeud Cassandra vu comme un DataNode
• Ex: Hive soumet des jobs au Job tracker qui
assigne les tasks aux Task trackers installés
sur les noeuds Cassandra
• Certifié sur Cloudera et Hortonworks
Noeuds
Cassandra
23. Spark Use Cases
23
Load data from various
sources
Analytics (join, aggregate, transform, …)
Sanitize, validate, normalize data
Schema migration,
Data conversion
26. Comment utilisez vous DataStax?
En contrôlant votre
consommation d’énergie
En regardant des films
en streaming
En naviguant
sur des sites Internet
En achetant
en ligne
En effectuant un règlement
via Smart Phone
En jouant à des
jeux-vidéo très
connus
27. 5 Cas d’usage fréquents
Messagerie
Collections/
Playlists
Détection de
Fraude
Recommandation/
Personnalisation
Objets connectés/
Données de
Capteurs
29. Netflix séduit ses Clients avec des Recommandations Personnalisées
Leader mondial de la vidéo en streaming avec un revenu supérieur à 1.5 Milliard de $
Adapte le contenu délivré en se basant sur les données de visionnage capturées dans Cassandra
Capitalisation boursière en hausse de 600% depuis 2012
L’introduction des ‘Profiles’ a poussé le débit à plus de 10M de transactions par seconde
A Remplacé Oracle dans six data centers dans le monde, 100% en mode cloud
Use Case: Personalization
29
31. Déploiement Cassandra chez Apple
• 75 000+ noeuds
• 10’s petabytes de données
• Millions ops/second
• Plus gros cluster à 1000+ noeuds
Apple Inc.: Cassandra at Apple for Massive Scale
Video https://www.youtube.com/watch?v=Bc4ql9TDzyg
From Cassandra Summit, London, December
2014
32. Spotify Translates Mood into Music by Delivering the Right Playlist for Every Moment
Leading streaming music provider with over 40M+ active monthly users
Empowers users to access massive database of music and create and share custom playlists
Over 1 billion playlists created and managed in real time
More than 40,000 requests/second handled without latency
Managing 500+ nodes across 4000 servers in 4 data centers without any downtime
Use Case: Playlists
33. Google Nest Revolutionizes the Thermostat
Google pays $3BN for Nest, not for thermostat, but for data
All interactions with customer thermostats are written to DataStax
All mobile application interactions are handled by DataStax
DataStax chosen for ability to handle high velocity writes in time series
Use Case: Internet Of Things
34. EBay Connects 100M Customers with 400M Items; Always-On
World’s largest online marketplace needed highly scalable, available and robust data store
Handles fraud detection, messaging, and more with DataStax Enterprise
Ensures that users get the most accurate results for their searches
Stores vast amounts of data: 250 TBs (Single transactional table: 40TB!)
Handles high velocity with over 6 billion writes and 5 billion reads daily
34
35. Delivers 150+ Billion Content Recommendations Per Month
Serves content for largest media brands in the world: Reuters, Wall St Journal, USA Today
Needed a massively scalable data store
High velocity of data with 58,000 links to content per second
Always-on data architecture
Lost a data center during Hurricane Sandy but never went offline
35
36. Credit Suisse Benefits from Cassandra’s Resiliency
Play: Cloud/On-Prem/Hybrid
Public clouds not an option
Key infrastructure challenges: high availability, data retention, scale and user experience
Started with risk-management systems to help improve up-time
Expanding into new areas
A new approach—traditional databases could not meet performance needs
Key Takeaway-
Introduce the company, our incredible growth and global presence, that we are in about 25% of the FORTUNE 100, and the fact that many of the online and mobile applications you already use every day are actually built on DataStax.
Talk Track-
DataStax, the leading distributed database technology, delivers Apache Cassandra to the world’s most innovative companies such as Netflix, Rackspace, Pearson Education and Constant Contact. DataStax is built to be agile, always-on, and predictably scalable to any size.
We were founded in April 2010, so we are a little over 4 years old. We are headquartered in Santa Clara, California and have offices in Austin TX, New York, London, England and Sydney Australia. We now have over 330 employees; this number will reach well over 400 by the end of our fiscal year (Jan 31 2015) and double by the end of FY16.
Currently 25% of the Fortune 100 use us, and our success has been built on our customers success and today and we have over 500 customers worldwide, in over 40 countries. The logos you see here are ones that you are already using every day.
These applications are all built on DataStax and Apache Cassandra.
So how have we come so far in such a short time…..?
En fait la mission de DataStax est de vos libérer de ces incertitudes et vous faciliter la route sur cette nouvelle voie.
A cette fin, nous vous offrons un DML DDL appelé CQL très proche du SQL maitrisé par vos équipes, des outils complets d’administration et de monitoring,
So, What DataStax is doing is trying to straightened that bend in the road. We are providing things like CQL, and management tools called DevCenter and OpsCenter. DataStax Enterprise provides integration into analytics and search capabilities and we do it all within a secure environment. We also provide consultants and training courses, including free virtual training to help get you up to speed.
DataStax is the company that delivers Cassandra to the enterprise.
First, we take the open source software and put it through rigorous quality assurance tests including a 1000 node scalability test.
We certify it and provide the worlds most comprehensive support, training and consulting for Cassandra so that you can get up and running quickly.
But that isn’t all DataStax does.
We also build additional software features on top of DataStax including security, search, analytics as well as provide in memory capabilities that don’t come with the open source Cassandra product.
We also provide management services to help visualize your nodes, plan your capacity and repair issues automatically.
Finally, we also provide developer tools and drivers as well as monitoring tools. DataStax is the commercial company behind Apache Cassandra plus a whole host of additional software and services.
Predictive analytics
Does this simple architecture look familiar to you? Lambda
Nathan Marz
DUYHAI
Qui nous connait parmi vous. En fait dans votre vie quotienne, vous utilisez la technologie DataStax sans le savoir : ebay pour les recommandations produit, bientot NetFlix pour visonner des films en streaming, un achat par SmartSphone grace à nouveau un service offert par un grande banque mutualiste, un échange de de message instantanée avec un service du plus gros opérateur de téléphonie en France etc… Finallement vous utilisez dans votre vie de tous les jours les différents types d’applications proposées par nos 500 clients et qui s’appuie sur notre technologie de base de données
We are growing so fast, and in so many ways, I'm willing to bet you’ve used our technology several times in just the past few days and don’t even realize it. Whether you did some online banking, browsed news sites, did a bit of retail shopping, filled a few prescriptions, or watched movies online -- basically, if you lived your life -- you used the kinds of applications that we power for over 400 customers, including over 20 of the Fortune 100.
Key Takeaway-
Educate your customer on the Netflix use case (Personalization)
Talk Track-
Now that we understand the dynamics of the new radically connected world, the challenges facing businesses in keeping pace and how DataStax and Apache Cassandra can help, let’s take a look at some real live customer examples.
Netflix is a long time user of Apache Cassandra and a loyal DataStax customer.
In an effort to deliver an amazing personalized viewing experience for its customers, Netflix decided to introduce “profile” functionality to ensure it could capture viewing history and preferences of multiple individual users of the same Netflix account. This decision unexpectedly resulted in a 5X increase in the volume of transactions that they needed to handle on a daily basis. In real terms this represented a jump to a total of 10 million transactions per second or a staggering trillion transactions per day.
Netflix, having tried to manage this using their Oracle RDBMS and failed, turned to Cassandra to solve the problem.
Key Takeaway:
Educate your customer on the Spotify use case (Playlists). Cassandra allows Spotify to manage massive volumes of data while allowing their customers to build and find playlists without ever worrying about downtime.
Talk Track-
Another great use case is Spotify. Spotify uses Apache Cassandra as it’s data store for their massive product catalog of over 24 million songs. Their requirements around 100% uptime and the ability to quickly analyze massive volumes of data to empower users to create and share their own playlists.
They replaced their PostgreSQL database for Cassandra because of its ability to deliver 100% availability of their streaming service through its multi-data center replication and no single point of failure. It’s integration with Apache Spark allows them to have real time data processing and analytics to allow their customers to find songs and build playlists.
Ultimately, Spotify is managing over 1 billion playlists in real time, more than 40,000 requests/second handled without latency, and ensuring 100% uptime for 500+ nodes across 4000 servers in 4 data centers.
Key Takeaway:
Educate your customer on the Nest use case (Internet of Things). Nest, acquired by Google, provides smart thermometers that learn from user interaction in order to provide a more personalized experience.
Talk Track-
Nest is a great example of a company that needed to do just that - scale for high volume, at extremely high velocity.
Nest provides intelligent thermometers and smoke detectors for the connected home. They were recently acquired by Google for $3B, not for their thermostat, but for their data. To support this high volume of time series data, Nest chose DataStax to store and handle all interactions between the Nest mobile app and the thermometers and ensure guaranteed performance and 100% uptime, all the time.
Team at Credit Suisse implemented a project called Hippo, an application that enables a trader’s risk system, interacts with the trading user interface, and stores results and reports. The goals are to provide a risk system that can meet the high availability requirement traders demand, a data retention feature for regulatory compliance, an optimal trading UI for easier navigation and the ability to handle the potential growth of the portfolio data no matter the size.
Credit Suisse uses Cassandra to enable the risk system to be available 24x7 to allow more than 600 traders around the globe to pull results of various control functions for trading activities.
Cassandra use case
http://www.datastax.com/2015/01/project-hippo-at-credit-suisse-how-cassandra-helped-financial-services-industry-giant-innovate