O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Data Science Algorithms @ Xing

49 visualizações

Publicada em

Lecture on Data Science @ Xing

Publicada em: Dados e análise
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Data Science Algorithms @ Xing

  1. 1. Minimizing The Rage One Step at a Time Daniel Kohlsdorf dkohl.org dkohlsdorf@gmail.com
  2. 2. 2 1. [WS 07/08 - SS 11] Dipl. Inf Uni Bremen (Wearables / Gestures) 2. [12 - 15] PhD CS Georgia Tech (Dolphins) 3. [Now] Xing SE - Data Science About Me
  3. 3. Outline 3 1. About Rage and Xing 2. Optimisation in General (Fast) 3. More Like This: Word2Vec (Informal) 4. Outlier Filtering: Gradient Boosted Trees 5. Data & Code: Infrastructure Xing Use Case and Engineering Methods We Use In General Please Interrupt me
  4. 4. Title/Name/Place/Date (edit by "Insert > Header and Footer") 3 Social Network Communities Jobs Tools for Recruiters Events What does XING offer? Title/Name/Place/Date (edit by "Insert > Header and Footer") 3 Social Network Communities Jobs Tools for Recruiters Events What does XING offer? Title/Name/Place/Date (edit by "Insert > Header and Footer") 3 Social Network Communities Jobs Tools for Recruiters Events What does XING offer? Title/Name/Place/Date (edit by "Insert > Header and Footer") 3 Social Network Communities Jobs Tools for Recruiters Events What does XING offer?
  5. 5. Job Recommendations 5
  6. 6. Job Recommendations @Xing 6 2 Scala Dev (m/w) Scala Engineer Scala Dev, Hamburg user job postings Job recommender companies
  7. 7. Recommendations on Start Page 7 Start Page Job recommendations
  8. 8. Recommendations in the Jobs Market 8 Reco Page Job recommendations
  9. 9. A sample job posting 9 Example Job recommendations Example: item (job posting) 5
  10. 10. 10 Content Based Recommendations @Xing PROFILE POSTINGS
  11. 11. 11 Content Based Recommendations @Xing PROFILE POSTINGS
  12. 12. Key sources for understanding user demands 12 Social Network explicit and implicit connections Profile Fabian Abel Data Scientist Haves: Interests: web science big data, hadoop skills & co. Interactions data web social media clicks, shares, ratings big data kununu Interactions of similar users similar usershadoop scala
  13. 13. The Rage 13
  14. 14. Sources Of The Rage 14 1. Users are insulted by recommendations 2. Everything Matches except one field (Internship vs C-Level) 3. Matching …
  15. 15. 15 Text Text Understanding the meaning of things that people write in job postings and in their profiles is not trivial…
  16. 16. Job Recommendation Architecture What John writes… And what he means… Recruiter-John International Sales Manager Call Center Agent (10 EUR per hour) Sales Manager Sales Manager for B2B customers (80K EUR per year) Data Scientist skilled in Hadoop, Scala, Elasticsearch, … with PhD in … Data Analyst (skilled in SAS or Excel) 16
  17. 17. 17 What Paul says he is… And what he means… Paul, the Candidate CEO Network Engineer (currently unemployed) BI Engineer (skilled in old-school ETL) Shopman (in a kiosk) Data Scientist with 100+ skills Sales Manager
  18. 18. Approach 1: Filtering bad recommendations 18 1. Use feedback app 2. Rating prediction 3. Filter postings from recommendations with low rating
  19. 19. Approach 2: More Like This 19 1. Use Bookmarks and Reply Intentions as strong positive feedback 2. Search semantically similar postings 3. Rescore recommendations based on similarity to bookmark
  20. 20. Optimisation 20
  21. 21. Linear Regression - Short Recap 21 1. Text 2. Text 3. Text 4. Text 5. Text X1 Y • 1D Linear Regression • Learn Line from Data: • Model: • With Parameters: bias slope • 2D Linear Regression • Learn Plane from Data: • Model: • With Parameters:
  22. 22. Linear Regression - Short Recap 22 input slope output X Y bias slope vectors
  23. 23. Logistic Regression - Short Recap 23 y’ x 0 >= y <= 1 y’ y
  24. 24. Learning Setup 24 • Probability for positive example • Probability for negative example • Short form • For dataset L (w,b) After Some Math: http://cs229.stanford.edu/notes/cs229-notes1.pdf
  25. 25. Learning 25 Text + +
  26. 26. Stochastic / MiniBatch 26
  27. 27. Newton 27 Taylor Series Expansion http://mathworld.wolfram.com/TaylorSeries.html
  28. 28. More on Optimisation and Derivatives 28
  29. 29. Word2Vec 29
  30. 30. Word Embeddings 30 Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). "Distributed Representations of Words and Phrases and their Compositionality"
  31. 31. Word2Vec Model 31 1. Sliding Window over text 2. Predict center word
  32. 32. Derivatives 32 LogisticRegression 1. Sums do not change the gradient but distribute it. 2. Weights of embeddings are updated equally 3. In other words, the error from the logistic regression is passed equally to the embeddings involved in the average.
  33. 33. Gradient Flow In Word2Vec 33 1. Gradients from prediction attempt spread equally among words involved 2. Words in same prediction context become more similar
  34. 34. Visualisation 34 Ihr Profil Abgeschlossene Ausbildung im Bereich Informatik oder vergleichbare Berufserfahrung, idealerweise in einem medizinischen Umfeld Gute Datenbankkenntnisse, SQL-Abfragen, Prozeduren Know-How im Bereich CITRIX und MS-Server von Vorteil Erste Erfahrungen mit Performanceanalysen und Optimierungen im SQL-Server-Umfeld wünschenswert Eigeninitiative, Zuverlässigkeit und Teamgeist Rasche Auffassungsgabe und analytisches Denkvermögen Bereitschaft zur Teilnahme an einer Rufbereitschaft Gute Deutschkenntnisse in Wort und Schrift • Context: {Profil, Ihr, Ausbildung, Im} • Predict: Abgeschlossene • Measure Error • Update Context
  35. 35. Visualisation 35 Ihr Profil Abgeschlossene Ausbildung im Bereich Informatik oder vergleichbare Berufserfahrung, idealerweise in einem medizinischen Umfeld Gute Datenbankkenntnisse, SQL-Abfragen, Prozeduren Know-How im Bereich CITRIX und MS-Server von Vorteil Erste Erfahrungen mit Performanceanalysen und Optimierungen im SQL-Server-Umfeld wünschenswert Eigeninitiative, Zuverlässigkeit und Teamgeist Rasche Auffassungsgabe und analytisches Denkvermögen Bereitschaft zur Teilnahme an einer Rufbereitschaft Gute Deutschkenntnisse in Wort und Schrift • Context: {Profil, Bereich,Abgeschlossene, Im} • Predict: Ausbildung • Measure Error • Update Context
  36. 36. Visualisation 36 Ihr Profil Abgeschlossene Ausbildung im Bereich Informatik oder vergleichbare Berufserfahrung, idealerweise in einem medizinischen Umfeld Gute Datenbankkenntnisse, SQL-Abfragen, Prozeduren Know-How im Bereich CITRIX und MS-Server von Vorteil Erste Erfahrungen mit Performanceanalysen und Optimierungen im SQL-Server-Umfeld wünschenswert Eigeninitiative, Zuverlässigkeit und Teamgeist Rasche Auffassungsgabe und analytisches Denkvermögen Bereitschaft zur Teilnahme an einer Rufbereitschaft Gute Deutschkenntnisse in Wort und Schrift • Context: {Ausbildung, Informatik, Im, Oder} • Predict: Bereich • Measure Error • Update Context *I left out some subsampling details: see paper
  37. 37. 37 Xing2Vec: Similar words with cosine similarity Kauffrau (Job) • Bürokauffrau • Hotelfachfrau • Bankkauffrau • Bürokaufmann Hamburg (Location) • Bremen • Berlin • Hannover • Kiel Volkswagen (Brand) • Opel • Audi • Volvo • Daimler
  38. 38. Xing2Vec: Document Queries 38 […] nächstmöglichen Zeitpunkt eine/n IT Support Engineer (m/w) Datenbank- und Applikationsbetreuung. […] Ihr Profil Abgeschlossene Ausbildung im Bereich Informatik oder vergleichbare Berufserfahrung, idealerweise in einem medizinischen Umfeld Gute Datenbankkenntnisse, SQL-Abfragen, Prozeduren Know-How im Bereich CITRIX und MS-Server von Vorteil Erste Erfahrungen mit Performanceanalysen und Optimierungen im SQL-Server-Umfeld wünschenswert Eigeninitiative, Zuverlässigkeit und Teamgeist Rasche Auffassungsgabe und analytisches Denkvermögen Bereitschaft zur Teilnahme an einer Rufbereitschaft Gute Deutschkenntnisse in Wort und Schrift […] IT - Systemmanager (m/w)Ihr Aufgabenfeld: - Management von Daten und Systeme […] Administration von Microsoft SharePoint, SQL- Server Die Anforderungen: - ein erfolgreich abgeschlossenes Studium der (Wirtschafts-) Informatik oder eine vergleichbare Ausbildung und Berufserfahrung - Erfahrungen in der Entwicklung bzw. Anpassung von SharePoint Lösungen ab Version 2010 - erste Entwicklungserfahrungen im .NET Umfeld und JavaScript - Microsoft Zertifizierungen […]
  39. 39. Gradient Boosting 39
  40. 40. 40 Boosting
  41. 41. Tree Ensembles - Liking Video Games? 41 Tianqi Chen, Carlos Guestrin: XGBoost: A Scalable Tree Boosting System, KDD16
  42. 42. Deriving the learning algorithm 42
  43. 43. Learning the leaf nodes 43 Applying a tree to an instance gives output: -1 -1
  44. 44. Update equations 44 Structure of trees is learned greedily Similar to information gain while utilizing gradients *I left out regularization: If interested see paper
  45. 45. Experimental Setup 45 Linear Regression XGBoost * =
  46. 46. Features 46 Text Account Manager Microsoft Word, Java Consultant, Nursing
  47. 47. The “Onion Plot” 47
  48. 48. Data/Code 48
  49. 49. 49 Text Search indices XING Sources / XING services MySQL NoSQL live updates Batch processing batch updates RecommenderRESTservice XING Products Deployment Infrastructure
  50. 50. 50 Text Text Search indices XING Sources / XING services MySQL NoSQL live updates Batch processing batch updates RecommenderRESTservice XING Products Deployment Infrastructure
  51. 51. 51 Text Text Hadoop Cluster ~40 Data Nodes 41 power consumption map
  52. 52. 52 Thanks

×