O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Reducer 1: TF-IDF and Co-Occurrence Getting Started on Hadoop

21.257 visualizações

Publicada em

Reducer 1: TF-IDF and Co-Occurrence

red_idf.py takes the shuffled output from map_parse.py, collects metadata
for each term, calculates TF-IDF to use in a later stage for filtering, calculates
co-occurrence probability, then emits all these results:



(doc_id, msg_uri, date)

(sender, receiver, doc_id)

(term, idf, count)

(term, co_term, prob_cooc)

(term, tfidf, doc_id)

(term, max_tfidf)

Publicada em: Tecnologia
  • Seja o primeiro a comentar

×