O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Mapper 2 + Reducer 2: Getting Started on Hadoop

21.239 visualizações

Publicada em

Mapper 2 + Reducer 2: Threshold Filter

map_filter.py and red_filter.py apply a threshold (based on statistical
analysis of TF-IDF) to filter results of co-occurrence analysis so that we begin to
produce a semantic lexicon for exploring the data set.


How do we determine a reasonable value for the TF-IDF threshold, for filtering
terms? Sampling from the (term, max_tfidf) tuple, we run summary stats and
visualization in R:


cat dat.idf | util_extract.py m > thresh.tsv


We also convert the sender/receiver social graph into CSV format for Gephi
visualization:


cat dat.parsed | util_extract.py s | util_gephi.py | sort -u > graph.csv

Publicada em: Tecnologia
  • Seja o primeiro a comentar

×