Mais conteúdo relacionado
Semelhante a 用户研究中的数据分析 (20)
用户研究中的数据分析
- 11. 大数据的误解
推荐:Data Science, Data Analysis, Machine Learning @ Coursera
样本和全体数据
相关和因果关系
例:数据发现相关:荷尔蒙替代疗法 <-> 更低的心脏病
但实际上:荷尔蒙替代疗法会增加心脏病发病率
原因:荷尔蒙替代疗法(贵) <- 更高端人群 -> 更低的心脏病
日常分析的大数据有多大
·
·
放弃对因果关系的渴求,取而代之关注相关关系。只要知道“是什么”,而不需要知道“为什么”
《大数据时代》译者周涛:放弃对因果关系的分析是人类的堕落
-
-
·
Median job input sizes under 14 GB (at Microsoft and Yahoo)
90% of jobs on a Facebook cluster have input sizes under 100 GB.
-
-
11/12
- 12. 大数据的处理方法
Linux命令:sort/cut/paste/awk (在windows上:Gow - The lightweight alternative to Cygwin)·
$tail-10000access_log|awk'{print$1}'|sort|uniq-c|sort-n|tail
$awk-F',''{x+=$1}END{printx}'test.csv
$awk-F","'$3~/^9/'customers.csv>customers_9_CA_zip_codes.csv
C:>ipconfig^|grepIPv4^|gawk-F:"{print$2}"^|gawk-F."{print($1)+($2*256)+($3*256*256)+($4*256*256
并行计算和GPU计算:R: foreach+doMC/doSNOW; Python: StarCluster
内存缓存和内存数据库:VoltDB, 试试Excel, sqlite on Ramdisk
列存储数据库: Monetdb
Map Reduce和Hadoop云计算
GraphLab and Vowpal Wabbit:
·
·
·
·
Mdrill阿里妈妈海量数据分布式在线分析查询系统
Javascript,R,和Python也可以玩Map Reduce Demo
Amazon EMR Pig Latin Demo
-
-
-
·
12/12