1. 百货公司知道女孩怀孕:美国的Target百货公司上线了一套客户分析工具,对顾客的购买记录进行分析并向顾客进行产品推荐。一次,他们根据一个女孩在Target连锁店中的购物记录,推断出这一女孩怀孕,然后开始通过购物手册的形式向女孩推荐一系列孕妇产品。这一作法让女孩的家长勃然大怒,事实真相是女孩隐瞒了怀孕消息。
2. 阿里云知道谁需要贷款:每天,海量的交易和数据在阿里的平台上跑着,阿里通过对商户最近100天的数据分析,就能知道哪些商户可能存在资金问题,此时的阿里贷款平台就有可能出马,同潜在的贷款对象进行沟通。
3. 啤酒与尿布
1. 大数据应用案例之医疗行业:乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
2. 大数据应用案例之通信行业:法国电信-Orange集团旗下的波兰电信公司Telekomunikacja Polska是波兰最大的语音和宽带固网供应商,希望有效的途径来准确预测并解决客户流失问题。他们决定进行客户细分,方法是构建一张“社交图谱”- 分析客户数百万个电话的数据记录,特别关注 “谁给谁打了电话”以及“打电话的频率”两个方面。“社交图谱”把公司用户分成几大类,如:“联网型”、“桥梁型”、“领导型”以及“跟随型”。这样的关系数据有助电信服务供应商深入洞悉一系列问题,如:哪些人会对可能“弃用”公司服务的客户产生较大的影响?挽留最有价值客户的难度有多大?运用这一方法,公司客户流失预测模型的准确率提升了47%。
3. 大数据应用案例之电商行业:意料之外:胸部最大的是新疆妹子。曾经淘宝平台显示,中国女性购买最多的文胸尺码为B罩杯。B罩杯占比达41.45%,其中又以75B的销量最好,其次是A罩杯,购买占比达25.26%,C罩杯只有8.96%。虽然淘宝数据平台不能代表一切,但是结合现实来看,这个也具有普遍的代表性,只能感慨中国女性普遍size。在文胸颜色中,黑色最为畅销,黑色绝对是百搭,每个女性必备。从省市排名,胸部最大的是新疆妹子。这些数据都对于文胸店铺而言是很好的参考,为店铺的库存、定价、款式选择等策略都有奠定数据基础。
- 数据:是事实或观察的结果,是用于表示客观事物的未经加工的原始素材,可以是数字、文字、语音、视频、图像等。
1. Structured
2. Unstructured
3. Natural language:is a special type of unstructured data
4. Machine-generated:created by a computer, process, application, or other machine without human intervention
5. Graph-based:can be a confusing term because any data can be shown in a graph
6. Audio, video, and images
- 信息:抽象的说,就是可信的数据。与数据最大的区别就在于,一个是客观,一个是主观。
- 大数据:
Volume — How much data is there?
Variety — How diverse are different types of data?
Velocity — At what speed is new data generated?
Value - What is the value of the data?

有形的技能:
- 理论:气宗。 例如统计理论、机器学习算法。个人体会精通理论后再做数据工作就如汤泼雪。我也承认学习理论是艰难的,但是一定要在年轻的时候读最难的书。《数学之美》中谈到,技术分为术和道两种,具体的做事方法是术,做事的原理和原则是道,只追求术的人工作很辛苦,只有掌握了道才能永远游刃有余。
- 工具:剑宗。理论不用在产品上就是王语焉的学院派。从理论到产品,需要掌握各种工具。这类工具用得熟了能事半功倍,例如R、python、SQL、hadoop这类。学习工具和学习语言一样,都要多读多写,模仿揣摩,就可以运用自如。不过迷信工具是没有意义的,没有最好的工具,只有最合适的工具。如果你是独孤求败,可以玩玄铁剑,如果你是东方不败,可以玩绣花针。
- 经验:实战。有内力有剑法,就需要下山了。对战最强悍的对手,才能让你的内力剑法融为一体。做项目,在工作解决难题,才是长进最快的。
无形的气质:
- Curiosity,好奇心和兴趣是从数据中得到洞察的驱动力。有好奇心的人才会对数据有持续的热情。
- Innovation,兵无常势,数据的工作都是千差万别的,虽然可以依靠一些老的经验做些照猫画虎的事。但最好还是需要根据不同的项目情况来做出判断。独立思考和创造让你走得更远。
- Fortitude,创造、前沿、探索性的工作,一定会有失败,快速失败,快速学习,不断修正,能够败中求胜。
建模过程的问题
挖掘结果不真实
挖掘结果没有用
数据分析师的30种死法
提问题比回答问题更重要:一个具体的业务痛点是数据挖掘的起点,精心计划流程步骤,业务知识贯穿挖掘建模的每个阶段。
对数据持谨慎的态度:数据很可能出错,数据整理占据大部分的工作时间。
数据本身仅能用于描述历史:不能展现因果,也不能预知未来。
数据价值体现在落地应用:数据挖掘价值并不取决于模型的准确或稳定,取决于背后的决策组织。
不同的指标和模型都有其适用范围:随时间环境变化,所有的模式都会改变,不断尝试,不断修正。(?什么样的模型是好的模型)
工作中的文档化和自动化
数据分析研究就象养小孩,涉及到很多清理和维护工作,但这些工作往往被忽视,也得不到什么掌声。出自《Introduction to Data Technologies》
所有的模型都是错的,但有些是有用的。出自GeorgeBoX。所有的数学模型都是对真实世界的一种近似,否则就需要研究大量过于细节的因素。近似是有用的,就是因为它可以得到误差在可接受范围内的解。生活中的现实很难和书上的理论完全匹配,于其纠结于理论的不完美,不如先将近似的解拿到手里试试再说。
机器学习是通过数据来找模式,人类也是不断观察新的事物,不断学习其中的规律,同时持续在自己的大脑中建模,或者称之为三观。但是有的人过度拟合了,有的人拟合不足。
随机梯度下降算法是一种贪婪算法,像大多数的人眼光一样,只能看到几步远,所以生活中全局最优很难达到。解决的办法是引入随机性,尽量多尝试,尽可能地多走几步,你总会向最优解靠拢。
在集成学习方法里面,有一种称之为提升算法,它是使用一系列的学习器叠加来完成任务,后一个学习器要考虑的是修正前一个前学习器产生的错误。正所谓弃我去者,昨日之日不可留。通过不断试错,反复迭代,知错能改,你总能够找到不错的路。
盲指的是对实验的信息进行屏蔽。若被试知道了自己处于实验组,则容易出现”安慰剂效应“,表现出与平常情况下不同的行为。若实验主试知道现在面对的是实验组被试,则会有意或无意地表现出对被试行为的期望,从而影响到实验结果,这种情况也被称作”观察者偏差“。安慰剂效应和观察者偏差都会影响到实验结果的客观性,为了减少其影响,在实验中需要让被试和主试都不知道被试是处于实验组还是对照组,这样的实验也就是双盲实验。
学习使用Google Ngram Viewer服务,并研究你关心的某一组词汇的变化。
现在心理学领域有一股积极心理学 (positive psychology) 的思潮,它提倡去研究人积极的方面。
于是在Google Ngram Viewer搜positive psychology
学习贝叶斯定理,做下题:
已知某种疾病的发病率是0.001,即1000人中会有一个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?