2024年4月7日发(作者:邱听云)
大数据时代的经典句子
正文:
第一章:样本 =全体
统计学家证明,采样分析的精确性随着采样随机性的增加
而大幅度提高,但与样本数量的增加关系不大。随机采样取得
了巨大的成功,但是他的成功利亚与采样的绝对随机性,实现
采样的随机性非常困难,一旦采样过程中存在任何偏见,分析
结果就会相去甚远。 搜集的数据越来越多,分析和预测结果
就会越来越准确,并发现一些细节和微乎其微的重要问题。
有些情况下,异常值才是重要的信息,大数据的处理方法
就不会错过这个异常值。商务是即时的,因此数据分析也应该
是即时的。 《魔鬼经济学》
大数据是指不用随机分析法这样的捷径,而是通过采用
所有数据的方法。数据量不一定很大,但需要全部,包含了所
有的信息。
Lytro相机记录整个光场的信息,搜集了所有的数据,拍
摄完之后再对焦,而且有“可循环利用性”。 《爆发》
第二章:混杂性。
只有 5%的数据是结构化的,可以适用于传统数据库,如
果不接受混乱,剩下 95%的非结构化数据都无法被利用。
少量数据下运行最佳的算法,可能在大数据下可能会表现
差强人意,在少量数据下表现差的算法,可能在大数据下惊呆
小伙伴们。大数据的简单算法比小数据的复杂算法更有效,混
杂是关键。
谷歌翻译之所以好,除了数据量庞大以外,还接受了有错
误的数据,即来自互联网的废弃内容。
Hadoop 超大量数据下的分布式处理,假设系统瘫痪而建
立数据副本,假定数据量巨大无法移动,人们必须在本地进行
数据分析。它的输出结果不想关系型数据库那般精确,无法用
于卫星发射、开具银行账户明细,但是运行却快很多。
第三章 不是因果关系,而是相关关系
通过数据推荐产品所增加的销售远远超过书评家的贡
献。计算机可能不知道为什么喜欢海明威作品的客户会购买菲
茨吉拉德的书,但是他只要通过算法统计分析,得知这个结果
就可以了。
沃尔玛领导了零售链的革命,让供应商监控销售速率、
数量、以及存货情况。这个数据库不仅包含了每一个顾客的购
物清单以及消费额,还包括购物篮中的物品、具体购买时间,
甚至购买当天的天气。
在大数据时代,通过建立在人的偏见上的关联物检测法已
经不再可行,因为数据库太大而且需要考虑的领域太复杂。幸
运的是,许多迫使我们选择假想分析法的限制条件也逐渐消失
了。现在我们拥有如此多的数据,这么好的机器计算能力,因
而不再需要人工选择一个关联物或者一小部分相似的数据来逐
一分析了。大数据的相关关系分析法,取代了基于假想的易出
错的方法。大数据的相关关系法更准确、更快,而且不易受偏
见的影响。
塔基特公司在完全不合准妈妈对话的前提下预测一个女
性会在什么时候怀孕。她们会光顾以前不会去的商店,渐渐对
新的品牌建立忠诚。
2024年4月7日发(作者:邱听云)
大数据时代的经典句子
正文:
第一章:样本 =全体
统计学家证明,采样分析的精确性随着采样随机性的增加
而大幅度提高,但与样本数量的增加关系不大。随机采样取得
了巨大的成功,但是他的成功利亚与采样的绝对随机性,实现
采样的随机性非常困难,一旦采样过程中存在任何偏见,分析
结果就会相去甚远。 搜集的数据越来越多,分析和预测结果
就会越来越准确,并发现一些细节和微乎其微的重要问题。
有些情况下,异常值才是重要的信息,大数据的处理方法
就不会错过这个异常值。商务是即时的,因此数据分析也应该
是即时的。 《魔鬼经济学》
大数据是指不用随机分析法这样的捷径,而是通过采用
所有数据的方法。数据量不一定很大,但需要全部,包含了所
有的信息。
Lytro相机记录整个光场的信息,搜集了所有的数据,拍
摄完之后再对焦,而且有“可循环利用性”。 《爆发》
第二章:混杂性。
只有 5%的数据是结构化的,可以适用于传统数据库,如
果不接受混乱,剩下 95%的非结构化数据都无法被利用。
少量数据下运行最佳的算法,可能在大数据下可能会表现
差强人意,在少量数据下表现差的算法,可能在大数据下惊呆
小伙伴们。大数据的简单算法比小数据的复杂算法更有效,混
杂是关键。
谷歌翻译之所以好,除了数据量庞大以外,还接受了有错
误的数据,即来自互联网的废弃内容。
Hadoop 超大量数据下的分布式处理,假设系统瘫痪而建
立数据副本,假定数据量巨大无法移动,人们必须在本地进行
数据分析。它的输出结果不想关系型数据库那般精确,无法用
于卫星发射、开具银行账户明细,但是运行却快很多。
第三章 不是因果关系,而是相关关系
通过数据推荐产品所增加的销售远远超过书评家的贡
献。计算机可能不知道为什么喜欢海明威作品的客户会购买菲
茨吉拉德的书,但是他只要通过算法统计分析,得知这个结果
就可以了。
沃尔玛领导了零售链的革命,让供应商监控销售速率、
数量、以及存货情况。这个数据库不仅包含了每一个顾客的购
物清单以及消费额,还包括购物篮中的物品、具体购买时间,
甚至购买当天的天气。
在大数据时代,通过建立在人的偏见上的关联物检测法已
经不再可行,因为数据库太大而且需要考虑的领域太复杂。幸
运的是,许多迫使我们选择假想分析法的限制条件也逐渐消失
了。现在我们拥有如此多的数据,这么好的机器计算能力,因
而不再需要人工选择一个关联物或者一小部分相似的数据来逐
一分析了。大数据的相关关系分析法,取代了基于假想的易出
错的方法。大数据的相关关系法更准确、更快,而且不易受偏
见的影响。
塔基特公司在完全不合准妈妈对话的前提下预测一个女
性会在什么时候怀孕。她们会光顾以前不会去的商店,渐渐对
新的品牌建立忠诚。