大数据正在揭露说谎的人


大数据正在揭露说谎的人
文章图片

文章图片

先来问个问题 , 一名女子在社交媒体上秀恩爱 。如果她同时在谷歌上打出一个问题“我老公是不是……” , 她最有可能搜的问题是什么?
一般情况下 , 大多数人在社交媒体上秀出的一面 , 都是美化过的 。当他们在搜索的时候 , 常常会暴露自己真实的想法 。所以 , 大多数人很容易凭直觉猜测 , 她搜索的很可能是:“我老公是不是出轨了?”但实际上 , 她最有可能问的问题是:“我老公是不是同性恋?”这个问题的搜索量比“我老公是不是出轨了?”的搜索量高出10% 。这个结果 , 是不是让你吃惊不小?

大数据正在揭露说谎的人
文章图片

文章图片

今天我们一起来挖掘大数据的价值 , 并告诉你如何进行大数据分析来增进我们对这个世界的理解 。
第一部分 。
【大数据正在揭露说谎的人】在一个大数据的时代 , 什么样的大数据是有价值的?大数据 , 就是能够涵盖海量信息的数据集 , 能够帮助我们更好了解所在的世界 。我们现在所处的大数据时代已经需要用“流数据”来形容了 。什么是流数据?举一个例子 , 现在一辆无人驾驶汽车每秒钟所产生的数据量大概有100G , 你的手机标配大概也就64G吧 , 也就是它一秒钟产生的数据量 , 一台手机装不下 。所以 , 流数据显示的是一种动态实时产生大量数据的状态 。

大数据正在揭露说谎的人
文章图片

文章图片

在这样的大数据时代 , 我们需要改变认知 。几年前 , 我们认知是觉得数据越多越好 。现在大数据已经不是越多就越好了 , 相比数量而言 , 挖掘新的大数据的价值更高 。一种大数据有没有用 , 重点是它能不能提供一些新的信息 , 特别是此前从没有搜集到的信息 。
在这么多数据里 , 怎么发现更多新鲜的大数据呢?可以依靠数字尾气 , 尾气就是汽车排放的那个尾气 , 这是一个形容流数据的名词 。
我们现在每个人手里都有一台智能手机 , 我们无论在哪儿 , 只要拿着智能手机上网、发微信、买东西 , 都会留下数字的记录 , 这就是数字尾气 。当然数字尾气不仅仅局限在人 , 随着越来越多的电子产品 , 比如说家用电器 , 也被接入互联网 , 它们也在实时产生数字记录 , 这些数字尾气汇流成的数据集 , 变得越来越重要 。

大数据正在揭露说谎的人
文章图片

文章图片

我们未来将面临大数据以几何级别增长的状态 , 更需要从中找到新的信息 。那什么是新的信息?首先是相关性的信息 。谷歌首席经济学家哈尔·瓦里安做的一个研究的例子 。他们利用谷歌的一项功能“谷歌相关性”来做经济学的研究 , 这个工具能够找到不同数据之间的相关性 。研究的问题是 , 用户搜索哪些信息 , 能预测一个市场内的房价 。
两人把特定地区的搜索信息与房价做了比较 。研究发现 , 的确能够从一个地区的搜索中找到房价涨跌的线索 。比如 , 如果更多人搜索 “八成按揭贷款” , 或者 “涨幅”、 “涨价的速度” , 一个市场的房价就会涨 。如果更多人搜索 “快速卖房的流程” 或者 “按揭超过房价了” , 那这个市场的房价还得跌 。换句话说 , 关键词和句子的搜索与一个市场房地产宏观的表现的确有相关性 。