从 Excel 培训班开始,培训各种 Excel 的统计规则,到数据仓库构建多位分析,再到大数据分析,一系列技术上的演进都是应对业务发展过程中出现的问题而已,我们对数据分析的期望和结果的使用,并没有发生太大的变化。

要查看有史以来每件商品分别卖了,数据少的时候用 Excel groupby count 一下,数据稍微多了用关系型数据库 groupby count 一下,数据又多了用 MapReduce groupby count 一下。就是这么一会儿事儿,即便是套着人工智能+大数据分析的外套的工作,背后也跑不了干了不少这种费力不讨好的体力活儿。

另一个维度,即便是搭建了大数据平台,也无法做到实时的像 Excel 那样所见即所得的分析,虽然有 Kylin 这样的 olap 引擎,但是使用前提也是在相对固定百年不变的 count 的前提下,还需要提前进行 cube 的预计算,基本满足不了探索的功能。所以为了解决这个问题,在构建元数据管理系统之上,设计出了数据探索服务。

元数据管理系统在调研了 apache 的 atlas 和 linkedin 的 wherehows 后,我选择了基于 wherehows 进行二次开发(选择 wherehows 是因为我觉得 wh 比 atlas 简单和稳定,结果用了没有多久 wh 新版本把整个架构全改了,连编程语言都换了,我勒个去)。通过扩展 wherehows,在上面实现数据探索的功能,因此数据探索本质是基于元数据管理的,大概来说,数据探索可以实现如下的功能:

  • 以业务视角去描述和管理数据。
  • 基于样例数据的分析和计算。
  • 提出假设,得到结论。

这样很好的解决了资源浪费的问题,同时也提供了所见即所得的服务。但是这样的系统并不能让我满意,因为相比于提供一个别人可以进行自由拖拉拽所见即所得的系统,我更关心的是,使用者拖拉拽计算指标的初衷,和得到指标的后续事情。比如,拿到系统 groupby count 之后干嘛去了?很遗憾现在并没有一个系统可以完美的解决这个问题,所以才需要领导的存在。

从现在的发展来看,数据分析会越来越从“实”到“虚”,所谓的“实”就是针对已经发生的事实,进行固化的分析,而“虚”则是模拟尚未发生的情况,提早拿出对策。

在这里插入图片描述

由“实”到“虚”的一个很实在的标志就是当前的数据是否可以构建出一个数据生态系统,比如飞行员在模拟驾驶里面进行学习,可以完全的学会如何开飞机,也可以完全的模拟出所有的航空情况以及应对场景,所以我们的飞机才如此安全,这是因为驾驶舱完全模拟了飞行的整个生态,当然飞机被半路射出来的导弹打掉不在模拟之列。

同样,天文学家也都构建了自己的宇宙系统,用来模拟天体运转,这样就可以合理的计算出某一颗彗星何时可以从我们的别墅顶上飞过。

回到我们目前从事的大数据分析行业来说,为什么我们不能提前模拟一下,如果这件商品的价格发生变动,将会产生怎样的效应?或者能不能模拟一下新开一家公司,新开一条业务线,模拟出的结果,在真实社会也是有效的?目前做不到,表象是我们拥有的数据不够全,数据量不够大,但是核心的问题是没有找到一个大而全的数学公示去表示这个动作将要产生的影响。比如驾驶舱里面所有的数据变动,都会被公式显示的表现出来,而天体学里面,有牛顿定理,广义,狭义相对论大而全的概括了物理运行规则,在爱因斯坦理论也搞不定的时候,量子力学的弦理论又提出了大而全的一统世界的理论,保证了树上掉下来的苹果肯定会落到地上,不会飞到月球。

在这里插入图片描述

相比于驾驶舱模拟和天体运动,数据分析的差别在于无论是驾驶舱还是天体运行,其计算规则已经被固化,比如牛顿定理,但是对于企业数据,还暂时没有发现函数可以固化因素带来的影响。所以我们有一个美妙的概念和动作去做这件事:机器学习。

在数据“实”这个领域,OLAP 已经做的非常好了,cube 这个技术无关的概念已经完美的表达了所有数据分析需要的一切,无论是金融的,还是电信的还是零售的,cube 都可以表达所有的分析场景。而在“虚”这个领域还是一片空白,虽然说机器学习可以通过特征提取,学习到一系列模式,但是基本不具备通用性,同时机器学习更多的是试探性的动作,具有很强的不确定性,很难满足对于数据虚拟场景的构建。

所以我认为,数据分析也会朝着固化的方向发展,也许以后会有一个 AICUBE,用来表达一个企业的生态圈,我们只需要给每一个企业构建一个 AICUBE,凡是企业内部的任何变动,小到领导打个喷嚏,大到公司倒闭的所有因素,都会在 AICUBE 上得以展现,不同企业的 AICUBE 还能进行互动关联查询。这样的话,就完全可以构建一个虚拟企业生态,可以在 AICUBE 上进行任何业务场景模拟。

要做到这样的效果,至少 AICUBE 需要符合一下的特征:

  • 保障确定性。
  • 性能足够高。
  • 函数需要考虑所有的因素,考虑相关性,得出一个大而全的函数,机器学习目前可以用来做这一件事。
  • 具有灵活的自学习和自适应。

所以从理论层面来说只要数据采集的渠道和可表达的形式足够完备,那么自然我们可以在足够的计算资源之下模拟和计算对应的场景的输出。


扫码手机观看或分享: