数据分析之困

我在推上吐嘈过:数据分析师应该是数据驱动的人群,或者至少有足够扎实的社会/心理/经济学等等相关理论基础,可真实情况是,现在这个行当里的不少人靠多说话来证明其存在的必要性,靠广撒网来保证其结论总有之一能命中,靠早出手来抢占所谓“远见”的高地,这才让这个人物在各种新闻里的出场都像特里劳妮教授一样喜感。

尤其时下大数据的概念被炒得火热,数据专家的身价自然也水涨船高,微博上看到有友邻频频转那些XXX互联网分析师的我都unfo了。不过,以个别害群之马来衡量判断整个人群的存在价值是不合逻辑——

实际上,对于真实的客户来说,再繁复的计算再先进的数据建模都没有直接意义,必须等到有说服力的人用这些数据来讲述一个结论(一个故事),就像艺术家用各色油彩和笔触组合出绚丽的画面,此时数据才真正被赋予了生命力。一流的数据分析人员,就是在赛博空间创作的艺术家,作品的意义越深刻,其艺术价值也就越高。

然而,人们往往会感到苦手的问题是:这种对数据的再诠释,究竟是一种对真实的概括(后发而至),还是分析师为了描述他想见到的结论而产生的迷思(先入为主)?

Slideshare评论栏里,有一类评论相当常见:“两项事实间存在数据相关性并不等于两者有因果关系(correlation does not equal causation)”。另一种被广为使用的忽悠方式,是用复杂的分析模型来掩盖其分析根基的不稳固,因为数据处理方式越复杂,其结论往往越容易为人所接受(帕金森定律)。

因而标准化数据分析产品不仅仅只是为了大幅提高效率而出现,也是为提供客观中立的观点奠定了基石。然而落实到产品的具体实现,却有不少难点,这其中的原因,既有客观的市场成熟度不够,也有主观的设计创新不足:

  • 用户需求过于多样化
    1. 行业没有公认的分析维度,产品功能设计上又不可能一应俱全,导致被遗漏的需求长尾效应显著
    2. 广告、公关等代理公司和甲方企业客户的需求不尽一致,专注一方等于缩小盈利来源,两者兼顾则影响了使用满意度,即使是为两边各设计一个使用模板,也会因需求不一导致后台的计算资源分配失衡
  • 用户识别产品价值的能力不足,大多时候,酒香还怕巷子深,数据挖掘的技术实力再强,也不如前台秀个漂亮的图表更具说服力
  • 浅度使用不足以充分体现大数据价值,而深度使用的准入门槛太高,即使用户有意愿接受培训,其教育成本(时间、精力)也过高
  • 由于如上及其他众多原因,客户愿意付的钱与产品所需的采集和计算成本有差距,因此实际操作中,只能更多照顾前台的用户体验,而在后台设计上做出妥协——所谓“大数据”的潜力,更多只是卖个概念,而未必能被充分挖掘

看看现有的数据分析产品的界面设计,工具属性太刺眼,想让身为普罗大众的客户群买单,我看需要一个革新性的普通用户界面,比如Google Now 和Facebook graph search的前端设计。或许现下要把这应用到社会化媒体分析这个精细度和复杂度上去实现还有困难,但这应该是未来的方向——

大数据本身并不是一个泡沫概念,只是偶尔它被炒作的方式会让人怀疑它徒有其名。一款理想化的数据分析平台,应能采用最合理的数据采集挖掘技术,融入顶尖分析师的基础分析逻辑,同时用简洁、智能化的用户界面实现精准应答和轻松上手的使用。它将是分析师脚下那个巨人的肩膀,也会是企业客户手中最灵活的魔方。