借助着Peter Thie的名气Palantir在硅谷也是一家大数据明星公司了,当然在国内可能用的人不多。去年有幸参加一个项目协助一家购买了Palantir服务的大公司维护数据平台服务,感触颇深。
这家公司购买的服务是Palantir的产品之一Foundry平台,严格的说应该是专门适用于企业的数据集成平台。虽然这个产品不像它的明星Gotham那个用于挖掘梳理关系帮助中情局找到本拉登的产品那么出名,但毕竟是公司的实力摆在那边不容小觑。从产品本身来说确实有非常多的亮点,让我印象最深刻的有两点。一个是git式的数据库,另一个是全自动运维且能可视化的数据处理流程管理模块。在接触Foundry之前我虽然知道数据库有备份有快照类似的功能,但是从来没有见过对于海量数据的管理还可以像管理代码一样有版本控制分支这样的操作,这不仅提高了数据的安全性和鲁棒性更极大的提高了数据出现问题时的debug定位的效率。可视化的数据流转转换流程的出现方便的让工作人员快速了解整个业务系统全貌,全自动的building功能让各个数据源过来的数据定时有序的汇总在一起再经过层层转换梳理提供给各个业务APP使用。在Foundry平台上你可以直接生成优雅的报表,可以给非技术人员方便的全维度分析数据甚至还可以引入最新的机器学习框架写深度学习的代码做各种预测和建模,几乎可以说包罗万象无所不能。
然而成也萧何,败也萧何。正是这“无所不能”让这家公司今年决定替换掉Foundry平台另寻新路。大而全首先带来的一个问题就是“贵”。处在硅谷明星的光环下一个数据平台每年的维护费可能就要上百万欧元。如果一个公司愿意投入这么多钱在数据上那么它一定希望得到更多的商业回报,如果给了实验的机会结果还是创造不出超额的收益那么砍掉你自然是最优的选择。大而全带来的另一个问题就是Palantir公司在技术和文化上面的“傲娇”。一个最明显的例子就是Foundry平台里面主要使用的语言是一个他们自创的mesa语言,而不是大家常见的python,R,java这样的。这一选择导致技术人员的学习成本暴增。也许和Palantir员工的年龄普遍偏低有关,他们的员工确实聪明但是却不一定容易沟通,认为自己的软件无所不能,什么需求都可以放进来。结果就做出了一堆应用,但是这些代码只有他们自己能看得懂,几乎无法运维。就像一个代码大牛他做了一个软件,但是只为了炫技用的不是常规的方法,虽然问题可以解决但是这完全不符合现在社会分工合作和传承的理念,最终只能被替代。大而全再来的一个重要问题就是过于阳春白雪,解决问题的方式喜欢从自己出发而不是从客户的实际出发。让我印象最深刻的例子就是客户有一个生成产品编号的功能,这个在普通系统中非常容易做,但是在Foundry平台上因为底层逻辑的限定,它里面的数据原则上是不支持细粒度的更新操作的,结果导致每一次生成编号都要从最初的记录一步步编译过来,中间不能出错。这么做问题确实是解决了但是它忽略了一个重要的问题就是人。只要是人的操作就不可能不犯错,也许一次可以不出问题,但是长年累月总有错误的元数据进来然后导致整个编号编译的错位,每次出问题都需要花费大量精力去处理,让各个部门心力交瘁。对于企业用户来说Foundry平台的维护还是过于依赖高端技术了,比如spark企业想雇一个这样的人才还是成本非常高的而且这样的人进来了也不一定待的久,一旦人走了又要重新培训一次大量的成本就是这么产生的。相比之下可以看看powerBI、tableau这样的企业应用都是非专业人员可以直接使用的。我不能说Palantir的技术不现金理念不够好但是确实和实际的企业脱节的有限严重,没有下沉到真正的用户层面。最后还有一点不应该的就是在Foundry整个平台严格来说只能算一个实验产品其实还没达到商用,很多的莫名其妙出现的bug莫名的停机莫名的中断Palantir的支持人员自己都需要反馈到总部修复。如果你花了一年几百万的费用的真相是做别人产品迭代的小白鼠哪还会有谁愿意呢?所以说我觉得Palantir最大的遗憾就是它不是以成就客户为目的,他的目的在于利用客户来成就自己。
今年这家公司换掉了Foundry平台选择了和见知合作。价格固然是很重要的一方面原因,但是更重要的见知能提供给它的是一个真正能用的产品而不是我需要吃一份便当而你提供的是一份满汉全席的操作指南,最后还需要我去雇一个能做的出这么一桌子菜的大厨。见知提供的数据仓库服务立足于国内的云计算服务商,使用主流技术栈采用最先进的开源平台架构紧跟社区动态,可以给客户比Foundry丰富得多的外接扩展选择。努力做到为客户节约成本创造价值,只有先成就了客户才能最终成就自己。