作者: 郭晨晨 见知数据科技 (Xencio Data Technology) 机器学习,数据分析专家。负责见知产品AI解决方案。毕业于交大数学系/新闻系,曾就职于大型央企参与智慧城市建设,拥有11年计算机研发及科学计算经验。于16年加入见知数据,负责见知产品AI解决方案。
此次主要讲讲见知产品CFA自动分类经历的三次迭代的过程
CFA(现金流分析系统)是我们见知的拳头产品,主要是通过公司的银行流水来分析其经营状况,如果要使用它,首要的步骤就是先给对账单分类。我们原本这一步是在自动分类的基础上,额外需要客户自己来整理规则,在系统中建立后就可以看到分类后的效果了,但这一步通常要花费比较多的时间,按照用户体量大小的不同,用时在3-10天不等,也给新用户上手和试用带来了很多不便。自从建立见知AI实验室之后,我们一直在思考,能否能用AI技术来解决这个问题,让一切变得更加智能。
机器学习领域有很多经典算法都可以解决分类问题。
我们首先选用了逻辑回归算法,利用标记过的三万条脱敏训练数据来训练对账单的38个分类。实验结果非常好,在测试集上达到了95%的准确率,达到了商用的要求。
也就是说,以后经过训练后的实际用户数据就可以通过AI模型进行快速的自动分类了,运算效率较训练前对比提高了80%,更重要的是在需要修改类别时,系统会自动根据模型概率推荐最可能的分类结果,非常方便。
不过上述的方法目前还有个缺点,就是如果要提高通用范围上的准确度,还需要更多实际应用场景中,标记过的对账单数据来进行学习。既然还需要用户的人工参与,那么如何让用户能更方便的标记的?
我们在分析后,又对系统后台分析逻辑进行了进一步的迭代,引入聚类算法。它可以自动的把大量流水条目按照人类常规理解的“相似”进行自动合并。经过这种合并运算以后,系统中呈现合并后的结果,用户就可以非常方便的把这一聚类的普遍规则归纳总结出来,把以前一周或者一个月的工作量,压缩到了一天内完成。另外,用户的这些标记记录又会成为新的分类训练数据,对我们已有的通用自动分类模型进行增量学习,进一步提高自动分类的准确度。
至此经过三次迭代我们才把对账单分类这个重要但却容易被忽视的功能给彻底完成。
现在整理仔细想一想,想要构建一款智能强大的CFA产品,它的易用性是建立在准确的分类基础上的,而准确的分类一定需要用户的参与。
如果用户因为分类太麻烦而不愿意去做那么所有后面的分析功能,我们付出了80%的工作对于他来说就是0,就算做的再好用户也不会感知到。这就像滴滴当年如果没有解决出租车司机的快速提现问题,那么后面的所有服务都无从谈起一样。
有了聚类算法,客户体验好了,可以快速建立规则,建立了规则就有了标记数据,自动分类算法才可以越来越准确,自动分类能覆盖绝大多数场景,客户也就再也无须人工介入了,这就形成了一个闭环,最终让CFA成为一个完全体的智能现金流分析系统。
通常一个行业,最终走向成功的企业最多也就是前5%,这其中的主要差异就在于做事的方式态度。
我们的选择就是运用最先进的AI技术,对其他竞争对手可能在产品介绍中一笔带过的分类问题花大量的时间做精益求精的改善。用户的积极反馈和选择也是我们一直努力的动力。
作者: 郭晨晨 见知数据科技
见知数据科技 Xencio 是国内外领先的财务数据分析平台。提供包括 收支智能分类、财务风险自动预警、应收系统智能对账、微信发票自助查询、审计现金流数据分析等功能模块的各类产品。以实现财务全自动化,全智能化为未来愿景。 见知数据目前已经积累了上百家大、中、小、集团企业,其中包括联合利华中国、默克中国、瑞华会计事务所,滴滴出行 以及多家新西兰、美国的试营企业客户,其平台现金流流水已逾200万笔,超过1.2万亿。