“我们的数据集群目前规模过万,总数据量以EB计,日新增数据量则以PB计……”

上述文字是来自某移动互联网企业在一次技术交流活动上对自家数据处理能力的介绍。可能会有人疑惑,“EB”、“PB”是什么概念的数据单位,先不说EB,就说说1PB是什么概念吧。1PB大约是2亿张照片或2亿首MP3音乐,如果一个人不停地听这些音乐,能听上1900年。而1EB等于1024PB,其数据之庞大不言而喻。

大家可能会惊叹于这家企业强大的数据处理能力,但并非所有企业都具备同样的能力。激增的数据量如果超过了数据处理能力,就会导致“信息过载“问题,为此,人类发明了能够过滤信息的“搜索引擎”和“推荐系统”,用以高效识别和应用那部分“至关重要”的数据。

或许你会有疑问,“搜索引擎”和“推荐系统”到底是什么?它们之间有什么关联?其实“搜索引擎”和“推荐系统”这两者都是为了解决信息过载而提出的两种不同的技术,属于一个问题,两个出发点。

搜索引擎更倾向于人们有明确的目的,可以将人们对于信息的寻求转换为精确的关键字,然后交给搜索引擎最后返回给用户一系列列表,用户可以对这些返回结果进行反馈,并且是对于用户有主动意识的,但它会有马太效应的问题,即会造成越流行的东西随着搜索过程的迭代会越流行,使得那些越不流行的东西石沉大海。

而推荐系统更倾向于人们没有明确的目的,或者说他们的目的是模糊的,通俗来讲,用户连自己都不知道他想要什么,这时候正是推荐引擎的用户之地,推荐系统通过用户的历史行为或者用户的兴趣偏好或者用户的人口统计学特征来送给推荐算法,然后推荐系统运用推荐算法来产生用户可能感兴趣的项目列表,同时用户对于搜索引擎是被动的。其中长尾理论(人们只关注曝光率高的项目,而忽略曝光率低的项目)可以很好的解释推荐系统的存在,试验表明位于长尾位置的曝光率低的项目产生的利润不低于只销售曝光率高的项目的利润。推荐系统正好可以给所有项目提供曝光的机会,以此来挖掘长尾项目的潜在利润。

如果说搜索引擎体现着马太效应的话,那么长尾理论则阐述了推荐系统所发挥的价值。

在互联网高速发展的时代,信息变成一个又一个数据存在于“云盘”中,变得有价值,日常生活中我们经常会遇到这样的现象:你在手机某一软件中搜索某一品类的产品,不出一日就能在另一软件中看到相关行业的产品推送。很多人将其看为是手机被“监控”了,其实不然,这正是推荐系统的一种表现。

信息时代下,用户在互联网上产生的所有行为都会变成数据被用于分析,而企业方则可以利用这些信息数据准确的找到自己的目标用户、潜在用户等系列人群。与搜索引擎不同,推荐系统更注重用户体验,其是基于内容、协同过滤、内存的协同过滤、模型的协同过滤、矩阵分解等进行的分发推荐,故而需要对数和智的层面有不同的处理能力。而大多企业并没有“数”、“智”处理能力,或者说不能将二者完美结合,达到数据价值最大化。这就需要站在巨人肩膀看世界。

正所谓术业有专攻,中量质子基于自身在大数据人工智能领域的积累和观察,在此方面有着行业前沿技术。在数的方面,中量质子有完整数据采集、存储、分析、可视化能力,能够帮助企业打通多渠道数据,建立统一的大数据开发平台;而在智的方面,中量质子拥有自研的深度向量化协同算法,和大规模机器学习平台,能支持每天10P级的数据做模型训练,特征规模可做到一万亿,实现模型秒级更新,可以为各个场景的精准预测提供算法支持。旨在为需求用户提供专业级帮助,让数据不仅是数据,“推荐系统”不再遥不可及,协助企业有依有据地做决策,实现就地反超,合作共赢目的。

中量质子.png