2022年8月2日,TPC事务处理性能委员会官网正式发布了星环科技在3TB数据量下的TPCx-AI测试结果,Sophon Discover 3.0以AIUCpm 2,740.05分的优异表现,成为该数据量下全球首个成功通过测试及官方审计的产品,也是截至目前该AI基准测试最大的数据量级。

TPCx-AI贴合实际人工智能使用场景的Benchmark

TPC(Transaction Processing Performance Council)全称为事务处理性能委员会,是全球最知名的数据管理系统测评基准标准化组织。TPCx-AI是TPC组织定义的一种端到端AI基准测试标准,用于衡量机器学习或数据科学平台的在AI端到端流水线中的性能。该AI基准测试对于数据处理量级、运行便捷性、性价比、广泛适应性、ML&DL功能均做出要求,并需通过官方审计。TPCx-AI标准要求测试厂商拥有人工智能领域的技术能力,还需要提供完整的软硬件解决方案和一站式的人工智能平台,并在AI前沿领域具有突破性研究。

TPCx-AI测试标准共提供10个机器学习和深度学习测试用例,涵盖客户分类、客户对话转录、销售预测、垃圾邮件检测、价格预测、分类和欺诈检测等应用场景。每个用例都包含:数据生成、数据管理、模型训练、模型评分和模型推理阶段。区别于其他AI基准,TPCx-AI使用多模态的数据集(包含结构化和非结构化的图像、音频等多模态数据格式),并可扩展到TB级别;数据管理阶段包含数据清洗、数据探索和预处理等过程,实际模拟了商业生产环境的数据处理流程。最后使用数据集进行模型训练、模型推理和模型评估。

AI测试用例的端到端流程

秉持着研发创新技术的初心,环科技朝TPCx-AI进发

作为长期从事大数据和人工智能基础平台研发的企业,一方面星环科技保持开放的心态与业界共同进步,因此有责任和TPC一起,完善TPCx-AI这项在接近企业生产环境中的人工智能(含机器学习)产品和方案的基准测试,为机器学习平台行业提供基线;另一方面,星环科技始终追求技术自主性和先进性,不断检验自身产品体系和框架在当前业界主流人工智能场景中的线性扩展性、高性能、高性价比和广泛适应性;此外,TPCx-AI作为首个端到端大数据+人工智能的数据科学Benchmark,有对场景理解、大数据技术、AI科学与技术的多重挑战,这和公司追求的“把自主研发的领先创新技术赋能全世界各行各业,促进社会可持续发展,通过科技让人类的生活更美好”的宗旨也是高度契合的。

“复杂计算环境”、“AI全流程”、“多模态”——大数据与AI融合的基准测试所带来的一系列挑战

复杂的计算环境

TPCx-AI是标准的大数据和AI软件异构混合计算环境,其中大数据相关的安装软件包括:Hadoop、Spark、Yarn、HDFS、Horovod等,AI相关的安装软件包括:Tensorflow、Keras、Sklearn、XGBoost、Pandas等;同时也是标准的硬件异构混合计算环境,同时包含CPU加速和GPU加速,以及单机加速和分布式集群加速。一方面较为考验平台对于大数据和AI异构混合计算环境的适应性,另一方面对于不同种类硬件的异构运算,也提出了能力要求。

AI全流程的测试场景

TPCx-AI的测试场景包含数据生成、数据管理、模型训练、模型推理、模型评估、吞吐量并发测试,包含了端到端的数据科学全流程,需要平台具备AI全生命周期的能力。

丰富的测试用例

TPCx-AI共提供10个测试用例,包含7个机器学习模型和3个深度学习模型,模型涉及有监督学习和无监督学习。其中,用例9使用的是混合模型(模型结构为:embedding神经网络+LogisticRegression)。对于平台而言,需要解决性能优化瓶颈,并且有效处理CPU/GPU密集型计算、IO密集型计算、内存密集型计算等多样的计算类型。

多模态的数据类型

区别于其他AI基准,TPCx-AI使用的是多模态的数据集,包含结构化和非结构化(图像、音频等)多种数据格式,对于平台多源异构的数据处理及分析能力提出了要求。该测试集可扩展到TB级别,是将大数据与人工智能技术进行融合测试的场景。

“更快”、“更少、“更极致”——不断探索软件的可能性

为了应对上述挑战,星环科技对软件做了大量的优化工作,从而实现了内存占用更少、计算更快、产品更加极致的目标,具体优化工作如下:

* Spark参数优化/ UseCase参数优化:深入了解每个UseCase的逻辑,分析执行细节,确定优化方向;通过监控系统资源使用情况以及监控JVM中GC情况,对每个UseCase的Spark参数进行优化。针对不同UseCase的性能瓶颈:计算、IO、内存、通讯,在TPCx-AI官方要求精度范围内以及可修改参数范围内,对UseCase自带参数进行调试最优化;

* 结合RDMA、GPUDirect基础技术尝试提升节点与集群的整体计算和通讯性能;

* 对模型训练及推理过程尝试编译级别优化,充分发挥CPU向量计算、GPU并行计算性能;

* 使用混精、剪枝、蒸馏等技术尝试优化模型,内存占用更少,计算更快。

一款自主研发的数据科学平台在国际基准测试中获亮眼表现

至此,星环科技正式向TPCx-AI发起挑战。历经前后半年时间,星环科技的数据科学平台Sophon Discover分别进行了TPCx-AI scale factors为100GB、1TB、3TB的测试。其中,1TB数据的性能表现为1696,比4月TTA发布的性能结果高出超出491分,比8月DELL发布性能结果依然超出218分。当然,我们不满足于1TB数据的性能测试结果,向着3TB数据规模发起挑战,最终成为全球首个通过TPCx-AI scale factors为3000基准测试及官方审计的厂商,且性能达到了2740.05。与同数据量下的其他结果相比,Sophon Discover每节点可贡献456.68的性能得分,优于CDP每节点贡献390.19的性能得分。

从公布的测试结果不难看出,Sophon不论从数据量级、性能表现、性价比及自主性方面均达到了最优的成绩。

值得一提的是,在所有公布的测试结果当中,只有星环科技使用的是完全自主研发的国产数据科学平台。除了可以保障用户的平台使用安全外,此次基于数据科学平台Sophon Discover 3.0的测试结果,也是真正意义上可实际商用的AI测试结果,其配置符合企业实际落地AI应用时,使用分布式集群的商用配置。

建言献策,为国际基准测试贡献中国技术力量

在进行产品测试的过程中,我们也发现了多处BUG并帮助TPC完善了TPCx-AI套件的代码逻辑,使得测试环境更加稳定。此外,星环科技向TPC组织提出了TPCx-AI@Sophon测试方案,最终该方案通过了委员会审核,成为被官方认可的国际基准测试框架。今后,其他厂商可以在他们的硬件上面运行基于Sophon 的TPCx-AI测试套件,用于衡量硬件的性能。

至此,星环科技也成为了TPCx-AI的技术贡献者之一,为国际基准测试贡献了来自中国的技术力量。

作为全球首家通过3TB TPCx-AI国际基准测试及官方审计的企业,星环科技为企业AI应用的商用落地探索出了一条可行道路。未来,星环科技也将秉持“自主原创,领先一代”的技术发展策略,为用户提供更强性能和更高性价比的人工智能框架和平台,在数字化转型之路上,以技术之力帮助用户解决AI落地难题,更深入地洞察数据价值。