πFlow v1.8与Apache NiFi v1.9.2 处理性能对比测试

2025-03-04 02:16

项目选取Apache NiFi大数据流水线系统作为对标系统,Apache NiFi是美国国家安全局开发并开源的数据集成产品,2014年由NSA捐赠至Apache社区,2015成为顶级项目。

πFlow综合采用分布式内存计算、全自动调度优化及流水线进程管理等技术,优化数据处理性能,通过利用Spark Bench基准测试工具(https://github.com/CODAIT/spark-bench)生成的5000万万行、1亿行、2亿行的CSV数据、天文领域典型星表天体坐标的5000万行(约19GB)、1亿行(约38GB)、2亿行(约77GB)dat数据集进行测试,模拟海量天文观测数据典型预处理过程,涵盖不同量级的数据集预加载,做清洗、筛选、统计等操作,每个流水线运行3次并取得最慢耗时。处理性能计量公式如下:

tij = tij end - tij start , tj max = max(t1j, t2j, ..., tij), sj = n/tj max

其中:tij表示单轮测试耗时,i=1,2,3表示三次查询,j=1,2分别表示科学数据流水线处理系统和Apache NiFi,n表示原始观测星表的数据量(取值依次为5000万行、1亿行、2亿行),tj max表示最慢查询用时,sj表示算子最慢处理性能。

表1   πFlow与Apache NiFi处理性能对比

图1  πFlow与Apache NiFi处理性能对比

如表1和图1所示,第三方测评验证πFlow具每秒1000万行的数据处理能力较Apache NiFi1.9.2平均性能提升5倍以上

 

相关新闻
热点新闻
投票
查看结果
Tags

站点地图 在线访客: 今日访问量: 昨日访问量: 总访问量:

© 2025 中国科学院计算机网络信息中心 版权所有 Powered by UJCMS

京ICP备05002857号-1