大数据流水线系统πFlow V1.5版本正式发布,该版本新增多语言组件扩展功能:基于容器技术,通过将领域模型算法内置于容器内部,打通上下游数据通路,实现不同语言(Python/R等)组件扩展。
Python组件开发指南
1. 导入data_connect.py中的依赖函数DataConnect;
2. 自定义输入端口,用于数据读取(如有多个输入源,可多次调用);
3. 自定义输出端口,用于数据输出(如有多个输出源,可多次调用);
4. 自定义算法属性。如果模型算法需要参数输入,则需要自定义算法属性;
5. 将python组件打包成zip包(zip包中必须包含模型算法及其需要的依赖(requirements.txt))。
示例文档可详见https://github.com/cas-bigdatalab/piflow/blob/master/doc/V1.5/python。
示例代码:

Python组件使用示例
1. 上传并编辑Python组件。
上传zip包并mount,mount成功后选择组件并编辑基本信息以及图标。自定义输入输出端口(如果不填,默认有一个输入输出DefaultPort);如果需要参数输入,则设置参数及输入样例。

上传Python组件

编辑Python组件
2. 流水线配置Python组件并运行。
将python组件拖拽至画板并配置相应的参数即可点击运行并监控。

运行Python组件
关于πFlow
πFlow是一个基于分布式计算框架技术开发的大数据流水线处理与调度系统。该系统将大数据采集、清洗、存储与分析进行抽象和组件化开发,以所见即所得、拖拽配置的方式实现大数据处理流程化配置、运行与智能监控。吸引了大批中小企业、院所高校用户,支撑了科技、工业、跨境电商、数据资产管理、医疗健康等领域大量软件工程案例。
联系我们
我们希望通过πFlow技术人员和更多大数据领域的有志之士,一起将πFlow开源社区打造成国内一流的大数据处理开源社区,欢迎你的加入!
官网地址:http://piflow.mulanos.cn/




