【数据挖掘】Kettle去除空记录&添加标记

mac2022-06-30  27

目录

说在前面场景主要Kettle操作以下示例涉及的字段记录过滤JavaScript脚本流程

说在前面

操作系统:win10kettle版本:8.3数据集:Soda

场景

数据集中有空的记录不需要 对数据进行分段

主要Kettle操作

以下示例涉及的字段

记录过滤

在记录中发现只有PH、以及电导率存在空,判断时只需判断这两个字段就可以了 过滤记录存在一个判断条件,需要两个输出,一个为条件为真时的输出,另一个为假; 如下图,发送true数据给步骤,对应上图“空操作”;发送false数据给步骤,对应字段选择2; 在”条件“方框中可以进行选择,以及处理多个条件

JavaScript脚本

js脚本界面如下; 区域1:一些js函数,输入变量 区域2:js代码编辑区 区域3:输出字段编辑区 以处理PH为例,假如我们需要将ph值划分为[4, 5)、[5, 6)、[6,7]三个区间; 首先我们需要区域1中的PH字段作为输入;var ph = PH; 然后定义一个输出字段,假设字段名为PH_sign,String型;在区域3添加对应的字段; 然后编写js代码,让PH_sign的值变为我们需要的;if(ph<5) PH_sign="[4,5)"; else if(ph<6) PH_sign="[5,6)"; else if(ph<7) PH_sign="[6,7]"; 这样就大功告成了 结果

流程

最新回复(0)