数据接入后,可通过数据准备算子进行数据的清洗与初步标准化处理。数据准备算子包括字段选择、数据清理、排序、空值填充、过滤、添加列、删除重复项、查找替换、文本分割、文本拼接、字段长度统计、数值公式计算、日期格式转换、日期提取、动态日期、日期偏移、日期差、唯一ID、条件标签等多种算子。字段选择#
字段选择算子可以选择为之后的运算保留哪些字段,并可修改字段类型,调整数值类字段的精度,还能调整字段顺序和对字段进行重命名。字段名称
展示字段的原名称。
目标类型
调整字段类型,支持选择文本、数值和日期时间三类。
小数位
如果字段是数值格式,可选择保留数值的小数位,通常默认为4位,最大可保留10位。
重命名
可对字段进行重命名。
请将《财务部员工信息表》中“员工姓名”字段名修改为“姓名”,去除“电子邮箱地址”字段,将“司龄”字段类型修改为“数值”,并调整起顺序至“政治面貌”字段前。
2
操作二
点击画布自动带出的“数据输入”算子,在左侧算子配置区依次点击“数据网盘”“我的数据”,选择《财务部员工信息表》,勾选全部字段,点击“保存配置”。
3
操作三
从算子选择区将“字段选择”算子拖拽至画布区,连接“字段选择”算子与“数据输入”算子。
4
操作四
点击“字段选择”算子,打开左侧算子配置区,完成以下操作:
将“员工姓名”字段“重命名”处输入“姓名”;取消“电子邮箱地址”字段选中;
将“司龄”字段的目标类型选择为“数值”,小数位修改为“0”;
鼠标悬浮“司龄”字段上,当鼠标光标变为十字箭头形状,拖动字段“司龄”至“政治面貌”上方。5
操作五
保存并执行算子流,在数据预览区查看算子流运算结果。
数据清理#
数据清理算子可以用于对指定字段进行清理和加工,通过数据清理算子可一键去除指定字段中不规范内容,在处理过程中只会清理所勾选的字段中的指定清除内容,表中的其他字段不会受影响,输出的结果直接覆盖在原列内容上。移除NULL行
清除数值均为空的数据行。
移除NULL列
清除数值均为空的数据列。
制表符(TAB)
将所选列中存在的制表符(TAB)清除。
特殊符号(全)
将所选列中存在的特殊字符清除
包括:“ " E ' [ \ ] < > @ # $ % …… & * ^ , ? ! : ; ( ) { } / \ \ , 。 ! ? ; : 、 “ ” ( ) \ " ‘ ’ 【 】 | ~ · … _ ─ - — - ] * ' " ” 。
前后空格
将所选列中数据中的前后空格清除。
特殊符号(用户输入)
允许用户手动输入需要进行清洗的符号,支持新增多个需要进行清洗的符号。
选择清理的列选择需要清洗的目标类型为文本的字段进行清理,目标类型为数值或者日期时间的字段不可选择。
请使用数据清理算子对Excel文件《财务部员工信息表》“最高教育程度”字段中的特殊符号“&”进行清理。
2
操作二
点击画布自动带出的“数据输入”算子,在左侧算子配置区依次点击“数据网盘”“我的数据”,选择《财务部员工信息表》,勾选全部字段,点击“保存配置”。
3
操作三
从算子选择区将“数据清理”算子拖拽至画布区,连接“数据清理”算子与“数据输入”算子。
4
操作四
点击“数据清理”算子,在左侧算子配置区的“选择需要清除的内容”勾选“特殊符号(用户输入)”,在下方输入栏内输入“&”,“选择清理的列”勾选“最高教育程度”列,点击“保存配置”。
5
操作五
保存并执行算子流,在数据预览区查看算子流运算结果。
排序算子可以根据升序或降序对数据表中数据进行排序,可同时选择多个字段作为排序字段,排序算子将按顺序依次排序,并可以对输出个数进行限制。分组排序勾选分组排序后,可选择分组字段,算子会按照分组字段排序,再按照排序字段各组内排序。
当选择了分组排序,限制输出个数为每组的保留个数,否则,为所有数据的保留个数;
当选择了分组排序,排序号值为每组以1为始自增1,否则,从第一条输出数据以1为始自增1;
当分组字段与排序字段重合时,分组字段会以指定的方向排列,否则,以升序方式排列。
排序字段
选择排序字段。
次序
选择排序方式,可选择“升序”“降序”“自定义序列”三种排序方式。
自定义序列
输入序列关键字,算子会按照关键字进行排序,多个关键字使用英文分号隔开。
勾选“是否限制输出个数”