数据质量校验是一个系统性的过程,旨在通过评估、验证和纠正数据,确保其准确性、完整性、一致性、规范性、可靠性和唯一性。该模块支持灵活配置多种质量校验规则,从而实现对数据全面的质量检查。质量校验结果可视展现,便于后续进行数据清洗、质量分析等工作。贯穿始终的质量管理让数据可用、可靠,满足数据使用需求。空值检查#
空值检查算子可以针对全表或指定字段进行空值识别,并明确标注空值位置和数量,可有效校验数据缺失问题,帮助分析人员判断数据缺失的比例和分布情况,选择合适的解决办法。规则类型选择校验的规则类型,支持选择“全表校验”和“选择字段校验”两种规则。
全表校验:对数据表全部字段进行校验,即对全部数据进行校验;
选择字段校验:对数据表中用户选择的字段进行校验,只校验该字段下的值,可理解为表格中列的概念。当选择此种规则校验时,系统会自动带出字段“校验字段”,以供用户选择。
校验字段
选择需要校验的字段,支持同时选择多个字段。
校验等级
设置该算子识别出的质量问题的严重等级,支持设置“严重”和“一般”两类等级,后续可在数据预览区和质量报告(需配置数据质量容器算子)中查看。
校验不通过提示
设置质量问题提示语,该提示语设置后可在数据预览区查看。
请使用空值检查算子对表格附件《培训考试分数》进行质量校验,检查是否存在数据缺失的问题。
1
操作一
进入算法中心,点击“新建”,进入算子流配置 页面。
2
操作二
点击画布自动带出的“数据输入”算子,打开配置页面,选择本地上传文件或从数据网盘引用数据,输入表格附件《培训考试分数》。
3
操作三
从算子选择区将“空值检查”算子拖拽至画布区,与“数据输入”算子连接。
4
操作四
点击“空值检查”算子,打开算子配置区。规则类型选择“选择字段校验”,校验字段选择“主观题分数”“客观题分数”“课堂表现得分”和“最终成绩”四个字段,校验等级选择为“严重”,校验不通过提示输入为“存在数据缺失!”,点击“保存配置”。
5
操作五
保存并执行算子流,在数据预览区查看算子流运算结果和质量检查结果。
重复唯一值检查#
重复唯一值检查算子可以对指定字段进行重复值或唯一值校验,明确标注重复值或不唯一值的位置和数量,高效识别数据冗余问题。规则类型支持选择“重复值检查”和“唯一值检查”两种数据校验类型。
重复值检查:对指定字段或字段组合,进行数据重复性检查;
唯一值检查:对指定字段或字段组合,进行数据唯一性检查。
校验字段
选择需要校验的字段,支持同时选择多个字段。
校验等级
设置该算子识别出的质量问题的严重等级,支持设置“严重”和“一般”两类等级,后续可在数据预览区和质量报告(需配置数据质量容器算子)中查看。
校验不通过提示
设置质量问题提示语,该提示语设置后可在数据预览区查看。
请使用重复值检查算子对表格附件《培训考试分数》进行重复性校验,检查是否存在重复录入学员数据的问题。
2
操作二
点击画布自动带出的“数据输入”算子,打开配置页面,选择本地上传文件或从数据网盘引用数据,输入表格附件《培训考试分数》。
3
操作三
从算子选择区将“空值检查”算子拖拽至画布区,与“数 据输入”算子连接。
4
操作四
点击“重复值检查”算子,打开算子配置区。规则类型选择“重复值检查”,校验字段选择字段“姓名”,校验等级选择为“严重”,校验不通过提示输入为“存在重复数据!”,点击“保存配置”。
5
操作五
保存并执行算子流,在数据预览区查看算子流运算 结果和质量检查结果。
逻辑检查#
逻辑检查算子可以对指定字段进行逻辑校验,譬如校验A字段的值是否小于B字段的值,并标识出不符合校验条件的数据位置和数量,有效识别数据的逻辑问题,帮助有针对性地完成后续数据清洗工作。校验字段
选择需要校验的字段,支持同时选择多个字段。
校验条件选择字段校验方式,支持选择“字段间简单逻辑校验”和“条件校验”两种校验方式。
字段间简单逻辑校验:该方式支持输入逻辑表达式,对数值或日期格式的字段进行简单逻辑校验,如总价=单价*数量、A=B等,不符合逻辑表达式的数据会被标识为逻辑校验未通过。支持新增多个逻辑表达式,各表达式之间是“且”的关系。
条件校验:选择该校验方式,可配置校验规则,对数据进行筛选,符合 校验规则的数据会被标识为逻辑校验未通过。可配置多个校验条件,支持在校验条件间设置“且”“或”两种关系:点击
,增加“且”关系的校验条件;点击
,增加“或”关系的校验条件。 逻辑表达式
选择。校验条件为“字段间简单逻辑校验”时自动带出该字段。输入逻辑表达式时,可使用+-*/校验数值型字段逻辑,>、< 、>=、 < =、 = 校验数值型和日期型字段逻辑。
配置参数选择校验条件为“条件校验”时自动带出该字段。配置校验条件的字段说明如下:
数据类型:选择与校验字段对比的值,支持选择三种类型的数值,包括字段、字典表和自定义:
1.
字段可用于设置对比字段,检查校验字段和对比字段之间等于或不等于的关系;
2.
字典表可引用数据网盘的数据表,检查校验字段与所选字典表的字段之间等于或不等于的关系;
3.
自定义:可设置自定义数值,校验字段与自定义值之间的多种关系;
字典表:当对比数据的数据类型为“字典表”时,可点击该按钮引用数据网盘的表,作为对比使用的字典表,点击
可引用多张字典表; 字段类型:当校验字段为文本类型的字段,且对比数据的数据类型选择“自定义”时,可在此处设置校验字段的字段类型,同时影响自定义值的类型;
条件:选择对比条件,如等于、不等于等,所选择对比数据的数据类型不同,可选择的条件不同;
值:根据对比数据的数据类型,选择字段、字典表的字段或输入自定义值。当数据类型是自定义值时,既可手动输入对比数据,也可引用参数作为对比数据。
校验等级
设置该算子识别出的质量问题的严重等级,支持设置“严重”和“一般”两类等级,后续可在数据预览区和质量报告(需配置数据质量容器算子)中查看。
校验不通过提示
设置质量问题提示语,该提示语设置后可在数据预览区查看。
请利用逻辑检查算子对表格附件《培训考试分数》进行质量校验,使用“字段间简单逻辑检验”校验总分是否为各部分分数之和,使用“条件校验”校验是否存在不及格的分数。
2
操作二
点击画布自动带出的“数据输入”算子,打开 算子配置区,选择本地上传文件或从数据网盘引用数据,输入表格附件《培训考试分数》,将“主观题分数”“客观题分数”“课堂表现得分”和“最终成绩”四个字段的目标类型修改为“数值”类型。
3
操作三
从算子选择区将两个“逻辑检查”算子拖拽至画布区,均与“数据输入”算子连接。
4
操作四
点击第一个“逻辑检查”算子,打开算子配置区。校验字段选择“最终成绩(满分100)”,校验条件选择“字段间简单逻辑检验”,点击“逻辑表达式”,双击选择字段及运算符号,输入“主观题分数(满分50)+客观题分数(满分30)+课堂表现得分(满分20)=最终成绩(满分100)”,校验等级选择“严重”,校验不通过提示输入为“考试分数计算有误!”,点击“保存配置”。
5
操作五
点击第二个“逻辑检查”算子,打开配置区。校验字段选择“最终成绩(满分100)”,校验条件选择“条件校验”,配置参数设置为“字段‘最终成绩(满分100)’-数据类型‘自定义’-条件‘小于’-值‘60’”,校验不 通过提示输入为“考试分数低于60分”,点击“保存配置”。
6
操作六
保存并执行算子流,在数据预览区查看算子流运算结果和质量检查结果。
值域检查#
值域检查算子适用于校验字段值是否在一定数值范围内,这个数值范围既可以是连续的数值范围,也可以是不连续的、枚举出的数值范围,例如1、2、5、6,可以有效帮助分析人员确定是否存在超出范围的异常数值,重点关注这部分异常数值。校验字段
选择需要校验的字段,支持同时选择多个字段。
校验条件选择校验内容和校验方式,各校验条件说明如下:
枚举值:可以校验字段的值是否是少量固定值之一,例如校验员工学历字段下的值是否是中专、大专、本科、研究生之一,支持选择“精准校验”和“模糊校验”两个校验方式:1.
精准校验:校验严格,如定义值为“笔”时,数据中除了“笔”之外的数据均无法通过校验。
2.
模糊校验:校验宽松,可根据定义值进行模糊匹配,如定义值为“笔”,数据中“圆珠笔”“签字表”“毛笔”等包含该字符的数据都是正确数据,不包含“笔”的数据仍无法通过校验。
字典表:与枚举值校验逻辑相同,但可以校验大量固定值,也支持选择“精准校验”和“模糊校验”两种形式;
数值范围校验:可以校验数值类型的数据是否处于指定数值范围中;
日期范围校验:可以校验日期类型的数据是否处于指定数值范围中。
校验等级
设置该算子识别出的质量问题的严重等级,支持设置“严重”和“一般”两类等级,后续可在数据预览区和质量报告(需配置数据质量容器算子)中查看。
校验不通过提示
设置质量问题提示语,该提示语设置后可在数据预览区查看。
1
操作一
新建算子流画布,将画布重命名为“值域检查”,点击“保存”,将算子流保存至“新云汽车算子”文件夹内。
2
操作二
通过“数据输入”算子将附件Excel文件《质量检查分数》输入。
3
操作三
从算子选择区将“字段选择”算子拖拽至画布区,连接“字段选择”算子与“数据输入”算子。
4
操作四
点击“字段选择”算子,将所有的分数字段格式修改为数值,点击“保存配置”。
5
操作五
从算子选择区将“值域检查”算子拖拽至画布区,连接“值域检查”算子与“字段选择”算子。
6
操作六
点击“值域检查”算子,在“校验字段”处选择“课堂表现得分(满分20)”,在“校验条件”中选择“数值范围校验”,数值范围小数位数为“0”,数值范围为“左开右闭”,最小值为0,最大值为20,在“校验不通过提示”中输入“值域检查不通过字段数”,点击“保存配置”。
7
操作七
点击“执行”,执行算子流,在数据预览区查看算子流运算结果和质量检验结果。
格式检查#
格式检查算子可检查校验字段中所选字段格式是否为指定格式,明确标注格式错误的数值位置和数量,可有效校验数据格式问题。校验字段
选择需要校验的字段,支持同时选择多个字段。
校 验条件选择校验内容和校验方式,各校验条件说明如下:
日期类型:支持选择校验字段类型和校验内容。其中校验字段类型是校验字段的目标类型是否为日期时间类型,校验内容是校验日期字段的内容是否符合要求的格式,支持选择多种格式,例如YYYY-MM-DD、YYYY-MM-DD HH:MM:ss等;
字符类型:支持校验所选字段的目标类型是否为文本类型,同时可对所选字段的字符长度进行校验;
数值类型:支持校验所选字段的目标类型是否为数值类型,可选择校验字段类型和校验内容。其中校验字段类型是校验字段的目标类型,校验内容是校验数值字段的小数位;
特殊字符校验:校验所选字段数据是否包含特殊字符,包括[`~!#$%^&()_\+=< > ?:"{}| ~ ! #%……&