Finside 财芯 文档中心
首页智算智数智视
首页智算智数智视
财芯官网
  1. 财务算子智能建模
  • 财芯简介
  • 开始使用
    • 登录
    • 首页
    • 个人中心
  • 智算
    • 认识算法中心
      • 操作栏
      • 算子选择区
      • 画布区
      • 算子配置区
      • 数据预览区
      • 图层管理区
    • 财务算子智能建模
      • 新建算子流
      • 输入输出
      • 数据准备
      • 数据关联
      • 数据转换
      • 数据质量
      • 扩展编程
      • 文档辅助
      • Python自定义算子
    • 算子流协同组合运算
      • 组合执行
      • 计划执行
  • 智数
    • 数据网盘
    • 我的数据
      • 新增数据源
      • 上传记录
      • 导入记录
      • 数据管理
      • 转交全部文件
      • 切换视图
    • 算子流
      • 管理算子流
      • 导入算子流
      • 运行记录
      • 转交全部文件
      • 切换视图
    • 数据连接
      • 新增数据连接
      • 管理数据连接
      • 导入数据连接
      • 转交所有文件
      • 切换视图
    • 我的报表
      • 管理报表
      • 导入报表
      • 转交全部文件
      • 切换视图
    • 数据分享
      • 我的分享
      • 分享给我
    • 回收站
  • 智视
    • 大屏
      • 大屏管理
      • 组件配置
      • 数据管理
    • BI
      • 工作表
      • 数据关联
      • 看板
      • 看板组件配置
      • 图文报告
      • 大屏与BI组合配置
首页智算智数智视
首页智算智数智视
财芯官网
  1. 财务算子智能建模

数据质量

数据质量校验是一个系统性的过程,旨在通过评估、验证和纠正数据,确保其准确性、完整性、一致性、规范性、可靠性和唯一性。
该模块支持灵活配置多种质量校验规则,从而实现对数据全面的质量检查。质量校验结果可视展现,便于后续进行数据清洗、质量分析等工作。贯穿始终的质量管理让数据可用、可靠,满足数据使用需求。
图片27.png

空值检查#

空值检查算子可以针对全表或指定字段进行空值识别,并明确标注空值位置和数量,可有效校验数据缺失问题,帮助分析人员判断数据缺失的比例和分布情况,选择合适的解决办法。
算子配置说明如下:
规则类型
选择校验的规则类型,支持选择“全表校验”和“选择字段校验”两种规则。
全表校验:对数据表全部字段进行校验,即对全部数据进行校验;
选择字段校验:对数据表中用户选择的字段进行校验,只校验该字段下的值,可理解为表格中列的概念。当选择此种规则校验时,系统会自动带出字段“校验字段”,以供用户选择。
校验字段
选择需要校验的字段,支持同时选择多个字段。
校验等级
设置该算子识别出的质量问题的严重等级,支持设置“严重”和“一般”两类等级,后续可在数据预览区和质量报告(需配置数据质量容器算子)中查看。
校验不通过提示
设置质量问题提示语,该提示语设置后可在数据预览区查看。
快速任务
请使用空值检查算子对表格附件《培训考试分数》进行质量校验,检查是否存在数据缺失的问题。
操作指引
1
操作一
进入算法中心,点击“新建”,进入算子流配置页面。
2
操作二
点击画布自动带出的“数据输入”算子,打开配置页面,选择本地上传文件或从数据网盘引用数据,输入表格附件《培训考试分数》。
3
操作三
从算子选择区将“空值检查”算子拖拽至画布区,与“数据输入”算子连接。
4
操作四
点击“空值检查”算子,打开算子配置区。规则类型选择“选择字段校验”,校验字段选择“主观题分数”“客观题分数”“课堂表现得分”和“最终成绩”四个字段,校验等级选择为“严重”,校验不通过提示输入为“存在数据缺失!”,点击“保存配置”。
图片2.png
5
操作五
保存并执行算子流,在数据预览区查看算子流运算结果和质量检查结果。

重复唯一值检查#

重复唯一值检查算子可以对指定字段进行重复值或唯一值校验,明确标注重复值或不唯一值的位置和数量,高效识别数据冗余问题。
算子配置说明如下:
规则类型
支持选择“重复值检查”和“唯一值检查”两种数据校验类型。
重复值检查:对指定字段或字段组合,进行数据重复性检查;
唯一值检查:对指定字段或字段组合,进行数据唯一性检查。
校验字段
选择需要校验的字段,支持同时选择多个字段。
校验等级
设置该算子识别出的质量问题的严重等级,支持设置“严重”和“一般”两类等级,后续可在数据预览区和质量报告(需配置数据质量容器算子)中查看。
校验不通过提示
设置质量问题提示语,该提示语设置后可在数据预览区查看。
快速任务
请使用重复值检查算子对表格附件《培训考试分数》进行重复性校验,检查是否存在重复录入学员数据的问题。
操作指引
1
操作一
进入算法中心,点击“新建”,进入算子流配置页面。
2
操作二
点击画布自动带出的“数据输入”算子,打开配置页面,选择本地上传文件或从数据网盘引用数据,输入表格附件《培训考试分数》。
3
操作三
从算子选择区将“空值检查”算子拖拽至画布区,与“数据输入”算子连接。
4
操作四
点击“重复值检查”算子,打开算子配置区。规则类型选择“重复值检查”,校验字段选择字段“姓名”,校验等级选择为“严重”,校验不通过提示输入为“存在重复数据!”,点击“保存配置”。
图片29.png
5
操作五
保存并执行算子流,在数据预览区查看算子流运算结果和质量检查结果。

逻辑检查#

逻辑检查算子可以对指定字段进行逻辑校验,譬如校验A字段的值是否小于B字段的值,并标识出不符合校验条件的数据位置和数量,有效识别数据的逻辑问题,帮助有针对性地完成后续数据清洗工作。
算子配置说明如下:
校验字段
选择需要校验的字段,支持同时选择多个字段。
校验条件
选择字段校验方式,支持选择“字段间简单逻辑校验”和“条件校验”两种校验方式。
字段间简单逻辑校验:该方式支持输入逻辑表达式,对数值或日期格式的字段进行简单逻辑校验,如总价=单价*数量、A=B等,不符合逻辑表达式的数据会被标识为逻辑校验未通过。支持新增多个逻辑表达式,各表达式之间是“且”的关系。
条件校验:选择该校验方式,可配置校验规则,对数据进行筛选,符合校验规则的数据会被标识为逻辑校验未通过。可配置多个校验条件,支持在校验条件间设置“且”“或”两种关系:点击图片30.png,增加“且”关系的校验条件;点击图片31.png,增加“或”关系的校验条件。
逻辑表达式
选择。校验条件为“字段间简单逻辑校验”时自动带出该字段。输入逻辑表达式时,可使用+-*/校验数值型字段逻辑,>、< 、>=、 < =、 = 校验数值型和日期型字段逻辑。
配置参数
选择校验条件为“条件校验”时自动带出该字段。配置校验条件的字段说明如下:
字段:选择校验字段;
数据类型:选择与校验字段对比的值,支持选择三种类型的数值,包括字段、字典表和自定义:
1.
字段可用于设置对比字段,检查校验字段和对比字段之间等于或不等于的关系;
2.
字典表可引用数据网盘的数据表,检查校验字段与所选字典表的字段之间等于或不等于的关系;
3.
自定义:可设置自定义数值,校验字段与自定义值之间的多种关系;
字典表:当对比数据的数据类型为“字典表”时,可点击该按钮引用数据网盘的表,作为对比使用的字典表,点击图片32.png可引用多张字典表;
字段类型:当校验字段为文本类型的字段,且对比数据的数据类型选择“自定义”时,可在此处设置校验字段的字段类型,同时影响自定义值的类型;
条件:选择对比条件,如等于、不等于等,所选择对比数据的数据类型不同,可选择的条件不同;
表名:根据选择的字典表自动带出;
值:根据对比数据的数据类型,选择字段、字典表的字段或输入自定义值。当数据类型是自定义值时,既可手动输入对比数据,也可引用参数作为对比数据。
校验等级
设置该算子识别出的质量问题的严重等级,支持设置“严重”和“一般”两类等级,后续可在数据预览区和质量报告(需配置数据质量容器算子)中查看。
校验不通过提示
设置质量问题提示语,该提示语设置后可在数据预览区查看。
快速任务
请利用逻辑检查算子对表格附件《培训考试分数》进行质量校验,使用“字段间简单逻辑检验”校验总分是否为各部分分数之和,使用“条件校验”校验是否存在不及格的分数。
操作指引
1
操作一
进入算法中心,点击“新建”,进入算子流配置页面。
2
操作二
点击画布自动带出的“数据输入”算子,打开算子配置区,选择本地上传文件或从数据网盘引用数据,输入表格附件《培训考试分数》,将“主观题分数”“客观题分数”“课堂表现得分”和“最终成绩”四个字段的目标类型修改为“数值”类型。
图片33.png
3
操作三
从算子选择区将两个“逻辑检查”算子拖拽至画布区,均与“数据输入”算子连接。
4
操作四
点击第一个“逻辑检查”算子,打开算子配置区。校验字段选择“最终成绩(满分100)”,校验条件选择“字段间简单逻辑检验”,点击“逻辑表达式”,双击选择字段及运算符号,输入“主观题分数(满分50)+客观题分数(满分30)+课堂表现得分(满分20)=最终成绩(满分100)”,校验等级选择“严重”,校验不通过提示输入为“考试分数计算有误!”,点击“保存配置”。
图片34.png
5
操作五
点击第二个“逻辑检查”算子,打开配置区。校验字段选择“最终成绩(满分100)”,校验条件选择“条件校验”,配置参数设置为“字段‘最终成绩(满分100)’-数据类型‘自定义’-条件‘小于’-值‘60’”,校验不通过提示输入为“考试分数低于60分”,点击“保存配置”。
图片35.png
6
操作六
保存并执行算子流,在数据预览区查看算子流运算结果和质量检查结果。

值域检查#

值域检查算子适用于校验字段值是否在一定数值范围内,这个数值范围既可以是连续的数值范围,也可以是不连续的、枚举出的数值范围,例如1、2、5、6,可以有效帮助分析人员确定是否存在超出范围的异常数值,重点关注这部分异常数值。
算子配置说明如下:
校验字段
选择需要校验的字段,支持同时选择多个字段。
校验条件
选择校验内容和校验方式,各校验条件说明如下:
枚举值:可以校验字段的值是否是少量固定值之一,例如校验员工学历字段下的值是否是中专、大专、本科、研究生之一,支持选择“精准校验”和“模糊校验”两个校验方式:
1.
精准校验:校验严格,如定义值为“笔”时,数据中除了“笔”之外的数据均无法通过校验。
2.
模糊校验:校验宽松,可根据定义值进行模糊匹配,如定义值为“笔”,数据中“圆珠笔”“签字表”“毛笔”等包含该字符的数据都是正确数据,不包含“笔”的数据仍无法通过校验。
字典表:与枚举值校验逻辑相同,但可以校验大量固定值,也支持选择“精准校验”和“模糊校验”两种形式;
数值范围校验:可以校验数值类型的数据是否处于指定数值范围中;
日期范围校验:可以校验日期类型的数据是否处于指定数值范围中。
校验等级
设置该算子识别出的质量问题的严重等级,支持设置“严重”和“一般”两类等级,后续可在数据预览区和质量报告(需配置数据质量容器算子)中查看。
校验不通过提示
设置质量问题提示语,该提示语设置后可在数据预览区查看。
快速任务
请对附件Excel《质量检查分数》进行值域检查。
操作指引
1
操作一
新建算子流画布,将画布重命名为“值域检查”,点击“保存”,将算子流保存至“新云汽车算子”文件夹内。
2
操作二
通过“数据输入”算子将附件Excel文件《质量检查分数》输入。
3
操作三
从算子选择区将“字段选择”算子拖拽至画布区,连接“字段选择”算子与“数据输入”算子。
4
操作四
点击“字段选择”算子,将所有的分数字段格式修改为数值,点击“保存配置”。
5
操作五
从算子选择区将“值域检查”算子拖拽至画布区,连接“值域检查”算子与“字段选择”算子。
6
操作六
点击“值域检查”算子,在“校验字段”处选择“课堂表现得分(满分20)”,在“校验条件”中选择“数值范围校验”,数值范围小数位数为“0”,数值范围为“左开右闭”,最小值为0,最大值为20,在“校验不通过提示”中输入“值域检查不通过字段数”,点击“保存配置”。
图片36.png
7
操作七
点击“执行”,执行算子流,在数据预览区查看算子流运算结果和质量检验结果。

格式检查#

格式检查算子可检查校验字段中所选字段格式是否为指定格式,明确标注格式错误的数值位置和数量,可有效校验数据格式问题。
算子配置说明如下:
校验字段
选择需要校验的字段,支持同时选择多个字段。
校验条件
选择校验内容和校验方式,各校验条件说明如下:
日期类型:支持选择校验字段类型和校验内容。其中校验字段类型是校验字段的目标类型是否为日期时间类型,校验内容是校验日期字段的内容是否符合要求的格式,支持选择多种格式,例如YYYY-MM-DD、YYYY-MM-DD HH:MM:ss等;
字符类型:支持校验所选字段的目标类型是否为文本类型,同时可对所选字段的字符长度进行校验;
数值类型:支持校验所选字段的目标类型是否为数值类型,可选择校验字段类型和校验内容。其中校验字段类型是校验字段的目标类型,校验内容是校验数值字段的小数位;
特殊字符校验:校验所选字段数据是否包含特殊字符,包括[`~!#$%^&()_\+=< > ?:"{}| ~ ! #%……&()={}|《》?:“”【】、;‘’,。、\s+])等字符。
布尔类型:布尔类型是一种只有两个值的数据类型,分别表示真和假。选择该校验条件,会校验所选字段的值是否为TURE或者FALSE;
手机格式:校验所选字段值是否为手机号码格式;
邮箱格式:校验所选字段值是否为邮件格式;
身份证号:校验所选字段值是否为身份证号格式;
IP地址:校验所选字段值是否为IP地址格式;
自定义正则表达式:正则表达式是一种文本模式,可以用来描述和匹配字符串的特定模,用于模式匹配和搜索文本的工具。它类似于excel查找中的通配符,可用来匹配、检索和替换符合某个模式(规则)的文本,例如表达式“^.{3,20}$”可用于校验字符长度是否介于3-20之间。
校验等级
设置该算子识别出的质量问题的严重等级,支持设置“严重”和“一般”两类等级,后续可在数据预览区和质量报告(需配置数据质量容器算子)中查看。
校验不通过提示
设置质量问题提示语,该提示语设置后可在数据预览区查看。
快速任务
请对附件Excel《质量检查分数》进行格式检验,检查最终成绩是否为整数。
操作指引
1
操作一
新建算子流画布,将画布重命名为“格式检查”,点击“保存”,将算子流保存至“新云汽车算子”文件夹内。
2
操作二
通过“数据输入”算子将附件Excel文件《质量检查分数》输入。
3
操作三
从算子选择区将“格式检查”算子拖拽至画布区,连接“格式检查”算子与“数据输入”算子。
4
操作四
点击“格式检查”算子,在“校验字段”处选择“最终成绩(满分100)”,校验条件选择“数值类型”,在“配置参数”选择“校验内容”,小数位数为“0”,在“校验不通过提示”中输入“格式不通过字段数”,点击“保存配置”。
图片37.png
图片38.png
5
操作五
点击“执行”,执行算子流,在数据预览区查看算子流运算结果和质量检查结果。

波动率检查#

波动率检查算子可计算指定字段下的数值相较于标准值的波动率,并校验波动值是否处于制定的范围内,例如计算材料12个月内各月价格相较于标准值的波动率,识别是否存在波动率超过100%的异常数据。
算子配置说明如下:
校验字段
选择需要校验的字段,支持同时选择多个字段。
配置参数
设置波动率校验标准值和范围,详细配置说明如下:
基准值:设置计算波动率的基准值;
波动率标准值:设置比较波动率是否超出标准的数值;
比较符号:支持以下比较符号,包括>, < ,>=,=和!=。
校验等级
设置该算子识别出的质量问题的严重等级,支持设置“严重”和“一般”两类等级,后续可在数据预览区和质量报告(需配置数据质量容器算子)中查看。
校验不通过提示
设置质量问题提示语,该提示语设置后可在数据预览区查看。
快速任务
请标注附件Excel《产品质量检验表》中产品桌板厚度波动超过5%的产品。(基准值为10cm)
操作指引
1
操作一
新建算子流画布,将画布重命名为“波动率检查”,点击“保存”,将算子流保存至“新云汽车算子”文件夹内。
2
操作二
通过“数据输入”算子将附件Excel文件《产品质量校验表》输入,并将字段“桌板厚度”“桌板长度”和“桌板宽度”目标类型修改为“数值”。
图片39.png
3
操作三
从算子选择区将“波动率检查”算子拖拽至画布区,与“数据输入”算子连接。
4
操作四
点击“波动率检查”算子,“校验字段”选择“桌板厚度”,在“配置参数”中输入“10”,在“波动率标准值”输入“5”,比较符号为“<”,校验等级选择“严重”,“校验不通过提示”输入为“桌板厚度质量校验不达标”,点击“保存配置”。
图片40.png
5
操作五
点击“执行”,执行算子流,在数据预览区查看算子流运算结果及产品质量检查结果。

数据质量容器#

数据质量容器算子可以将画布上的数据质量类的算子打包成组。它就像文件夹,用户可以将数据质量类算子放在容器内,将这些数据质量算子组合。
同一数据质量容器算子内的算子组合可视为一条数据校验规则,数据质量容器算子可将规则发布到其他算子流,让其他算子流复用该规则,也可以复用其他算子流发布的规则,节省配置时间。
各配置项功能说明如下:
规则
选择发布数据校验规则或者服用校验规则。
配置规则:将该数据质量容器算子配置好的算子组合作为校验规则,以供其他算子流引用;
复用规则:引用其他数据质量容器算子配置好的校验规则。
发布规则
可打开发布规则界面,选择发布规则至哪条算子流及查看发布记录。首次配置好的数据质量容器无需发布,其他算子流的数据质量容器算子也可复用规则。
发布:将规则发布至指定的算子流;
发布至全部算子流:将规则发布至全部的算子流;
发布记录:查看规则发布记录;
算子流查看界面:可以查看已经复用该数据质量容器算子发布的规则的算子流。
选择复用规则
选择复用哪条算子流的校验规则。
更新规则
获取复用规则的最新的规则配置,并覆盖现有规则。
输出校验结果列
勾选后,质量校验结果中会新增一列数据,用于展示该行中质量校验不通过的字段及提示。列名支持用户自定义配置。
图片41.png
图片42.png
此外,数据质量容器算子可总览或分等级查看容器内全部算子校验的结果,并将数据质量校验结果保存至数据网盘中,支持点击右上角的数据质量按钮分校验等级查看。
图片43.png
图片44.png
快速任务
使用数据质量算子对表格附件《财务部员工信息表》进行质量校验,用数据质量容器算子将这些算子打包,发布校验规则,并将校验结果输出至数据网盘。
操作指引
1
操作一
进入算法中心,点击“新建”,进入算子流配置页面。
2
操作二
点击画布自动带出的“数据输入”算子,打开配置页面,选择本地上传文件或从数据网盘引用数据,输入表格附件《财务部员工信息表》。
3
操作三
从算子选择区将“数据质量容器”算子拖拽至画布区,与“数据输入”算子连接。
4
操作四
从算子选择区将“空值检查”算子拖拽入数据质量容器,点击“空值检查”算子,打开算子配置区。规则类型选择“全表校验”,校验等级选择为“严重”,校验不通过提示输入为“存在数据缺失!”,点击“保存配置”。
图片45.png
5
操作五
从算子选择区将“格式检查”算子拖拽入数据质量容器,与“空值检查”算子连接。点击“格式检查”算子,打开算子配置区。校验字段选择除“序号”“工号”和“电子邮箱地址”以外的全部字段,校验条件选择“特殊字符校验”,校验等级选择“一般”,校验不通过提示输入为“数据中存在特殊字符!”,点击“保存配置”。
图片46.png
6
操作六
点击“数据质量容器”算子,打开算子配置区。容器名称修改为“财务部员工信息表数据校验结果”,规则选择“配置规则”,保存校验结果选择“我的数据”文件夹,不勾选输出校验结果列。
图片47.png
7
操作七
保存并执行算子流,在数据预览区查看算子流运算结果及产品质量检查结果。
8
操作八
进入数据网盘,打开“我的数据”文件夹,查看保存的数据质量校验结果。
图片48.png
注意事项
配置时,需要先配置数据质量容器,再在容器中配置数据质量校验算子。
上一页
数据转换
下一页
扩展编程
Built with