(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211196333.7
(22)申请日 2022.09.29
(71)申请人 河北雄安睿天科技有限公司
地址 071700 河北省保定市容城县容城镇
城内村正 义路176号510室
申请人 河北建投水务投资有限公司
沧州市供 水排水集团有限公司
河北建投衡水 水务有限公司
唐山市曹妃甸供 水有限责任公司
廊坊市清泉供 水有限责任公司
辛集市建投水务有限责任公司
河北建投沙河供 水有限公司
(72)发明人 田志民 牛豫海 张娟 王建伟
宋鹏飞 王泽民 张强 曹红梅
朱乾 (74)专利代理 机构 北京高航知识产权代理有限
公司 11530
专利代理师 乔浩刚
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 16/22(2019.01)
G06Q 10/06(2012.01)
G06Q 50/06(2012.01)
G06V 30/14(2022.01)
G06V 30/19(2022.01)
(54)发明名称
一种供水行业数据清洗方法
(57)摘要
本申请提出一种供水行业数据 清洗方法, 所
述方法可 以包括, 获取历史供水数据表; 对所述
历史供水数据表中每一字段下的数据进行分析,
得到所述历史供水数据表中每一字段对应的字
段属性; 基于每一所述字段与对应字段属性, 生
成数据清洗字典; 利用所述数据清洗字典对待清
洗供水数据表中的数据进行数据清洗。 由此可以
无需人工指定清洗规则, 降低清洗成本并且提升
清洗正确性。
权利要求书2页 说明书12页 附图6页
CN 115543977 A
2022.12.30
CN 115543977 A
1.一种供 水行业数据清洗方法, 其特 征在于, 所述方法包括:
获取历史供 水数据表;
对所述历史供水数据表中每一字段下的数据进行分析, 得到所述历史供水数据表中每
一字段对应的字段属性;
基于每一所述字段与对应字段属性, 生成数据清洗 字典;
利用所述数据清洗 字典对待清洗供 水数据表中的数据进行 数据清洗 。
2.根据权利要求1所述的方法, 其特征在于, 所述字段属性包括所述字段对应数据的数
据格式、 数据长度、 数据范围;
所述对所述历史供水数据表中每一字段下的数据进行分析, 得到所述历史供水数据表
中每一字段对应的字段属性, 包括:
对每一所述字段下包括的数据进行分析, 得到每一所述字段对应数据的数据格式、 数
据长度、 数据范围。
3.根据权利要求2所述的方法, 其特征在于, 所述对每一所述字段下包括的数据进行分
析, 得到每一所述字段对应数据的数据格式、 数据长度、 数据范围, 包括:
将第一字段对应的首个数据, 作为所述第一字段的名称; 所述第一字段为所述历史供
水数据表中的任意字段;
读取所述第一字段 下包括的数据, 确定所述第一字段对应数据的数据格式;
响应于所述数据格式为文本格式, 将各所述历史供水数据表中所述第 一字段下的文本
数据进行汇总集合作为所述第一字段对应数据的数据范围, 以及根据各所述历史供水数据
表中所述第一字段 下的最长文本数据确定所述第一字段对应数据的数据长度;
响应于所述数据格式为字符串格式, 将各所述历史供水数据表中所述第 一字段下的字
符串数据进行汇总集合, 作为所述第一字段对应数据的数据范围, 以及根据各所述历史供
水数据表中所述第一字段 下的最长 字符串数据确定所述第一字段对应数据的数据长度;
响应于所述数据格式为数值格式, 将各所述历史供水数据表中所述第 一字段下的最小
数值数据和最大数值数据形成的范围, 作为所述第一字段对应数据的数据范围, 以及根据
各所述历史供水数据表中所述第一字段下的最长数值数据确定所述第一字段对应数据的
数据长度。
4.根据权利要求3所述的方法, 其特征在于, 所述字段属性包括针对所述字段对应数据
的描述信息; 所述描述信息用于指示针对所述字段的填写规则;
所述对所述历史供水数据表中每一字段下的数据进行分析, 得到所述历史供水数据表
中每一字段对应的字段属性, 包括:
利用预先部署的图片截图插件, 对所述历史供水数据表进行截图操作, 得到与所述历
史供水据表对应的表截图;
对所述表截图进行文字提取, 得到所述表截图包 含的若干文字组合;
针对每一文字组合, 将所述文字组合内的文字与预设文字库中的文字进行比较, 将包
含预设文字库中文字的目标文字组合, 作为针对第二字段对应数据的描述信息; 所述预设
文字库中包含基于若干描述信息样本提取的描述信息关键字; 所述第二字段为所述历史供
水数据表中的任意字段;
将与所述目标文字组合在竖直方向距离为预设距离的文字组合作为所述第二字段的权 利 要 求 书 1/2 页
2
CN 115543977 A
2名称。
5.根据所述权利要求4所述的方法, 其特征在于, 所述对所述表截图进行文字提取, 得
到所述表截图包 含的若干文字组合, 包括:
针对所述表截图包含的每一像素点, 以所述像素点作为预设框的中心, 利用所述预设
框得到与所述像素点对应的锚框;
利用预先训练的文本图像识别模型对每一所述锚框围成的锚框图像进行分类, 得到包
含文本的文本锚框图像;
利用OCR技术对每一文本锚框图像进行文字识别, 得到每一文本锚框图像包含的文本
作为文字组合。
6.根据权利要求5所述的方法, 其特征在于, 所述将与 所述目标文字组合在竖直方向距
离为预设距离的文字组合作为所述第二字段的名称, 包括:
将与所述目标文字组合对应的目标锚框图像的中心像素点为起点, 延竖直向上的方向
移动所述预设距离, 获取对应的目标像素点;
将所述目标像素点所属的文本锚框图像包 含的文字组合作为所述第二字段的名称。
7.根据权利要求6所述的方法, 其特征在于, 所述基于每一所述字段与对应字段属性,
生成数据清洗 字典, 包括:
将所述第一字段作为所述数据清洗字典中的第 三字段, 并将所述第 一字段的名称作为
所述第三字段的名称;
将所述第 一字段对应数据的数据格 式、 数据长度、 数据范围, 作为所述第 三字段对应数
据的数据格式、 数据长度、 数据范围;
针对每一所述第三字段, 在所述第二字段中, 确定与所述第三字段名称相同的目标第
二字段, 以及将所述目标第二字段对应的描述信息, 确定为所述第三字段的描述信息 。
8.根据权利要求7所述的方法, 其特征在于, 所述利用所述数据清洗字典对待清洗供水
数据表中的数据进行 数据清洗, 包括:
针对所述待清洗供水数据表中的每一目标字段, 根据所述目标字段的首个数据确定所
述目标字段的目标字段名,
从所述数据清洗字典中查找与所述目标字段名匹配的目标第 三字段, 利用所述目标第
三字段对应的字段属性包括的数据格式、 数据长度、 数据范围, 确定所述目标字段下的脏数
据, 以及确定所述目标字段 下的缺失数据。
9.根据权利要求8所述的方法, 其特征在于, 在确定所述脏数据和所述缺失数据之后,
所述方法还 包括:
将所述目标字段下的缺失数据和所述脏数据分别对应的数据位置, 所述目标字段的字
段名以及所述目标第三字段对应的字段属性包含的描述信息, 输出至所述待清洗供水数据
表提供方, 以由所述 提供方基于输出的信息进行 所述缺失数据和所述脏数据的修改。
10.根据权利要求9所述的方法, 其特征在于, 响应于接收到所述提供方针对所述缺失
数据和所述脏数据的修改, 所述方法还 包括:
将修改后的数据按照对应的数据位置写入所述待清洗供 水数据表, 完成数据清洗 。权 利 要 求 书 2/2 页
3
CN 115543977 A
3
专利 一种供水行业数据清洗方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:25:39上传分享