(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210468742.1
(22)申请日 2022.04.29
(71)申请人 中国建设银行股份有限公司
地址 100033 北京市西城区金融大街25号
(72)发明人 丁平 毛亚妮
(74)专利代理 机构 北京同立钧成知识产权代理
有限公司 1 1205
专利代理师 唐强 臧建明
(51)Int.Cl.
G06Q 40/02(2012.01)
G06F 16/9035(2019.01)
G06F 16/23(2019.01)
G06F 16/2455(2019.01)
(54)发明名称
基于多数据源的数据处理方法、 装置、 设备
及存储介质
(57)摘要
本申请提供一种基于多数据源的数据处理
方法、 装置、 设备及存储介质。 该方法包括: 从至
少两个数据源, 提取与所述数据源对应的数据
集; 其中, 所述数据源中包括多种数据集, 所述数
据集中包括至少一个原始数据; 提取所述原始数
据中的目标数据, 得到所述原始数据的待处理数
据; 对所述原始数据的待处理数据进行校验, 得
到所述原始数据的待处理数据的数据校验结果;
根据各所述数据校验结果, 将各所述原始数据的
待处理数据, 输入至预先生 成的初始结构化模板
中, 生成目标结构化数据。 本申请的方法, 实现了
将多数据源的数据处理至一个结构化模板中, 生
成结构化信息, 减少后续使用多源 数据的处理过
程, 有效提高数据处 理效率。
权利要求书3页 说明书17页 附图4页
CN 114723551 A
2022.07.08
CN 114723551 A
1.一种基于多数据源的数据处 理方法, 其特 征在于, 包括:
从至少两个数据源, 提取与所述数据源对应的数据集; 其中, 所述数据源中包括多种数
据集, 所述数据集中包括至少一个原 始数据;
提取所述原始数据中的目标 数据, 得到所述原 始数据的待处 理数据;
对所述原始数据的待处理数据进行校验, 得到所述原始数据的待处理数据的数据 校验
结果;
根据各所述数据校验结果, 将各所述原始数据的待处理数据, 输入至预先生成的初始
结构化模板中, 生成目标 结构化数据。
2.根据权利要求1所述的方法, 其特征在于, 提取所述原始数据中的目标数据, 得到所
述原始数据的待处 理数据, 包括:
根据预设的关联关系, 从所述数据源对应的数据集中的原始数据中提取目标数据, 将
所述目标数据确定为所述原始数据的待处理数据; 其中, 所述预设的关联关系为数据源与
数据提取规则之间的关联关系。
3.根据权利要求2所述的方法, 其特征在于, 根据预设的关联关系, 从所述数据源对应
的数据集中的原 始数据中提取目标 数据, 包括:
根据预设的数据源与 数据提取规则之间的关联关系, 确定任一数据源所对应的所述数
据集的目标 数据提取规则;
根据所述目标 数据提取规则, 从所述原 始数据中得到所述目标 数据。
4.根据权利要求3所述的方法, 其特征在于, 所述数据集为视频数据集, 所述原始数据
为所述视频 数据集中的原 始视频;
相应地, 根据所述目标 数据提取规则, 从所述原 始数据中得到所述目标 数据, 包括:
根据预设的视频分析算法, 对所述原 始视频中的画面进行 特征提取, 得到 视频特征值;
将所述视频特征值作为场景信息, 构建视频数据集的结构化场景信息集合, 并将所述
结构化场景信息集 合确定为所述目标 数据。
5.根据权利要求4所述的方法, 其特征在于, 根据预设的视频分析算法, 对所述原始视
频中的画面进行 特征提取, 得到 视频特征值, 包括:
根据预设的视频 人物分析算法, 确定所述原 始视频中的人物数量;
根据所述人物数量和业务场景标识之间的关联关系, 确定所述视频数据集的目标业务
场景标识;
根据预设的人物特征提取算法, 对所述原始视频中的任一人物进行特征提取, 得到人
物特征值;
将所述目标业 务场景标识和所述人物特 征值确定为所述视频 特征值。
6.根据权利要求5所述的方法, 其特征在于, 将所述视频特征值作为场景信息, 构建视
频数据集的结构化场景信息集 合, 包括:
获取预设的视频 数据集的初始场景信息集 合;
将所述目标业务场景标识和所述人物特征值输入至所述初始场景信 息集合中, 得到所
述视频数据集的结构化场景信息集 合。
7.根据权利要求4所述的方法, 其特征在于, 根据所述目标数据提取规则, 从所述原始
数据中得到所述目标 数据, 还包括:权 利 要 求 书 1/3 页
2
CN 114723551 A
2获取所述原始视频中的语音, 根据预设的语音识别算法, 将所述原始视频中的语音转
换为文字, 生成语音 文本;
根据预设的关键词抽取算法, 从所述语音 文本中获取语音关键词;
根据所述语音关键词构建视频 数据集的结构化关键词信息集 合, 作为所述目标 数据。
8.根据权利要求3所述的方法, 其特征在于, 所述数据集为用户信息 图片集和/或业务
信息图片集, 所述原 始数据为用户信息图片和/或业 务信息图片;
相应地, 根据所述目标 数据提取规则, 从所述原 始数据中得到所述目标 数据, 包括:
通过预设的文字识别算法, 得到所述用户信息 图片中的用户信息和/或所述业务信息
图片中的业 务信息;
根据所述用户信 息构建所述用户信 息图片集的结构化用户信 息集合, 作为所述目标数
据; 和/或, 根据所述业务信息构建所述业务信息图片集的结构化业务信息集合, 作为所述
目标数据。
9.根据权利要求1所述的方法, 其特征在于, 对所述原始数据的待处理数据进行校验,
得到所述原 始数据的待处 理数据的数据校验结果, 包括:
根据预设的数据校验规则, 对所述原始数据的待处理数据进行校验, 得到所述待处理
数据的数据校验结果。
10.根据权利要求9所述的方法, 其特征在于, 根据 预设的数据校验规则, 对所述原始数
据的待处 理数据进行 校验, 得到所述待处 理数据的数据校验结果, 包括:
将所述待处 理数据与预 先存储的数据库信息进行比较;
若所述待处 理数据与所述数据库信息一 致, 则确定所述数据校验结果 为校验通过。
11.根据权利要求10所述的方法, 其特征在于, 所述待处理数据为结构化场景信 息集合
和结构化用户信息集 合;
相应地, 在所述待处 理数据与所述数据库信息一 致之后, 还 包括:
获取所述结构化场景信息集合中用户的人物特征值以及所述结构化用户信息集合中
的用户信息;
根据所述用户信息, 从预 先存储的数据库信息中查找用户的人脸特 征值;
若所述人脸特 征值与所述人物特 征值一致, 则确定所述数据校验结果 为校验通过。
12.根据权利要求1所述的方法, 其特征在于, 根据 各所述数据校验结果, 将各所述原始
数据的待处 理数据, 输入至预 先生成的初始结构化模板中, 生成目标 结构化数据, 包括:
根据各数据校验结果, 在各所述原始数据的待处理数据中增加对应的结果标识, 得到
各待处理数据的组合字段;
将各所述组合字段添加至预先生成的初始结构化模板 中的对应位置处, 得到所述目标
结构化数据。
13.一种基于多数据源的数据处 理装置, 其特 征在于, 包括:
数据集提取模块, 用于从至少两个数据源, 提取与所述数据源对应的数据集; 其中, 所
述数据源中包括多种数据集, 所述数据集中包括至少一个原 始数据;
待处理数据获得模块, 用于提取所述原始数据中的目标数据, 得到所述原始数据的待
处理数据;
数据校验结果获得模块, 用于对所述原始数据的待处理数据进行校验, 得到所述原始权 利 要 求 书 2/3 页
3
CN 114723551 A
3
专利 基于多数据源的数据处理方法、装置、设备及存储介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:46:27上传分享