专利基于多数据源的数据处理方法、装置、设备及存储介质 -在线下载 -pdf文件-shop.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210468742.1 (22)申请日 2022.04.29 (71)申请人中国建设银行股份有限公司地址 100033 北京市西城区金融大街25号 (72)发明人丁平　毛亚妮　 (74)专利代理机构北京同立钧成知识产权代理有限公司 1 1205 专利代理师唐强　臧建明 (51)Int.Cl. G06Q 40/02(2012.01) G06F 16/9035(2019.01) G06F 16/23(2019.01) G06F 16/2455(2019.01) (54)发明名称基于多数据源的数据处理方法、装置、设备及存储介质 (57)摘要本申请提供一种基于多数据源的数据处理方法、装置、设备及存储介质。该方法包括：从至少两个数据源，提取与所述数据源对应的数据集；其中，所述数据源中包括多种数据集，所述数据集中包括至少一个原始数据；提取所述原始数据中的目标数据，得到所述原始数据的待处理数据；对所述原始数据的待处理数据进行校验，得到所述原始数据的待处理数据的数据校验结果；根据各所述数据校验结果，将各所述原始数据的待处理数据，输入至预先生成的初始结构化模板中，生成目标结构化数据。本申请的方法，实现了将多数据源的数据处理至一个结构化模板中，生成结构化信息，减少后续使用多源数据的处理过程，有效提高数据处理效率。权利要求书3页说明书17页附图4页 CN 114723551 A 2022.07.08 CN 114723551 A 1.一种基于多数据源的数据处理方法，其特征在于，包括：从至少两个数据源，提取与所述数据源对应的数据集；其中，所述数据源中包括多种数据集，所述数据集中包括至少一个原始数据；提取所述原始数据中的目标数据，得到所述原始数据的待处理数据；对所述原始数据的待处理数据进行校验，得到所述原始数据的待处理数据的数据校验结果；根据各所述数据校验结果，将各所述原始数据的待处理数据，输入至预先生成的初始结构化模板中，生成目标结构化数据。 2.根据权利要求1所述的方法，其特征在于，提取所述原始数据中的目标数据，得到所述原始数据的待处理数据，包括：根据预设的关联关系，从所述数据源对应的数据集中的原始数据中提取目标数据，将所述目标数据确定为所述原始数据的待处理数据；其中，所述预设的关联关系为数据源与数据提取规则之间的关联关系。 3.根据权利要求2所述的方法，其特征在于，根据预设的关联关系，从所述数据源对应的数据集中的原始数据中提取目标数据，包括：根据预设的数据源与数据提取规则之间的关联关系，确定任一数据源所对应的所述数据集的目标数据提取规则；根据所述目标数据提取规则，从所述原始数据中得到所述目标数据。 4.根据权利要求3所述的方法，其特征在于，所述数据集为视频数据集，所述原始数据为所述视频数据集中的原始视频；相应地，根据所述目标数据提取规则，从所述原始数据中得到所述目标数据，包括：根据预设的视频分析算法，对所述原始视频中的画面进行特征提取，得到视频特征值；将所述视频特征值作为场景信息，构建视频数据集的结构化场景信息集合，并将所述结构化场景信息集合确定为所述目标数据。 5.根据权利要求4所述的方法，其特征在于，根据预设的视频分析算法，对所述原始视频中的画面进行特征提取，得到视频特征值，包括：根据预设的视频人物分析算法，确定所述原始视频中的人物数量；根据所述人物数量和业务场景标识之间的关联关系，确定所述视频数据集的目标业务场景标识；根据预设的人物特征提取算法，对所述原始视频中的任一人物进行特征提取，得到人物特征值；将所述目标业务场景标识和所述人物特征值确定为所述视频特征值。 6.根据权利要求5所述的方法，其特征在于，将所述视频特征值作为场景信息，构建视频数据集的结构化场景信息集合，包括：获取预设的视频数据集的初始场景信息集合；将所述目标业务场景标识和所述人物特征值输入至所述初始场景信息集合中，得到所述视频数据集的结构化场景信息集合。 7.根据权利要求4所述的方法，其特征在于，根据所述目标数据提取规则，从所述原始数据中得到所述目标数据，还包括：权　利　要　求　书 1/3 页 2 CN 114723551 A 2获取所述原始视频中的语音，根据预设的语音识别算法，将所述原始视频中的语音转换为文字，生成语音文本；根据预设的关键词抽取算法，从所述语音文本中获取语音关键词；根据所述语音关键词构建视频数据集的结构化关键词信息集合，作为所述目标数据。 8.根据权利要求3所述的方法，其特征在于，所述数据集为用户信息图片集和/或业务信息图片集，所述原始数据为用户信息图片和/或业务信息图片；相应地，根据所述目标数据提取规则，从所述原始数据中得到所述目标数据，包括：通过预设的文字识别算法，得到所述用户信息图片中的用户信息和/或所述业务信息图片中的业务信息；根据所述用户信息构建所述用户信息图片集的结构化用户信息集合，作为所述目标数据；和/或，根据所述业务信息构建所述业务信息图片集的结构化业务信息集合，作为所述目标数据。 9.根据权利要求1所述的方法，其特征在于，对所述原始数据的待处理数据进行校验，得到所述原始数据的待处理数据的数据校验结果，包括：根据预设的数据校验规则，对所述原始数据的待处理数据进行校验，得到所述待处理数据的数据校验结果。 10.根据权利要求9所述的方法，其特征在于，根据预设的数据校验规则，对所述原始数据的待处理数据进行校验，得到所述待处理数据的数据校验结果，包括：将所述待处理数据与预先存储的数据库信息进行比较；若所述待处理数据与所述数据库信息一致，则确定所述数据校验结果为校验通过。 11.根据权利要求10所述的方法，其特征在于，所述待处理数据为结构化场景信息集合和结构化用户信息集合；相应地，在所述待处理数据与所述数据库信息一致之后，还包括：获取所述结构化场景信息集合中用户的人物特征值以及所述结构化用户信息集合中的用户信息；根据所述用户信息，从预先存储的数据库信息中查找用户的人脸特征值；若所述人脸特征值与所述人物特征值一致，则确定所述数据校验结果为校验通过。 12.根据权利要求1所述的方法，其特征在于，根据各所述数据校验结果，将各所述原始数据的待处理数据，输入至预先生成的初始结构化模板中，生成目标结构化数据，包括：根据各数据校验结果，在各所述原始数据的待处理数据中增加对应的结果标识，得到各待处理数据的组合字段；将各所述组合字段添加至预先生成的初始结构化模板中的对应位置处，得到所述目标结构化数据。 13.一种基于多数据源的数据处理装置，其特征在于，包括：数据集提取模块，用于从至少两个数据源，提取与所述数据源对应的数据集；其中，所述数据源中包括多种数据集，所述数据集中包括至少一个原始数据；待处理数据获得模块，用于提取所述原始数据中的目标数据，得到所述原始数据的待处理数据；数据校验结果获得模块，用于对所述原始数据的待处理数据进行校验，得到所述原始权　利　要　求　书 2/3 页 3 CN 114723551 A 3

专利 基于多数据源的数据处理方法、装置、设备及存储介质

专利基于多数据源的数据处理方法、装置、设备及存储介质