网站标志
导航菜单
当前日期时间
当前时间:
购物车
购物车中有 0 件商品 去结算 我的订单
商品搜索
商品搜索:
文章正文
面向AI的数据治理体系如何构建?
作者:    发布于:2024-04-17 19:55:40    文字:【】【】【
近年来,随着新技术模型出现、各行业应用场景价值打磨与海量数据积累下的产品效果提升,人工智能应用已从消费、互联网等泛C端领域,向制造、能源、电力等传统行业辐射。各行业企业在设计、采购、生产、管理、营销等经济生产活动主要环节的人工智能技术与应用成熟度在不断提升,加速人工智能在各环节的落地覆盖,逐渐将其与主营业务相结合,以实现产业地位提高或经营效益优化,进一步扩大自身优势。

AI技术创新应用的大规模落地,带动了大数据智能市场的蓬勃发展,同样也为底层的数据治理服务注入了市场活力。

伴随着大数据、云计算以及算法的发展,人工智能的热潮从几年前一直延续至今,并且广泛应用于多个行业和领域,成为当前正在进行的科技革命的一个领军技术。而人工智能在如火如荼的数据治理领域又怎么能缺席呢?数据治理和人工智能,看似不相关的两个词,他们两者放一起,会发生什么故事呢?

一、数据治理为人工智能奠定基础

大数据是不断持续的数据采集、清洗、转换、分类等的数据积累,而数据治理则为大数据的呈现提供了更为规范的管理模式。由于目前大部分人工智能的形式需要通过大量的数据运算实现,因此离不开大数据和数据治理的支持。人工智能需要依赖大数据平台和技术来帮助完成深度学习进化。

1.数据治理为人工智能提供优质数据

大部分的人工智能分为训练(Training)和预测(Predict)两个环节。机器训练算法的效果依赖于所输入的数据质量的优劣,如果输入的数据存在偏差,那么输出的算法也将产生偏差,这可能直接导致所得结果的不可用。数据治理在提升数据质量方面具有重要作用。通过梳理数据质量需求、定义数据质量检查规则、制定数据质量改善方案、设计并实施数据质量管理工具、监控数据质量管理操作程序和绩效等数据质量管理环节,企业可以获得干净的、结构清晰的数据,为深度学习等人工智能技术提供可信的数据输入。

2.数据治理为人工智能保障数据隐私

当前人工智能发展中面临的很大制约就是数据权属和隐私保护问题。个人隐私数据应该受到保护,这些数据的滥用可能对个人造成巨大的财产损失甚至人身伤害。所谓隐私保护,其实就是对隐私数据的保护,归根结底是对数据用户的隐私保护。数据治理工具从技术层面设计了保护隐私数据的诸多环节,提供数据模糊化、数据脱敏、数据加密,可为企业个人数据保护奠定基础,从而实现人工智能应用的数据合规性。

二、人工智能提升数据治理智能化水平

1.元数据管理

在传统的元数据管理中,对于非结构化数据的元数据采集通常是通过创建非结构化数据的搜索索引的方式。而语音识别、图像识别、文本分析等人工智能技术能帮助实现元数据的最初业务词库的构建,成为提取各类有价值的非结构化元数据的资源池。

2.数据标准管理

在数据标准的实施初期,需要对存量系统的数据库字段进行摸底,识别出共有的、重复使用的业务字段,作为建立数据标准的依据。如果完全靠人工梳理,需要协调各业务部门大量人员参与,工作量巨大且容易出错。借助机器学习、自然语言处理技术,可以根据字段业务名快速的整理出高频词根,将可能需要几个月的工作在几天内完成。

数据标准管理的另一个重要环节是标准与元数据的映射。在业务系统众多,数据标准与业务系统的元数据进行映射往往是实施工程师的恶梦,一不小心就容易出错。有了人工智能技术,可以对业务字段名进行自然语言处理,精确分词,根据词根相似性将数据标准与元数据自动映射起来。

3.数据质量管理

数据质量是保证数据高效应用的基础。衡量数据质量的指标体系包括完整性、规范性、一致性、准确性、唯一性、时效性。在实施数据质量提升方案之前,需要依据不同的业务规则和业务期望选择合适的数据质量指标体系,并进行数据的清洗。

一般数据质量改善的理想模式是从数据源头剔除脏数据,但是在现实中并不可行。因此,根据业务期望,应针对性地提升各个业务阶段的数据质量。机器学习(如分类学习、聚类、回归等)可提取并识别存在的质量问题,从而制定有效的数据质量评估指标,最大化实现该指标下的数据质量的提升。同时,监督学习、深度学习也将实现对数据清洗和数据质量的效果评估,进而改善转换规则和数据质量评估维度,并随着数据量和业务期望的逐渐变化,使数据质量提升方案动态更新。
浏览 (13) | 评论 (0) | 评分(0) | 支持(0) | 反对(0) | 发布人:
将本文加入收藏夹
新闻详情
脚注栏目
|
脚注信息
机电工程网(C) 2015-2020 All Rights Reserved.    联系我们