获取数据对于研发至关重要。更高质量的数据可以带来更高质量的研究,但当这些数据包含敏感或专有信息时,它们可能会被从公共产品中剔除,以保护敏感位置、创新计划以及重要数据库和分析的专有元素。
为了应对这一挑战,NETL 创新推出了地理空间信息替换与匿名化工具 (GISA),这是一种利用人工智能 (AI) 在产品发布前分析并删除敏感信息的新解决方案。合作伙伴与美国能源部 (DOE) 之间共享的数据集可能包含敏感信息,这些信息可能会阻止或延迟数据公开或与其他实体共享。GISA 帮助这些数据的生产者准备匿名版本,以供公众使用和重复使用。
几年前,NETL 的研究人员在获得一个需要匿名化才能完成内部共享和分析的敏感数据集时,意识到了数据匿名化工具的必要性。他们利用 GISA 功能匿名化了数据的位置,从而能够在内部与更广泛的群体共享数据,以方便整个研究团队进行分析。
GISA 基于先前对数据集进行匿名化和管理的需求,能够在保留重要变量的同时,对数据中的部分信息进行匿名化处理,从而在不暴露敏感信息的情况下进行有意义的分析和研究。GISA 通过多种方法实现数据的编辑和匿名化,包括地理空间点数据的随机化、跨多种文件类型的查找和替换功能,以及 PDF 中的术语和图像的推荐和编辑。
GISA使用自然语言处理模型 (NLP) LUKE (基于 知识的嵌入的 语言理解)生成 位置、公司和实体名称的建议,供用户在 PDF 文本中查看和选择需要屏蔽的内容。在对 PDF 进行匿名化处理时,GISA 会使用数据所有者选择的推荐术语,并创建 PDF 副本,其中所选术语已被屏蔽并完全删除。
GISA 还支持对 PDF 中的图像进行审阅和编辑,包括徽标、图表和部分图片。使用 GISA 审阅和编辑术语及图片的功能与研究主题领域无关,数据所有者通常可以在公开发布或共享 PDF 之前根据需要审阅和编辑信息。
GISA 还支持多种方法将地理空间点匿名化为近似坐标,以便使用批量查找和替换功能进行有效混淆和更改文件名和内容中的文本。基于科学的人工智能和机器学习研究所 (SAMI)支持人工智能和自然语言处理 (NLP) 的应用,以加速 NETL 的研究。GISA 允许用户在不泄露敏感信息的情况下发布数据,从而推动开放数据共享实践。该工具的开发凸显了NETL致力于解决国家能源、经济和环境挑战的承诺,重点是为所有美国人建设可持续的未来。GISA 工具可在 NETL 的能源数据交换 (EDX)上向公众开放。
NETL是美国能源部 (DOE) 下属的国家实验室,致力于通过开发创新解决方案来增强能源系统和自然资源的安全性、可负担性和可靠性,从而推动国家能源的未来发展。NETL 在俄勒冈州奥尔巴尼、西弗吉尼亚州摩根敦和宾夕法尼亚州匹兹堡设有实验室,致力于开发先进的能源技术,支持 DOE 的使命,同时促进合作,为国家创造一个富有弹性且丰富的能源未来。
【免责声明】本号所载或分享来源于互联网和其它网站内容、微信公众号等公开渠道,只是出于传递信息技术,不用做商业用途,仅供参考,同时对其观点保持中立,并已标明来源出处,若涉侵权等问题,请及时联系我们删除,谢谢!
电话:18191851990