暗数据基础、挑战与管理策略-编程实验室

什么是暗数据？基础与挑战

暗数据和非结构化数据指的是同一事物。区别在于术语的指向对象不同。非结构化数据往往是面向工程师的术语。它指的是数据的结构特性，向工程师传达他们需要如何处理数据以使其可用。非结构化数据是未经提炼的数据，需要更多工作才能使其可用；结构化数据则是已经过提炼的数据，其用途已经确定。非结构化数据是结构化数据的“阴”，但通常，非结构化数据是从工程中心视角出发的。

那么，什么是暗数据呢？暗数据则是从用户中心视角产生的。如果说结构化数据指的是数据的结构特性，那么暗数据指的是数据的可见性特性。存在用户可以看见的数据，如社交媒体照片、个人资料名称、话题标签，但也存在用户看不见的数据。这就是暗数据。

在一个社交平台上，暗数据可能包括：

用户有多少次登录实例？
用户活动是否集中在一天中的某些时间段？
有多少来自拥有庞大用户网络的人喜欢了该帖子？（用于衡量用户的影响力。）
照片是从哪里拍摄的？
发布照片时此人所在的位置是什么？

看到如此多的数据会让人不知所措。标准的设计实践提倡“保持简单明了”，并将留白作为其核心美德。该平台甚至通过简化照片获得的点赞数来减少显示的数据量，例如从非常具体的“134,392”简化为只说“数千次”。

当用户是工程师时，暗数据将指未被分析的非结构化数据。它是通过各种网络进程存储在服务器和数据湖中的数据，最终被闲置以满足行业的法规保留时限，或者仅仅因为数据存储成本低廉而被保留。

暗数据示例

存在的暗数据类型因行业而异。跑步应用程序可能会收集背景天气数据，购物应用程序可能会收集浏览器历史记录。基本上，任何通过互联网发送的东西都有可能成为并产生暗数据。数据包从A点发送到B点。虽然这些数据包可以被加密，使窥探者难以看到数据包内的内容，但在这个过程中还有其他已知的实体。

暗数据类型包括：

日志文件（服务器、系统、架构等）
前员工数据
财务报表
地理位置数据
原始调查数据
监控录像
客户通话记录
电子邮件通信
笔记、演示文稿或旧文档

有多少数据是暗数据？

为了使软件服务正常运行，必须收集一些数据。例如，必须知道IP地址才能从网络上的其他地方获取数据并将其返回给网络上另一处的用户。人工智能支持的服务表明，某机构拥有的用户数据越多，其能提供的服务就越好。

根据国际数据公司的估计，90%的数据是非结构化数据。人工智能正在帮助更好地利用这些非结构化数据，这应该会降低这个比例，但收集非结构化数据比构建机器学习模型来实际处理它要容易得多，因此，很可能这个百分比会大幅增加。仅仅几年内，暗数据可能占总数据量的95-97%。如果这种趋势持续下去，合理的推测是，暗数据可能占所有数据的99%以上。

这个数字本身无所谓好坏。世界上99.9999%的数据是暗数据意义不大。这只是意味着存在大量未使用的数据。如果非要说有什么意义，那么这个数字应该预示着可能存在一个巨大的机会，可以将数据转化为其他人所没有的东西。

暗数据的风险是什么？

收集和存储大量你不需要且不使用的数据并非无害。暗数据会使你的组织面临风险和成本。

数据安全风险：由于暗数据未被使用，“眼不见心不烦”的心态可能会占据上风。在存储和处理暗数据时，常常缺乏足够的考虑。暗数据可能包含敏感信息，由于这种松懈的数据安全措施而面临风险。
合规与监管风险：收集你不需要的数据，特别是当其包含个人或可识别信息时，并且未给予适当的保护，可能导致违反数据保护法规。
运营成本：收集、存储和维护数据并不便宜。需要考虑这对你的IT基础设施的影响。就暗数据而言，你并未获得足以抵消这些成本的价值。
错失机会：暗数据可能包含有价值的洞察。如果你从不分析它，可能会错过发现趋势、提高效率或找到创造额外收入方法的机会。

如何处理暗数据

暗数据的隐私

人们正在用数据创建他们的技术足迹。当人们不介意别人知道他们去过哪里时，这没有问题，但有时存在其他项目——医疗查询、搜索记录、不太体面的网站，甚至是需要向伴侣或亲属隐瞒的信息——个人不希望别人看到。

当涉及到数据时，安全性非常具有挑战性。

挑战1：匿名数据
人们通常认为保护数据的第一步是匿名化数据。这意味着所有数据点都可以存在，但他们将从个人数据中移除任何账号、姓名、电子邮件地址等，使其无法直接识别个人。

这种方法在小学时是有效的，比如从某人提交的作业上移除名字。它也可能对像弗兰克·阿巴格纳尔这样的人有效，他在支票和文凭上使用新名字，伪装成飞行员、医生和律师在全国巡游。

但技术世界中的数据运作方式不同。任何一组数据点都是一个标识符。与一个人关联的五个数据点，无论是否给出姓名，都是一个标识符。如果已知某人早上醒来、散步、打喷嚏、打哈欠、踢一块石头、然后回去睡觉，这就是一个单一身份在世界上留下的印记。

挑战2：数据的交集
世界上有如此多的数据，一个人的名字可能存在于另一组数据中。然后，当这些数据集存在相交的数据点时，通过交叉引用这两组数据，就有可能将身份归属到匿名数据上。

创建不同数据源的维恩图并找出重叠部分是简单的方法，而统计学提供了更复杂的方法来去匿名化数据。

有一个法律案件的故事，一位老妇人被一辆汽车撞倒，肇事车辆逃逸。老妇人能说出汽车是黄色的（她不知道品牌），司机是一个棕色皮肤、深色头发的男人。这些信息不多，但几个额外的暗数据点——事故发生的时间和地点——被加入进来。从这四个数据点出发，在一个约12万人口的小镇上，调查人员能够将搜索范围从看似不可能的几率，缩小到仅剩几个可能的嫌疑人。

类似地，来自技术世界，某研究团队在某安全会议上也展示了一个类似的案例（见下方视频片段）。他们购买了匿名的浏览数据（这很容易购买），并展示了仅凭五个数据点就能从中识别出用户。

该图表说明了在添加每个已知数据点后，浏览数据可能属于多少潜在用户。

开源数据隐私

某开源研究小组致力于提高数据的隐私保护性。在一个拥有越来越多暗数据的世界里，他们的工作有益于公众，使数据更加匿名，并确保即使在可用数据量不断增加的情况下，身份也能保持私密。

具体来说，机器学习模型是基于数据进行训练的。机器学习模型既能提供高价值，又能处理敏感数据。虽然所有数据都可以被视为敏感的，并可以同等对待，但法律条件将医疗记录列为最敏感的数据之一。因此，在人们的医疗历史记录上训练机器学习模型本质上非常困难，因为该行业过去对待这些记录的方式极其敏感。

挑战包括：数据不足、数据因安全目的分散在不同位置、必须克服许多额外障碍以满足监管机构制定的“最佳安全实践”。

该小组的目标是双重的：创建一个让人们因其数据而获得报酬的框架，以及在数据通过机器学习模型时真正实现匿名化。为此，该开源小组目前提供三个主要的软件解决方案：

加密机器学习即服务
隐私保护数据科学平台
联邦学习

安全不等于隐私

世界上存在大量暗数据，而且很可能会有更多。现有的安全实践并不能在所有暗数据点上保护隐私，但研究小组正在成功地改善数据环境，提高人们的隐私，并倡导人们为自己产生的数据获得报酬。

暗数据管理

鉴于已使用和可能被遗忘的暗数据所存在的问题和机遇，制定一个正式的管理流程是合理的。你可以消除责任和风险，同时解锁益处。

管理暗数据可以发现能改善运营、加强客户体验和忠诚度的洞察，并带来创新和新的收入来源。管理暗数据也可以降低成本和风险。你可以减少其对IT基础设施的影响以及收集和存储的成本。你还可以减轻数据隐私和数据安全合规问题。

一些暗数据管理的最佳实践包括：

从数据审计开始，评估系统中未使用数据的数量。
实施数据分类系统，识别有价值的、敏感的、过时的和不需要的数据。
创建一个用于做出删除和保留决策的系统，并规定对保留数据的正确处理方式。
确保安全协议（如加密、访问控制、数据生命周期策略）同样适用于暗数据和常规使用的数据。

暗数据分析

处理和使用暗数据以揭示其中可能隐藏的洞察，然后利用这些洞察做出决策，是暗数据分析的核心。大量未结构化、未分析且被遗忘的数据可能是组织的金矿。

典型的暗数据包括日志文件、传感器数据、归档电子邮件、社交媒体互动、客户通话录音、服务记录、客户反馈等。你可能会发现模式，例如反复出现的客户投诉指出的产品问题，或者发现指向新兴客户需求或网络安全漏洞的趋势。分析暗数据可以带来竞争优势、增长机会，并在先前未发现的风险变成严重问题之前予以缓解。

暗数据分析的好处

使用暗数据分析是你组织的隐藏超能力。通过良好的暗数据分析，你可以降低风险、降低成本、获得竞争优势，并更快地做出更明智的决策。以下是一些关键的获益方式：

发现流程和运营中的障碍、低效和缓慢环节
改善重复出现的服务问题
改进资源分配和趋势分析
发现客户痛点，以便通过产品创新来解决
在社交媒体上跟踪关于你的品牌和竞争对手的客户情绪
识别可导致与用户个性化互动的行为模式
完善品牌信息和品牌互动
了解追加销售、交叉销售或与客户重新互动的机会
揭示未知的安全风险
获取数据以改善合规性FINISHED
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

暗数据基础、挑战与管理策略

什么是暗数据？基础与挑战

暗数据示例

有多少数据是暗数据？

暗数据的风险是什么？

如何处理暗数据

暗数据的隐私

开源数据隐私

安全不等于隐私

暗数据管理

暗数据分析

暗数据分析的好处

毕设项目 stm32 wifi远程温控风扇系统

计算机毕业设计springboot基于Java的哈佛大学在线考试系统基于SpringBoot框架的高校智能考务管理平台设计与实现 Java Web技术驱动的顶尖学府数字化测评系统开发研究

一文看懂自然语言生成 - NLG

计算机毕业设计springboot高校餐饮健康在线评测系统前端设计与实现基于SpringBoot的高校食堂营养膳食智能评价平台前端开发高校智慧餐厅健康饮食数字化评估系统的设计与实现

基于昇腾MindSpeed-LLM的大模型训练推理

收藏级Multi-LoRA（低秩适配）详解｜小白也能看懂，程序员必学的大模型微调省流技术

什么是暗数据？基础与挑战

暗数据示例

有多少数据是暗数据？

暗数据的风险是什么？

如何处理暗数据

暗数据的隐私

开源数据隐私

安全不等于隐私

暗数据管理

暗数据分析

暗数据分析的好处

毕设项目 stm32 wifi远程温控风扇系统

计算机毕业设计springboot基于Java的哈佛大学在线考试系统 基于SpringBoot框架的高校智能考务管理平台设计与实现 Java Web技术驱动的顶尖学府数字化测评系统开发研究

一文看懂自然语言生成 - NLG

计算机毕业设计springboot高校餐饮健康在线评测系统前端设计与实现 基于SpringBoot的高校食堂营养膳食智能评价平台前端开发 高校智慧餐厅健康饮食数字化评估系统的设计与实现

基于昇腾MindSpeed-LLM的大模型训练推理

收藏级Multi-LoRA（低秩适配）详解｜小白也能看懂，程序员必学的大模型微调省流技术

计算机毕业设计springboot基于Java的哈佛大学在线考试系统基于SpringBoot框架的高校智能考务管理平台设计与实现 Java Web技术驱动的顶尖学府数字化测评系统开发研究

计算机毕业设计springboot高校餐饮健康在线评测系统前端设计与实现基于SpringBoot的高校食堂营养膳食智能评价平台前端开发高校智慧餐厅健康饮食数字化评估系统的设计与实现