您文档中的隐藏数据(您从未打算分享的)

您发送的每个 Word 文档、PDF 和电子表格都携带着关于谁创建了它、何时创建以及如何创建的隐形数据。
Luna Qin 最后修改: 2026年6月15日
阅读时间: 23 分钟.

蓝色玩具积木上展示了 JPEG、PDF、ZIP、PNG、SVG 和 GIF 等各种文件扩展名的图标

您审阅了文档。您删除了敏感段落。您发送了它。

您没有删除的是 Microsoft Word 记录的 47 分钟编辑时间、撰写初稿的同事姓名或显示其最初来自哪个共享驱动器的网络路径。

这些信息仍然存在。这被称为元数据。大多数您创建的文件都携带它。

这不是一个理论风险。2019 年,代表唐纳德·特朗普前竞选主席保罗·马纳福特的律师向特别检察官罗伯特·穆勒的团队提交了一份法庭文件。敏感段落被厚厚的黑条覆盖。但文件中的底层文本从未被删除。一位记者突出显示了被黑条遮盖的部分,将其复制并粘贴到一个空白文档中。隐藏的内容,包括马纳福特与俄罗斯特工会面的细节,立即显现。几个小时内,这个故事登上了头版新闻。

本指南涵盖了每种主要文件类型中隐藏的内容、它可能透露的信息以及在分享之前如何删除它。



什么是文档元数据?

元数据是关于数据的数据。嵌入在文件中的信息描述了它是如何创建的、谁创建的以及随着时间的推移发生了什么。它由您的操作系统和您使用的软件自动生成,通常没有任何可见的记录迹象。

对大多数人来说,有两个相关类别:

系统元数据。由您的操作系统和应用程序记录:作者姓名、创建日期、最后修改日期、文件大小、使用的软件版本。

嵌入元数据。由应用程序本身记录:修订历史、评论、跟踪的更改、GPS 坐标(在照片中)、编辑时间、内部网络路径。

在正常使用中,大多数元数据是不可见的。您必须打开特定面板或使用专用工具才能看到它。但任何知道在哪里查看的人通常可以从您发送的文件中提取它。很多人确实这样做。


Word 文档 (.docx)

Word 是常用格式中元数据最丰富的格式。一个典型的 .docx 文件可能包含:

  • 作者姓名和公司。从创建文档时的 Windows 或 Microsoft 365 帐户设置中提取
  • 最后修改者。最近编辑者的姓名
  • 修订次数。文档保存的次数
  • 总编辑时间。Word 打开此文档时的累计时间,以分钟为单位
  • 创建和修改时间戳
  • 跟踪更改。在跟踪活动时所做的所有编辑,包括删除的文本、插入和每个更改的执行者,即使点击了“接受所有”
  • 评论。包括已解决和已删除的评论,通常仍然可以恢复
  • 模板路径。文档模板的内部文件路径,可能会透露网络共享名称或文件夹结构
  • 以前的作者姓名。如果文档是从现有文件中重新使用的,原始作者的姓名可能会保留

为什么重要: 跟踪更改和评论是意外披露的最常见来源。律师、顾问和合同谈判者在起草过程中经常交换 Word 文档。点击“接受所有”后,跟踪的修订会从可见文档中删除。然而,除非文件通过文档检查器明确清理,否则其他元数据,包括评论、文档属性和编辑历史,可能仍然存在。

在一个记录在案的案例中,代表客户进行争议的律师事务所向对方律师发送了一份 Word 文档,其中跟踪的更改可见。这些更改与客户的陈述立场相矛盾。错误被发现,但对案件谈判立场的损害是立即的。

如何检查: 在 Word 中,转到文件 → 信息 → 检查问题 → 检查文档。文档检查器将扫描所有类别的隐藏数据,并允许您选择性地删除它们。


PDF

PDF 被广泛认为是一种“干净”的格式。最终输出去除了 Word 的混乱。这在一定程度上是正确的,但 PDF 仍然携带有意义的元数据:

  • 作者、标题、主题、关键词。通常从用于创建 PDF 的 Word 文档中自动填充
  • 创建者应用程序。用于创建或转换文件的软件(例如,“Microsoft Word 16.0”或免费在线 PDF 转换器的名称)
  • 创建和修改日期
  • XMP 元数据。嵌入在许多 PDF 中的扩展元数据标准,包含更详细的文档历史
  • 注释和评论。包括那些隐藏或标记为已解决的
  • 不当编辑的文本。在 PDF 编辑器中绘制的黑框通常会在文件结构中留下可读的底层文本

编辑问题需要特别注意。 2019 年 1 月,保罗·马纳福特的律师在联邦法院向特别检察官罗伯特·穆勒的团队提交了一份回应。文件中包含厚厚的黑条覆盖敏感段落。关于马纳福特与俄罗斯特工的接触和特朗普竞选活动的细节。但法律团队只是用黑框覆盖了文本。他们没有从文件中删除底层内容。任何读者都可以突出显示被黑条遮盖的部分,将其复制并粘贴到新文档中以阅读所有内容。文件公开后不久,记者就提取并发布了隐藏的文本。

这种错误出奇地常见。在文字处理器中绘制一个黑色矩形或更改其背景颜色并不能可靠地从最终 PDF 输出中删除文本。它通常只是从视觉上覆盖它。正确的编辑需要专用工具,永久清除文件结构中的底层内容,而不仅仅是遮盖它。如果您收集患者或客户数据并希望完全避免 PDF 元数据风险,将您的 PDF 转换为在线表单 可以从一开始就将提交保存在结构化、受控的环境中。

如何检查: 在 Adobe Acrobat 中,转到工具 → 编辑 → 清理文档以永久删除所有元数据。对于免费选项,打印为 PDF(文件 → 打印 → 保存为 PDF)会去除大部分元数据,但在分享敏感文档之前请使用元数据查看器进行验证。


Excel 电子表格 (.xlsx)

Excel 电子表格携带类似于 Word 的元数据,但具有特定于格式的额外风险:

  • 作者和公司名称
  • 修订历史和编辑时间
  • 评论和备注。包括在当前视图中不可见的那些
  • 隐藏的行和列。使用 Excel 的隐藏功能隐藏的数据仍然存在于文件中,任何人都可以完全访问它
  • 隐藏的工作表。整个工作表可以隐藏但仍保留在文件中
  • 命名范围和公式。可以暴露不打算共享的内部数据结构或计算逻辑
  • 外部链接。对其他文件的引用可能会透露内部网络路径或云存储结构

隐藏的行和工作表是意外披露的特别常见来源。 准备面向客户的定价模型的顾问可能会在发送之前隐藏成本和利润行。但这些行仍然在文件中。取消隐藏它们只需两次点击。

在竞争性采购过程中,供应商偶尔会收到基于 Excel 的 RFP 模板。检查时,发现隐藏的工作表中包含买方的内部评分标准或目标价格范围。这些信息从未打算离开买方的组织。

如何检查: 在 Excel 中,转到文件 → 信息 → 检查问题 → 检查工作簿。特别注意隐藏的行、列和工作表。


图像 (JPG, PNG, HEIC)

照片携带 EXIF 元数据。记录图像技术和上下文信息的标准化格式:

  • GPS 坐标。经度、纬度,有时还有海拔。在现代智能手机上精确到几米以内
  • 时间戳。拍摄照片的确切日期和时间
  • 设备信息。相机或手机的品牌、型号,有时还有序列号
  • 相机设置。光圈、快门速度、ISO、焦距
  • 软件。使用的编辑软件及版本号

对于大多数人来说,GPS 坐标是最重要的。一张在家中拍摄并通过电子邮件发送的文件照片在文件中嵌入了您的家庭地址。在保密的客户会议上拍摄的照片揭示了会议发生的地点。在医疗环境中,患者文件的照片受 HIPAA 保护。请参阅 HIPAA 实际要求您使用的工具来收集患者数据

风险是有记录的且真实存在。2012 年,约翰·麦卡菲——当时是逃避伯利兹当局的逃犯——在一名陪同他的记者在线发布的照片中保留了 EXIF 数据中的 GPS 坐标后,在危地马拉被找到。坐标将他的地点精确到几米以内。(麦卡菲本人后来声称 GPS 数据被故意伪造以误导当局,尽管他仍被拘留并随后被驱逐出境。)

消费者报告的研究人员在更日常的背景下记录了同样的风险:在家中拍摄物品照片的转售平台卖家经常在列表照片中嵌入他们的家庭地址,任何提取 EXIF 数据的买家都可以看到。

如何检查: 在 Windows 上,右键单击任何图像 → 属性 → 详细信息选项卡。在 Mac 上,在预览中打开 → 工具 → 显示检查器 → GPS 选项卡。许多智能手机在通过某些应用程序共享照片时也会去除 GPS 数据。但不是所有的应用程序,也不是始终如一的。

如何删除: 在 Windows 上,右键单击 → 属性 → 详细信息 → “删除属性和个人信息”。在 Mac 上,使用预览的导出功能并启用元数据去除。对于批量处理,ExifTool(命令行)或客户端浏览器工具可以一次性去除多个文件的 EXIF 数据。


PowerPoint 演示文稿 (.pptx)

PowerPoint 演示文稿携带与 Word 和 Excel 类似的元数据,具有一些特定于格式的附加内容:

  • 作者和公司名称
  • 修订历史和编辑时间
  • 评论。包括在审核期间添加的并标记为已解决的那些
  • 隐藏幻灯片。设置为隐藏的幻灯片仍然存在于文件中,可以取消隐藏
  • 演讲者备注。添加到幻灯片中的备注供演示者使用,可能包含内部谈话要点、预期的反对意见或不打算提供给观众的定价指导
  • 嵌入的文件和对象。PowerPoint 文件可以包含嵌入的 Excel 电子表格、Word 文档或其他携带其自身元数据的文件

演讲者备注是演示文稿中最常被忽视的披露风险。 发送给潜在客户的销售演示文稿作为 PDF 可能会去除大多数元数据。但直接发送的 .pptx 文件保留了每位演示者添加的每个备注,包括战略谈话要点和在销售研究期间收集的关于潜在客户的信息。

如何检查: 在 PowerPoint 中,转到文件 → 信息 → 检查问题 → 检查演示文稿。


如何在分享之前检查和删除元数据

Office 文档(Word、Excel、PowerPoint)的最快方法

Microsoft 内置的文档检查器涵盖所有主要元数据类别:

  1. 打开文件
  2. 转到 文件 → 信息 → 检查问题 → 检查文档(或检查工作簿 / 检查演示文稿)
  3. 选择要扫描的类别
  4. 点击 检查,然后对要清除的任何类别点击 全部删除

在文件的副本上运行检查器。某些删除无法撤消,您将希望保留完整历史记录的原始文件以供内部记录。

对于 PDF

  • Adobe Acrobat Pro: 工具 → 编辑 → 清理文档。这将永久删除所有元数据和隐藏内容
  • 免费替代方案: 打印为 PDF(文件 → 打印 → Microsoft 打印为 PDF 或 macOS PDF)去除大部分元数据,但在分享之前请使用查看器进行验证

对于图像

  • Windows: 右键单击 → 属性 → 详细信息 → “删除属性和个人信息”
  • Mac: 照片应用 → 图像 → 导出 → 取消选中位置数据
  • 任何平台: 客户端浏览器工具可在本地去除 EXIF 数据。无需上传

使用元数据查看器进行验证

在发送任何敏感文档之前,值得检查清理后保留了哪些元数据。几个客户端工具可以直接在您的浏览器中读取元数据,而无需上传您的文件:

  • 对于 Office 文档:打开在浏览器中本地处理文件的元数据查看器
  • 对于 PDF:在客户端运行的 PDF 元数据查看器
  • 对于图像:离线工作的 EXIF 查看器

关键标准:验证工具在本地处理您的文件,而不是在远程服务器上。如果您正在检查敏感文档的元数据,您不希望将其上传到未知服务以进行检查。这会在试图消除现有风险时引入新的风险。


上传问题

元数据删除的讽刺之处在于,许多人搜索“在线删除 PDF 元数据”,将他们的文档上传到免费网络工具,然后获得一个干净的文件。元数据消失了。但文档刚刚传输到一个他们从未听说过的公司运营的服务器上。

对于元数据是真正隐私问题的文档。法律合同、财务模型、医疗记录、内部演示文稿。上传到未经验证的工具的行为可能比元数据本身更大风险。

显示文件在文件夹之间传输并通过过程循环传输的插图

同样的逻辑适用于任何文件处理:最安全的工具是从未接收过您的文件的工具。在您的浏览器中完全运行的客户端工具——在本地内存中处理文件而无需任何服务器上传——完全消除了这种权衡。如果目标是收集数据而不是处理文档,带有密码保护的在线表单 可以在受控环境中保留提交,而无需任何文件交换。

如果您经常处理敏感文档并希望使用在本地处理文件的浏览器工具,PlatoForms PDF 工具箱 处理核心 PDF 操作。合并、拆分、压缩、重新排序、密码保护和删除。无需文件离开您的设备。对于还通过在线表单收集敏感数据的组织,我们的 信任中心 涵盖了完整的安全架构,包括加密标准和合规认证。


总结:隐藏在哪里

文件类型 最常见的隐藏数据 最高风险
Word (.docx) 跟踪更改、作者姓名、编辑时间、评论 删除的文本仍然可恢复
PDF 作者、创建者应用、不当编辑的文本 黑框“编辑”保留文本完整
Excel (.xlsx) 隐藏的行/工作表、评论、外部链接 隐藏的定价或利润数据
图像 (JPG, HEIC) GPS 坐标、设备型号、时间戳 列表照片中的家庭地址
PowerPoint (.pptx) 演讲者备注、隐藏幻灯片、嵌入文件 销售演示文稿中的内部谈话要点

所有格式的模式都是相同的:元数据是自动生成的、不可见的和持续的。删除它的负担完全在于共享文件的人。大多数工具使其足够简单,没有理由在发送之前不检查。

在发送任何文档之前:假设它包含您看不到的内容。并在分享之前进行验证。


参考资料


经常处理敏感文档?PlatoForms PDF 工具箱 完全在您的浏览器中处理文件。无需上传,无需服务器,无需账户。

如果您通过在线表单而不是文档收集敏感数据,请阅读 5 种您不应在线处理的文件类型。并查看我们的 信任中心 如何涵盖 PlatoForms 表单平台背后的安全架构。

关于作者

Luna Qin

Luna Qin 是 PlatoForms 的内容策略师,拥有七年企业表单和工作流平台的工作经验。她早期在 Apple 的文档工作塑造了她简洁、以用户为中心的写作风格。在 PlatoForms,她专注于制作清晰、基于研究的指南,帮助团队构建更好的在线表单并自动化复杂的 PDF 流程。


保持关注!

订阅我们的博客,获取独家见解、技巧和更新。

相关内容 阅读更多