您審核了文件。您刪除了敏感段落。您發送了它。
您沒有刪除的是 Microsoft Word 記錄的 47 分鐘編輯時間、撰寫初稿的同事姓名或顯示其最初來自哪個共享驅動器的網絡路徑。
這些信息仍然存在。它被稱為元數據. 大多數您創建的文件都攜帶它。
這不是理論上的風險。2019 年,代表唐納德·特朗普前競選主席保羅·馬納福特的律師向特別檢察官羅伯特·穆勒的團隊提交了一份法庭文件。敏感段落被厚黑條覆蓋。但文件中的底層文本從未被刪除。一位記者突出顯示了被遮蓋的部分,將其複製並粘貼到空白文檔中。隱藏的內容. 包括馬納福特與俄羅斯特工會面的細節. 立即出現。幾小時內,這個故事就成了頭版新聞。
本指南涵蓋了每種主要文件類型中隱藏的內容、它可以揭示什麼以及如何在分享之前刪除它。
目錄
什麼是文件元數據?
元數據是關於數據的數據. 嵌入在文件中的信息描述了它是如何創建的、誰創建的以及隨著時間的推移發生了什麼。它由您的操作系統和您使用的軟件自動生成,通常沒有任何可見的記錄指示。
對大多數人來說,有兩個相關的類別:
系統元數據. 由您的操作系統和應用程序記錄:作者姓名、創建日期、上次修改日期、文件大小、使用的軟件版本。
嵌入元數據. 由應用程序本身記錄:修訂歷史、評論、跟蹤更改、GPS 坐標(在照片中)、編輯時間、內部網絡路徑。
大多數在正常使用中是不可見的。您需要打開特定面板或使用專用工具才能看到它。但任何知道在哪裡查找的人通常可以從您發送的文件中提取它. 而且很多人確實這樣做。
Word 文檔 (.docx)
Word 是常用格式中元數據最豐富的格式。典型的 .docx 文件可能包含:
- 作者姓名和公司. 從創建文檔時的 Windows 或 Microsoft 365 帳戶設置中提取
- 上次修改者. 最近的編輯者姓名
- 修訂次數. 文檔已保存的次數
- 總編輯時間. Word 打開此文檔處於活動狀態的累計時間,以分鐘計
- 創建和修改時間戳
- 跟蹤更改. 在跟蹤處於活動狀態時所做的所有編輯,包括刪除的文本、插入內容以及每次更改的製作者,即使點擊了“接受所有”
- 評論. 包括已解決和已刪除的評論,這些評論通常仍然可以恢復
- 模板路徑. 文檔模板的內部文件路徑,這可能揭示網絡共享名稱或文件夾結構
- 以前的作者姓名. 如果文檔是從現有文件中重新利用的,原始作者的姓名可能會保留
為什麼這很重要: 跟蹤更改和評論是意外披露的最常見來源。律師、顧問和合同談判者在起草過程中經常交換 Word 文檔. 點擊“接受所有”後,跟蹤的修訂會從可見文檔中刪除。然而,其他元數據. 包括評論、文檔屬性和編輯歷史. 可能仍然存在,除非文件被明確地用文檔檢查器清理。
在一個有記錄的案例中,一家律師事務所代表客戶在爭議中向對方律師發送了一份 Word 文檔,其中顯示了跟蹤的更改. 這些更改與客戶的陳述立場相矛盾。錯誤被發現了,但對案件談判立場的損害是立即的。
如何檢查: 在 Word 中,轉到 文件 → 信息 → 檢查問題 → 檢查文檔。文檔檢查器將掃描所有類別的隱藏數據,並讓您選擇性地刪除它們。
PDF 被廣泛認為是一種“乾淨”的格式. 一種最終輸出,去除了 Word 的混亂。這在一定程度上是正確的,但 PDF 仍然攜帶有意義的元數據:
- 作者、標題、主題、關鍵字. 通常從用於創建 PDF 的 Word 文檔自動填充
- 創建應用程序. 用於創建或轉換文件的軟件(例如,“Microsoft Word 16.0”或免費在線 PDF 轉換器的名稱)
- 創建和修改日期
- XMP 元數據. 嵌入許多 PDF 中的擴展元數據標準,包含更詳細的文檔歷史
- 註釋和評論. 包括那些隱藏或標記為已解決的
- 不當編輯的文本. 在 PDF 編輯器中繪製的黑色框通常會使文件結構中的底層文本可讀
編輯問題值得特別關注。 2019 年 1 月,保羅·馬納福特的律師在聯邦法院向特別檢察官羅伯特·穆勒的團隊提交了一份回應。文件中包含厚黑條覆蓋的敏感段落. 描述了馬納福特與俄羅斯特工的聯繫以及有關特朗普競選活動的細節。但法律團隊只是將黑框畫在文本上. 他們沒有從文件中刪除底層內容。任何讀者都可以突出顯示被遮蓋的部分,將其複製並粘貼到新文檔中以閱讀所有內容。文件公開後的幾個小時內,記者們已經提取並發布了隱藏的文本。
這種錯誤非常常見。在文字處理器中繪製黑色矩形或更改其背景顏色不會可靠地刪除最終 PDF 輸出中的文本. 它通常只會在視覺上遮蓋它。正確的編輯需要專用工具,這些工具可以從文件結構中永久清除底層內容,而不僅僅是遮蔽它。如果您收集患者或客戶數據並希望完全避免 PDF 元數據風險,將您的 PDF 轉換為在線表單可以從一開始就將提交保存在結構化、受控的環境中。
如何檢查: 在 Adobe Acrobat 中,轉到 工具 → 編輯 → 清理文檔以永久刪除所有元數據。免費選擇,打印為 PDF(文件 → 打印 → 保存為 PDF)會刪除大多數元數據,但不是全部. 在分享敏感文件之前請使用元數據查看器進行驗證。
Excel 電子表格 (.xlsx)
Excel 電子表格攜帶類似於 Word 的元數據,但具有特定於格式的額外風險:
- 作者和公司名稱
- 修訂歷史和編輯時間
- 評論和筆記. 包括當前視圖中不可見的那些
- 隱藏的行和列. 使用 Excel 的隱藏功能隱藏的數據仍然存在於文件中,任何取消隱藏它的人都可以完全訪問
- 隱藏的工作表. 整個工作表可以隱藏但仍保留在文件中
- 命名範圍和公式. 可以暴露不打算分享的內部數據結構或計算邏輯
- 外部鏈接. 指向其他文件的引用可能會揭示內部網絡路徑或雲存儲結構
隱藏的行和工作表是意外披露的特別常見來源。 一位顧問在向客戶發送之前準備了一個面向客戶的定價模型,可能會隱藏成本和利潤行. 但這些行仍然在文件中。取消隱藏它們只需兩次點擊。
在競爭性採購過程中,供應商偶爾會收到基於 Excel 的 RFP 模板,經檢查後發現其中包含隱藏的工作表,其中包含買方的內部評分標準或目標價格範圍. 這些信息從未打算離開買方的組織。
如何檢查: 在 Excel 中,轉到 文件 → 信息 → 檢查問題 → 檢查工作簿。特別注意隱藏的行、列和工作表。
圖像 (JPG, PNG, HEIC)
照片攜帶 EXIF 元數據. 一種標準化格式,用於記錄有關圖像的技術和上下文信息:
- GPS 坐標. 緯度、經度,有時還有海拔,在現代智能手機上準確到幾米內
- 時間戳. 拍攝照片的確切日期和時間
- 設備信息. 相機或手機的品牌、型號,有時還有序列號
- 相機設置. 光圈、快門速度、ISO、焦距
- 軟件. 使用的編輯軟件及版本號
GPS 坐標對大多數人來說是最重要的。一張在家拍攝並通過電子郵件發送的文件照片會在文件中嵌入您的家庭地址。在機密客戶會議上拍攝的照片揭示了會議的發生地點。在醫療環境中,患者文件的照片受 HIPAA 約束. 查看 HIPAA 實際要求您使用的工具來收集患者數據。
這種風險是有記錄的且是真實的。2012 年,約翰·麥卡菲. 當時是貝里斯當局的逃犯. 在一位陪同他的記者在線發布的照片中保留了 GPS 坐標後,在危地馬拉被定位。坐標將他的地點精確到幾米內。(麥卡菲本人後來聲稱 GPS 數據已被故意偽造以誤導當局,儘管他仍然被拘留並隨後被驅逐出境。)
消費者報告的研究人員在更日常的背景下記錄了相同的風險:在家中拍攝物品照片的轉售平台上的賣家通常會在列表照片中嵌入他們的家庭地址,任何提取 EXIF 數據的買家都可以看到。
如何檢查: 在 Windows 上,右鍵單擊任何圖像 → 屬性 → 詳情選項卡。在 Mac 上,在預覽中打開 → 工具 → 顯示檢查器 → GPS 標籤。許多智能手機在通過某些應用程序共享照片時也會刪除 GPS 數據. 但不是全部,也不一致。
如何刪除: 在 Windows 上,右鍵單擊 → 屬性 → 詳情 → “刪除屬性和個人信息”。在 Mac 上,使用預覽的導出功能,啟用元數據刪除。對於批量處理,可以使用 ExifTool(命令行)或客戶端瀏覽器工具從多個文件中刪除 EXIF。
PowerPoint 演示文稿 (.pptx)
PowerPoint 演示文稿攜帶類似於 Word 和 Excel 的元數據,並具有一些特定於格式的附加內容:
- 作者和公司名稱
- 修訂歷史和編輯時間
- 評論. 包括在審核過程中添加的評論和標記為已解決的評論
- 隱藏的幻燈片. 設置為隱藏的幻燈片仍然存在於文件中,可以取消隱藏
- 演講者筆記. 添加到幻燈片的筆記供演講者使用,可能包含內部談話要點、預期的反對意見或不打算給觀眾的定價指導
- 嵌入的文件和對象. PowerPoint 文件可以包含嵌入的 Excel 電子表格、Word 文檔或其他文件,這些文件攜帶自己的元數據
演講者筆記是演示文稿中最常被忽視的披露風險。 以 PDF 格式發送給潛在客戶的銷售演示文稿可能會刪除大多數元數據. 但直接發送的 .pptx 文件保留了每位演講者添加的每個筆記,包括戰略談話要點和在銷售研究期間收集的有關潛在客戶的信息。
如何檢查: 在 PowerPoint 中,轉到 文件 → 信息 → 檢查問題 → 檢查演示文稿。
如何在分享之前檢查和刪除元數據
Office 文檔(Word、Excel、PowerPoint)的最快方法
Microsoft 的內置文檔檢查器涵蓋所有主要元數據類別:
- 打開文件
- 轉到 文件 → 信息 → 檢查問題 → 檢查文檔(或檢查工作簿 / 檢查演示文稿)
- 選擇要掃描的類別
- 點擊 檢查,然後對於要清除的任何類別點擊 全部刪除
在文件的副本上運行檢查器. 某些刪除無法撤消,您會希望保留帶有完整歷史記錄的原始文件以供內部記錄。
對於 PDF
- Adobe Acrobat Pro: 工具 → 編輯 → 清理文檔. 這會永久刪除所有元數據和隱藏內容
- 免費替代方案: 打印為 PDF(文件 → 打印 → Microsoft 打印為 PDF 或 macOS PDF)會刪除大多數元數據,但在分享之前請使用查看器進行驗證
對於圖像
- Windows: 右鍵單擊 → 屬性 → 詳情 → “刪除屬性和個人信息”
- Mac: 照片應用 → 圖像 → 導出 → 取消選中位置數據
- 任何平台: 一個客戶端瀏覽器工具,可以在本地刪除 EXIF 數據. 無需上傳
使用元數據查看器進行驗證
在發送任何敏感文件之前,值得檢查清理後剩餘的元數據。幾個客戶端工具可以直接在您的瀏覽器中讀取元數據,無需上傳文件:
- 對於 Office 文檔:打開一個在瀏覽器中本地處理文件的元數據查看器
- 對於 PDF:在客戶端運行的 PDF 元數據查看器
- 對於圖像:可以離線工作的 EXIF 查看器
關鍵標準:驗證工具在本地處理您的文件,而不是在遠程服務器上。如果您正在檢查敏感文件的元數據,您不希望將其上傳到未知服務以進行檢查. 這會在試圖消除現有風險時引入新的風險。
上傳問題
這是刪除元數據的諷刺之處:許多人搜索“在線刪除 PDF 元數據”,將他們的文件上傳到免費的網絡工具,然後得到一個乾淨的文件。元數據消失了. 但文件剛剛傳輸到一家他們從未聽說過的公司的服務器。
對於元數據是真正隱私問題的文件. 法律合同、財務模型、醫療記錄、內部演示文稿. 上傳到未經審核的工具的行為可能比元數據本身的風險更大。
同樣的邏輯適用於任何文件處理:最安全的工具是從未接收過您的文件的工具。完全在您的瀏覽器中運行的客戶端工具. 在本地內存中處理文件而不進行任何服務器上傳. 完全消除了這種權衡。如果目標是收集數據而不是處理文件,帶有密碼保護的在線表單可以在不改變任何文件的情況下將提交保存在受控環境中。
如果您經常處理敏感文件並希望使用基於瀏覽器的工具在本地處理文件,PlatoForms PDF 工具箱可以處理核心 PDF 操作. 合併、拆分、壓縮、重新排序、密碼保護和刪除. 而不會讓文件離開您的設備。對於還通過在線表單收集敏感數據的組織,我們的信任中心涵蓋了完整的安全架構,包括加密標準和合規認證。
總結:隱藏在哪裡
| 文件類型 | 最常見的隱藏數據 | 最高風險 |
|---|---|---|
| Word (.docx) | 跟蹤更改、作者姓名、編輯時間、評論 | 刪除的文本仍可恢復 |
| 作者、創建應用程序、不當編輯的文本 | 黑框“編輯”保留文本完整 | |
| Excel (.xlsx) | 隱藏的行/工作表、評論、外部鏈接 | 隱藏的定價或利潤數據 |
| 圖像 (JPG, HEIC) | GPS 坐標、設備型號、時間戳 | 列表照片中的家庭地址 |
| PowerPoint (.pptx) | 演講者筆記、隱藏幻燈片、嵌入文件 | 銷售演示文稿中的內部談話要點 |
所有格式的模式都是相同的:元數據是自動生成的、不可見的和持續的。刪除它的負擔完全在於分享文件的人. 大多數工具都使其足夠簡單,沒有理由不在發送之前檢查。
在發送任何文件之前:假設它包含的內容超出您所見. 並在分享之前進行驗證。
參考資料
- 卡巴斯基, 如何短暫的元數據可能造成真正的問題, kaspersky.com/blog/office-documents-metadata/14215/
- CPO Magazine, 超過一半的《財富》500 強公司通過文件元數據將敏感信息暴露於偵察中, cpomagazine.com
- 微軟支持, 通過檢查文檔刪除隱藏數據和個人信息, support.microsoft.com
- BigHand, 元數據在法律行業中的重要性, bighand.com
- Columbia Journalism Review, 感謝所有不能正確編輯文檔的人, cjr.org/analysis/manafort-mueller-redacted-document-ukraine.php
- Wikipedia, Exif, en.wikipedia.org/wiki/Exif
- ISACA, 關於 EXIF 數據需要了解的內容:一種更微妙的網絡安全風險, isaca.org, 2025
- Consumer Reports, 照片的隱藏“Exif”數據如何暴露您的個人信息, consumerreports.org
經常處理敏感文件?PlatoForms PDF 工具箱完全在您的瀏覽器中處理文件. 無需上傳、無需服務器、無需帳戶。
如果您通過在線表單而非文件收集敏感數據,請閱讀5 種您不應在線處理的文件類型 - 並查看我們的信任中心如何涵蓋 PlatoForms 表單平台背後的安全架構。