當畫面也能生成:
圖片、影片與 deepfake 的鑑識思維
視覺鑑識是 AI 素養的進階篇,不是全部。這一章會把 deepfake、全生成畫面、傳統影像鑑識和熱力圖閱讀放進同一套判讀框架,幫你理解工具能提供什麼、不能保證什麼,以及為什麼最後仍然要回到來源、時間軸與情境證據。
AI 鑑識工具的四大工作類型
| 類型 | 偵測目標 | 核心技術 | 適用媒體 |
|---|---|---|---|
| 全圖 AI 痕跡 | AI 生成/修改的統計異常 | CNN, Vision Transformer | 圖片 + 影片 |
| 人臉真偽 | 臉部區域的換臉特徵 | CFDet, DFM models | 含人臉媒體 |
| 時序一致性 | 影片幀間的不連貫性 | GenConViT, LSTM | 影片 |
| 傳統影像鑑識 | Photoshop 拼接、複製貼上 | ELA, SIFT | 圖片 |
理解 AUC、TPR、FPR:為什麼這些數字重要
當你看到一個深偽偵測器聲稱「準確率 95%」,這個數字究竟代表什麼?在評估偵測器效能時,以下三個指標最關鍵:
| 指標 | 定義 | 理想值 |
|---|---|---|
| AUC (Area Under Curve) | 整體區分能力:0.5 = 隨機猜測,1.0 = 完美偵測 | > 0.85 |
| TPR @ 0.1 FPR (True Positive Rate) | 在每 100 個真實內容只誤判 10 個的條件下,能抓到多少假內容 | > 0.70 |
| FPR (False Positive Rate) | 把真實內容誤判為假的比例(越低越好) | < 0.05 |
為什麼「準確率 95%」這個數字不夠?因為如果資料集中只有 5% 是深偽,一個「永遠說真實」的偵測器也有 95% 準確率——但它完全沒用。AUC 和 TPR@FPR 才是真正衡量偵測能力的指標。
熱力圖(Heatmap / GradCAM)解讀指南
大多數 AI 鑑識工具會產生熱力圖(通常使用 GradCAM 或 GradCAM++ 技術),顯示模型在做出判斷時「看的是哪些區域」。正確解讀熱力圖是使用鑑識工具的關鍵技能。
- 🔴 紅色/高溫區域:模型認為這些區域有強烈的 AI 痕跡。常見位置:臉部邊緣、髮際線、耳朵、背景與前景的交界處。
- 🔵 藍色/低溫區域:模型認為這些區域相對真實。通常是均勻的背景、衣服材質、頭頂和下巴等邊緣位置。
- ⚠️ 解讀注意:熱力圖顯示「為什麼模型如此判斷」,不等於「這些區域確定是偽造的」。高品質 JPEG 壓縮、美肌濾鏡、螢幕截圖,都可能觸發類似的「高溫響應」。
- ✅ 可靠的判斷依據:同一個區域(如臉部邊界)在多個獨立偵測器的熱力圖中都顯示為高溫,才具有更高的可信度。
錯誤層次分析(ELA):傳統影像鑑識的利器
ELA(Error Level Analysis)是不需要 AI 的傳統影像鑑識技術。原理如下:
JPEG 格式的圖片在每次儲存時都會產生一定的壓縮損失。如果一張圖片被多次儲存,不同區域的壓縮誤差率會逐漸趨於一致。但如果某個區域是後來用 Photoshop 貼入的,它的壓縮誤差率會與周圍不同——因為它經歷的壓縮次數不同。ELA 把這些差異可視化,讓「後貼入」的區域在圖中顯示為異常亮(或暗)的區域。
- FotoForensics.com — 免費線上工具,上傳圖片即可獲得 ELA 視覺化結果
- Forensically (29a.ch/photo-forensics) — 提供 ELA、Clone Detection、Noise Analysis 等多種分析模式
AI 鑑識的限制:知道工具的邊界
任何 AI 鑑識工具都有以下已知限制,使用時必須謹記:
- 訓練集限制(Distribution Shift):偵測器在訓練時使用的深偽技術,和現實中出現的深偽技術不一定一致。針對某種深偽技術訓練的偵測器,面對新型技術可能失效。
- 圖片後處理觸發誤報:以下情況可能導致真實圖片被誤判:過度的美肌濾鏡(Instagram、相機 App 的 AI 美顏)、截圖(摩爾紋效應)、高度 JPEG 壓縮(品質設定低於 60%)、AI 超解析度放大。
- 軍備競賽(Adversarial Arms Race):深偽生成技術和偵測技術的「貓鼠遊戲」持續進行。當一種偵測方法被廣泛採用,深偽製造者就會優化生成技術以規避它。
- 法庭使用的特殊要求:在司法場合,AI 鑑識報告必須配合人工專家審核,並說明所使用工具的訓練資料集、已知限制和置信區間,才能被接受為輔助證據。
如何正確解讀鑑識報告:三色判決框架
本平台的多偵測器架構
本平台整合了 15+ 個深偽偵測模型,分為四個功能分組,每個偵測器根據其在獨立評測中的 AUC 表現分配權重。多偵測器加權投票的設計,是為了降低任何單一偵測器的誤判風險——當多個獨立模型都指向同一方向時,結果才更具可信度。
互動投影片
真實案例研究
2024年1月,英國工程顧問公司奧雅納(Arup)香港分部的一名財務人員,受邀參加一場據稱由公司倫敦總部安排的「緊急多人視訊會議」。會議中出現了包括公司財務長(CFO)在內的多位高管的「臉孔和聲音」,指示該員工執行一系列緊急轉帳。員工依指示在短短幾天內,分十五次轉帳,共轉出 2500 萬港元(約 320 萬美元)。
事後,當員工聯絡倫敦確認這些轉帳時,才發現倫敦總部完全不知情。調查顯示,視訊會議中所有的「高管形象」都是 AI 深偽生成,攻擊者利用從公開網路(媒體採訪、會議錄影、LinkedIn 資料)收集的視頻和照片訓練了深偽模型。
事後 AI 鑑識分析揭露了多個破綻:① 所有「參會者」在轉頭或做複雜動作時,臉部邊界渲染品質明顯下降 ② 不同「參會者」的背景光照方向不一致(暗示每個人物是在不同環境中生成的,再合成到同一視訊中)③ 語音的韻律模式與這些高管在真實影片中的說話風格有統計差異 ④ 即時視訊的壓縮條件(通常是 H.264/265 低碼率)讓這些破綻在螢幕上難以用肉眼識別。
- 帶外驗證(OOB Verification):任何來自視訊會議的大額轉帳指令,必須透過完全獨立的管道(直撥高管的已知個人手機,而不是會議邀請中的聯絡方式)確認
- 預設共享密語:在重要視訊會議開始時,要求所有人回答一個預先約定的問題(只有當事人才知道的內容)
- 不自然動作測試:要求視訊中的人做快速轉頭、遮住臉後移開等不自然動作,深偽在這類情境下最容易破綻畢露
深偽技術最危險的副作用之一,是學者 Bobby Chesney 和 Danielle Citron(2019)所稱的「騙子紅利(Liar's Dividend)」:當公眾意識到深偽的存在後,不誠實的人可以聲稱任何對他們不利的真實影片都是深偽,以此逃避責任。
全球已出現多個相關案例:政治人物在真實的收賄現場錄影被公開後,聲稱「這是 AI 偽造的」;企業高管否認真實的不當指令錄音;甚至在刑事案件中,被告聲稱犯罪現場的監控錄影是深偽。雖然最終多數被鑑識推翻,但製造的混亂和訴訟拖延足以造成顯著傷害。
這正是為什麼 AI 鑑識工具必須同時具備兩個能力:揭露偽造(識別深偽),以及確認真實(保護真實影片的可信度)。在「騙子紅利」情境下,一份準確的「這是真實的」鑑識報告,其價值不亞於「這是假的」。這也是為什麼鑑識報告必須附帶詳細的技術說明和置信區間,讓法院和媒體能夠評估其可靠性。