AI 會怎麼出錯:
從幻覺、偏見到合成濫用
AI 風險不只是一張假圖或一段假聲音。更常見的是 AI 一本正經地亂編資料、用偏誤放大刻板印象,或把真實內容包進錯誤脈絡。這一章把各種風險放回同一張地圖:你不是只在防 deepfake,而是在理解 AI 內容為什麼會誤導人。
操縱技術完整光譜
| 類型 | 技術門檻 | 製作成本 | 識別難度 | 主要用途 |
|---|---|---|---|---|
| 廉價偽造 | ⭐ | $0 | ⭐⭐ | 政治打擊、情緒操縱 |
| Photoshop | ⭐⭐ | Low | ⭐⭐⭐ | 造假現場、偽造文件 |
| GAN 合成人臉 | ⭐⭐⭐ | Medium | ⭐⭐⭐⭐ | 假帳號、假評論農場 |
| 換臉深偽 | ⭐⭐⭐⭐ | Medium | ⭐⭐⭐⭐ | 政治假訊息、性內容 |
| AI 語音克隆 | ⭐⭐⭐ | Low | ⭐⭐⭐⭐⭐ | 詐騙、政治干預 |
| 多模態深偽 | ⭐⭐⭐⭐⭐ | High | ⭐⭐⭐⭐⭐ | 企業詐騙、重大欺騙 |
廉價偽造(Cheapfake)的三種手法
「廉價偽造」這個術語由記者 Nina Schick 和 Sam Gregory(WITNESS 媒體監察組織)推廣,指的是使用簡單、低成本技術製造的操縱媒體,不涉及 AI。
- 速度操縱:調整播放速度(通常減速至 70-80%)。效果:任何人都看起來醉酒或思路遲鈍。識別:注意聲音音調(速度降低,音調也降低)、背景聲音(環境音異常低沉)。
- 去情境剪輯:只保留斷章取義的片段,讓政治人物或專家的話看起來完全不同。識別:搜尋原始完整影片,看前後情境。
- 循環剪輯:把幾秒的影片剪成無縫循環,讓觀眾以為事件持續了更長時間(常見於人群暴力、爆炸、抗議場景)。識別:仔細觀察背景中的重複物件(雲的移動、人群走位)。
GAN 合成人臉:識別「不存在的人」
StyleGAN、Stable Diffusion 等技術能夠生成高度逼真的「不存在的人」照片,已被廣泛用於建立假社群帳號、假評論農場、偽造專家資歷。
- 耳朵不對稱:GAN 合成人臉的耳朵常常形狀奇特,或左右明顯不對稱
- 背景異常:背景物件可能融合、直線彎曲、物體「消失」
- 眼睛反光不一致:真人眼睛的反光(catchlights)在兩眼中幾乎完全相同;GAN 臉的兩眼反光常常不同
- 牙齒和頭髮異常:細碎的頭髮在 GAN 圖中可能融成一塊;牙齒可能數量不對,或邊緣異常整齊
- 項鍊和眼鏡:這兩個物件是 GAN 最常出錯的位置,可能不對稱或形狀奇異
換臉深偽的識別方法
換臉深偽(Face Swap Deepfake)使用深度學習技術,將一個人的臉部特徵「貼合」到另一個人的身體影片上。常見技術包括 DeepFaceLab、FaceSwap 及 NVIDIA 的各種換臉模型。
- 臉部邊界光暈:換臉邊緣在光線變化時常出現半透明的「光暈」,特別是在側臉、低光環境或快速移動時
- 眨眼頻率異常:早期深偽技術幾乎不眨眼(訓練數據中閉眼照片少);現代深偽可能過度頻繁
- 頭部快速轉動破綻:當頭部快速轉到 45 度以上側面時,臉部渲染品質明顯下降
- 膚色邊界:在不同光線條件下,換貼的臉部膚色可能和頸部、耳朵不匹配
- 嘴型與字幕不同步:特別是在特定語言(如中文)中,嘴型運動可能與音頻不完全匹配
AI 語音克隆:當電話那頭「不是」你認識的聲音
現代 AI 語音克隆技術(如 ElevenLabs、Coqui TTS、OpenAI 的 Voice Engine)只需 3-5 秒的語音樣本,就能生成以假亂真的克隆語音。成本:幾乎為零。這讓電話詐騙的技術門檻大幅降低。
- 呼吸節奏異常:AI 語音常缺乏自然的換氣聲,或換氣位置不在自然的語句停頓處
- 韻律過於平坦:情緒化段落(憤怒、激動、悲傷)的音調起伏不如真人自然,聽起來像「念稿」
- 背景音「剪接感」:AI 合成的語音部分和背景環境音之間,可能有輕微的音量或音質切換
- 特定發音錯誤:中文方言、台語、地方口音、專業術語是 AI 語音克隆最常出錯的地方
多模態深偽:最危險的組合攻擊
單一模態的深偽(只有視覺、或只有語音)相對容易被識破。但當攻擊者同時偽造視覺、聲音、文字三個模態時,三者互相「印證」,大幅提升欺騙成功率。這被稱為「多模態深偽攻擊」,是目前技術最成熟、危害最大的深偽形式。
典型攻擊流程:攻擊者事先收集目標(如企業高管)的公開視訊和音頻;使用換臉技術生成深偽視訊;使用語音克隆生成語音;並偽造電子郵件「確認」指令。受害者看到視訊、聽到聲音、收到電子郵件,三個管道都「指向同一指令」,因此相信其真實性。
互動投影片
真實案例研究
俄羅斯入侵烏克蘭約三週後,一段深偽影片開始在 Telegram、Facebook 和 Twitter 上流傳,影片中「烏克蘭總統澤倫斯基」命令士兵放下武器投降。影片先出現在被駭的烏克蘭電視台直播中,隨即在社群媒體上大規模擴散。
技術分析顯示,這是品質偏低的換臉深偽:頭部比例相對於肩膀偏大(典型的訓練資料不足問題),臉部和頸部的邊界有明顯的半透明光暈,尤其在頭部轉動時破綻明顯。聲音的音調比真實的澤倫斯基高出約半個音階,且缺乏他特有的語氣頓挫。
Meta 和 YouTube 都在數小時內標記並下架了影片。真實的澤倫斯基隨即發布一段在政府大樓外拍攝的反駁影片,強調「我們在這裡,我沒有投降」。烏克蘭事實查核機構 StopFake 在影片上架後 90 分鐘內發布了查核報告。
這個案例說明了一個重要原則:即使技術品質低劣的深偽,在特定的社會情境下(戰爭恐慌)依然有效。 防禦策略:任何涉及重大政治決策或「投降/攻擊」等高後果聲明的影片,必須等待官方媒體和政府頻道的確認,而不是根據社群媒體的第一個來源做判斷。
從 2023年11月起,台灣出現大量以知名人士(包括台積電創辦人張忠謀、郭台銘、賴清德等)為主角的深偽影片廣告,在 YouTube 和 Facebook 廣告系統中大量投放。這些影片聲稱名人「親自推薦」某投資平台,承諾高額回報,精準鎖定退休族群。
相關詐騙案件估計讓台灣民眾損失超過新台幣 10 億元,多名受害者損失畢生積蓄。技術分析顯示,這些影片有以下共同破綻:① 說話時嘴型與中文配音不完全同步 ② 頭髮邊緣在側臉時有輕微的「融化感」 ③ 眼神直視鏡頭幾乎不眨眼 ④ 背景虛化方式不自然。
2024 年新北地方法院判決中,法院接受了 AI 鑑識報告作為輔助證據,確認被告使用深偽技術製作廣告影片,判處 4 年 6 個月有期徒刑。這是台灣首批以 AI 鑑識報告作為主要輔助證據的深偽詐騙定罪案件之一。
廣告系統的「信任背書效應」讓這類深偽格外危險:出現在 YouTube/Facebook 廣告中,讓人下意識覺得「平台已審核過這個廣告」。最有效的防禦:任何名人「推薦投資」,都要到名人的官方帳號或主流媒體報導中尋找確認。從未出現在官方渠道的「代言」,100% 是騙局。