Chapter 03 · AI 風險與陷阱

AI 會怎麼出錯：
從幻覺、偏見到合成濫用

預計閱讀時間 25 分鐘難度：中階 Deepfake · GAN · 換臉 · 語音克隆

AI 風險不只是一張假圖或一段假聲音。更常見的是 AI 一本正經地亂編資料、用偏誤放大刻板印象，或把真實內容包進錯誤脈絡。這一章把各種風險放回同一張地圖：你不是只在防 deepfake，而是在理解 AI 內容為什麼會誤導人。

操縱技術完整光譜

類型	技術門檻	製作成本	識別難度	主要用途
廉價偽造	⭐	$0	⭐⭐	政治打擊、情緒操縱
Photoshop	⭐⭐	Low	⭐⭐⭐	造假現場、偽造文件
GAN 合成人臉	⭐⭐⭐	Medium	⭐⭐⭐⭐	假帳號、假評論農場
換臉深偽	⭐⭐⭐⭐	Medium	⭐⭐⭐⭐	政治假訊息、性內容
AI 語音克隆	⭐⭐⭐	Low	⭐⭐⭐⭐⭐	詐騙、政治干預
多模態深偽	⭐⭐⭐⭐⭐	High	⭐⭐⭐⭐⭐	企業詐騙、重大欺騙

廉價偽造（Cheapfake）的三種手法

「廉價偽造」這個術語由記者 Nina Schick 和 Sam Gregory（WITNESS 媒體監察組織）推廣，指的是使用簡單、低成本技術製造的操縱媒體，不涉及 AI。

⚡ 三種廉價偽造手法

速度操縱：調整播放速度（通常減速至 70-80%）。效果：任何人都看起來醉酒或思路遲鈍。識別：注意聲音音調（速度降低，音調也降低）、背景聲音（環境音異常低沉）。
去情境剪輯：只保留斷章取義的片段，讓政治人物或專家的話看起來完全不同。識別：搜尋原始完整影片，看前後情境。
循環剪輯：把幾秒的影片剪成無縫循環，讓觀眾以為事件持續了更長時間（常見於人群暴力、爆炸、抗議場景）。識別：仔細觀察背景中的重複物件（雲的移動、人群走位）。

GAN 合成人臉：識別「不存在的人」

StyleGAN、Stable Diffusion 等技術能夠生成高度逼真的「不存在的人」照片，已被廣泛用於建立假社群帳號、假評論農場、偽造專家資歷。

🔍 GAN 人臉的視覺破綻

耳朵不對稱：GAN 合成人臉的耳朵常常形狀奇特，或左右明顯不對稱
背景異常：背景物件可能融合、直線彎曲、物體「消失」
眼睛反光不一致：真人眼睛的反光（catchlights）在兩眼中幾乎完全相同；GAN 臉的兩眼反光常常不同
牙齒和頭髮異常：細碎的頭髮在 GAN 圖中可能融成一塊；牙齒可能數量不對，或邊緣異常整齊
項鍊和眼鏡：這兩個物件是 GAN 最常出錯的位置，可能不對稱或形狀奇異

換臉深偽的識別方法

換臉深偽（Face Swap Deepfake）使用深度學習技術，將一個人的臉部特徵「貼合」到另一個人的身體影片上。常見技術包括 DeepFaceLab、FaceSwap 及 NVIDIA 的各種換臉模型。

臉部邊界光暈：換臉邊緣在光線變化時常出現半透明的「光暈」，特別是在側臉、低光環境或快速移動時
眨眼頻率異常：早期深偽技術幾乎不眨眼（訓練數據中閉眼照片少）；現代深偽可能過度頻繁
頭部快速轉動破綻：當頭部快速轉到 45 度以上側面時，臉部渲染品質明顯下降
膚色邊界：在不同光線條件下，換貼的臉部膚色可能和頸部、耳朵不匹配
嘴型與字幕不同步：特別是在特定語言（如中文）中，嘴型運動可能與音頻不完全匹配

AI 語音克隆：當電話那頭「不是」你認識的聲音

現代 AI 語音克隆技術（如 ElevenLabs、Coqui TTS、OpenAI 的 Voice Engine）只需 3-5 秒的語音樣本，就能生成以假亂真的克隆語音。成本：幾乎為零。這讓電話詐騙的技術門檻大幅降低。

🎙️ AI 語音克隆的識別特徵

呼吸節奏異常：AI 語音常缺乏自然的換氣聲，或換氣位置不在自然的語句停頓處
韻律過於平坦：情緒化段落（憤怒、激動、悲傷）的音調起伏不如真人自然，聽起來像「念稿」
背景音「剪接感」：AI 合成的語音部分和背景環境音之間，可能有輕微的音量或音質切換
特定發音錯誤：中文方言、台語、地方口音、專業術語是 AI 語音克隆最常出錯的地方

多模態深偽：最危險的組合攻擊

單一模態的深偽（只有視覺、或只有語音）相對容易被識破。但當攻擊者同時偽造視覺、聲音、文字三個模態時，三者互相「印證」，大幅提升欺騙成功率。這被稱為「多模態深偽攻擊」，是目前技術最成熟、危害最大的深偽形式。

典型攻擊流程：攻擊者事先收集目標（如企業高管）的公開視訊和音頻；使用換臉技術生成深偽視訊；使用語音克隆生成語音；並偽造電子郵件「確認」指令。受害者看到視訊、聽到聲音、收到電子郵件，三個管道都「指向同一指令」，因此相信其真實性。

互動投影片

01 / 05

操縱技術光譜

類型	門檻	識別難度
廉價偽造	⭐	⭐⭐
GAN 合成臉	⭐⭐⭐	⭐⭐⭐⭐
換臉深偽	⭐⭐⭐⭐	⭐⭐⭐⭐
語音克隆	⭐⭐⭐	⭐⭐⭐⭐⭐
多模態深偽	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐

02 / 05

廉價偽造三手法

🐌 速度操縱

減速至 70-80%，任何人都看起來醉酒遲鈍

✂️ 去情境剪輯

只保留斷章取義片段，改變原意

🔁 循環剪輯

幾秒影片做成無縫循環，誇大事件持續時間

🔍 識別方法

找原始完整版本；注意聲音音調；觀察背景重複物件

03 / 05

換臉深偽的視覺破綻

💡 臉部邊界光暈

快速移動或側臉時出現半透明光暈

👁️ 眨眼異常

過少或過多眨眼，與自然節律不符

🌈 膚色不一致

臉部和頸部/耳朵的膚色在不同光線下不匹配

👄 嘴型不同步

嘴型動作與音頻有輕微的時間差

04 / 05

AI 語音克隆識別

🫁 呼吸節奏

AI 語音缺乏自然換氣，或換氣位置不對

🎵 韻律平坦

情緒化段落音調起伏不自然，像念稿

🔊 背景剪接感

語音與環境音之間有輕微的音質切換

🗣️ 方言錯誤

台語、客語、地方口音常常不準確

05 / 05

Zelensky 深偽案例分析

2022年3月，烏克蘭總統澤倫斯基「宣布投降」深偽影片的技術破綻：

破綻	說明
頭部比例	頭部相對於肩膀明顯偏大
頸部邊界	臉部和頸部的邊緣有明顯光暈
音調偏差	聲音音調與真實 Zelensky 相差甚遠

即使技術不成熟，在戰爭恐慌情境下仍造成廣泛傳播。

真實案例研究

FAKE · 政治深偽

Zelensky 深偽「宣布投降」（2022）

March 2022 · Ukraine / Global

俄羅斯入侵烏克蘭約三週後，一段深偽影片開始在 Telegram、Facebook 和 Twitter 上流傳，影片中「烏克蘭總統澤倫斯基」命令士兵放下武器投降。影片先出現在被駭的烏克蘭電視台直播中，隨即在社群媒體上大規模擴散。

技術分析顯示，這是品質偏低的換臉深偽：頭部比例相對於肩膀偏大（典型的訓練資料不足問題），臉部和頸部的邊界有明顯的半透明光暈，尤其在頭部轉動時破綻明顯。聲音的音調比真實的澤倫斯基高出約半個音階，且缺乏他特有的語氣頓挫。

社群媒體的快速應對

Meta 和 YouTube 都在數小時內標記並下架了影片。真實的澤倫斯基隨即發布一段在政府大樓外拍攝的反駁影片，強調「我們在這裡，我沒有投降」。烏克蘭事實查核機構 StopFake 在影片上架後 90 分鐘內發布了查核報告。

核心學習

這個案例說明了一個重要原則：即使技術品質低劣的深偽，在特定的社會情境下（戰爭恐慌）依然有效。 防禦策略：任何涉及重大政治決策或「投降/攻擊」等高後果聲明的影片，必須等待官方媒體和政府頻道的確認，而不是根據社群媒體的第一個來源做判斷。

Reuters Fact Check, BBC, Meta Security Blog, March 2022

FAKE · 詐騙深偽廣告

台灣名人 AI 投資詐騙廣告（2023-2024）

November 2023 onwards · Taiwan

從 2023年11月起，台灣出現大量以知名人士（包括台積電創辦人張忠謀、郭台銘、賴清德等）為主角的深偽影片廣告，在 YouTube 和 Facebook 廣告系統中大量投放。這些影片聲稱名人「親自推薦」某投資平台，承諾高額回報，精準鎖定退休族群。

相關詐騙案件估計讓台灣民眾損失超過新台幣 10 億元，多名受害者損失畢生積蓄。技術分析顯示，這些影片有以下共同破綻：① 說話時嘴型與中文配音不完全同步 ② 頭髮邊緣在側臉時有輕微的「融化感」 ③ 眼神直視鏡頭幾乎不眨眼 ④ 背景虛化方式不自然。

法律進展

2024 年新北地方法院判決中，法院接受了 AI 鑑識報告作為輔助證據，確認被告使用深偽技術製作廣告影片，判處 4 年 6 個月有期徒刑。這是台灣首批以 AI 鑑識報告作為主要輔助證據的深偽詐騙定罪案件之一。