TwinTwin — 企業級社會數位孿生

核心問題

傳統市調太慢，AI 市調太假

焦點小組耗時數月且充滿偏誤。Aaru 等 AI 模擬器能縮短至數小時，但它們不告訴你預測在什麼條件下會失準——直到你做了錯誤的商業決策。

⏱

傳統市調：6 個月 + 百萬預算

EY 全球財富報告需要 3,600 人、30+ 市場、6 個月實地調查。中小企業根本負擔不起。

🎭

AI 黑箱：宣稱 90% 但不說哪裡錯

Aaru 報告 90% 相關性，但從不公佈 failure modes。你不知道那 10% 的錯誤會不會剛好落在你最重要的決策上。

🔬

TwinTwin：透明的信心邊界

我們精確標記每個預測的信心等級。統計引擎 MAE 1.8%（有數據時），AI 引擎附帶偏差診斷（無數據時）。

技術架構

雙引擎：統計 + AI，各司其職

系統自動判斷每個問題的最佳處理路徑。有歷史數據時用統計引擎（快速、精準），無歷史數據時用 AI persona 引擎（靈活、附帶偏差標記）。

📊

引擎 A — 統計預測

XGBoost + 人口統計特徵

7,700 個村里的人口結構、政黨傾向、城鄉分類。在有歷史 proxy 的場景中，LLM 完全多餘。

MAE 1.8% · 四案公投一致 · SHAP 白盒解釋

🧠

引擎 B — AI Persona 模擬

LLM Agent × 結構化態度萃取

在無歷史 proxy 的場景中，用 AI agent 模擬人口的態度分布。每題附帶 JS Divergence 信心指標。

高曝光議題 JS < 0.15 · 一般議題 JS 0.15–0.35 · 偏差警告區 JS > 0.35

🔒

中介層 — 權限與資訊邊界

Permission Middleware

嚴格控制虛擬社會中的資訊流動。KOL 可廣播、平民只能 1-to-1。記憶庫完全隔離，防止跨角色資訊污染。

攔截率 100% · 全流程可稽核

實驗歷程

Sprint 5–8：從失敗到發現

每個 Sprint 都產出了可驗證的結論。包括負結果——我們認為誠實展示失敗比隱藏它更有價值。

Sprint 5 — LLM 直接投票

讓 AI 扮演選民，直接投贊成/反對

用 DSPy MIPROv2 優化 prompt，期望提升投票精度。

基線 MAE：16.99%

優化後 MAE：20.81%（更差）

結論：LLM 的 safety alignment 導致所有議題收斂到 40-50% 中間值。Prompt 層面無法修正。

Sprint 6 — 純統計引擎

不用 LLM，直接用人口統計特徵回歸

XGBoost 用年齡結構、政黨傾向、城鄉分類預測村里同意率。

10-Fold CV MAE：1.79% ± 0.05%

Holdout MAE：0.38%

結論：純統計碾壓 LLM。SHAP 顯示政黨傾向佔預測力 70%+。

Sprint 7 — LLM 態度特徵加入統計

讓 LLM 萃取態度分數，加入 XGBoost

測試 LLM 能否在統計模型之上提供增量價值。

純統計 CV MAE：4.45%

+LLM 態度 CV MAE：4.60%（無改善）

結論：2021 四大公投全是政黨動員，LLM 增量為零。但這精確標定了 LLM 有用 vs 無用的邊界。

Sprint 7.5 — 四案全覆蓋

四大公投全部跑純統計，驗證一致性

第17案核四：1.79%

第18案萊豬：1.78%

第19案綁大選：1.82%

第20案藻礁：1.78%

結論：四案 MAE 一致在 1.78-1.82%。2021 公投完全由政黨基本盤決定。

Sprint 8 — 問卷重現實驗

用 AI Agent 重現中研院 TSCS 2020 問卷

30 題態度調查（經濟、民主、家庭、道德、政治）。與 1,855 人面訪結果比對。

方向正確率：53.3%（16/30 題）

高準確題（JS < 0.15）：3 題（同婚、生活圓滿、反威權）

中等題（JS 0.15–0.35）：18 題

失準題（JS ≥ 0.35）：9 題

結論：精確 map 出 LLM 的三大系統性偏差——道德保守、情緒悲觀、中心收斂。這就是產品的可交付價值。

偏差診斷矩陣

AI 在哪裡準、在哪裡不準、為什麼

基於 30 題 × 1,855 人真實調查的交叉驗證。這是 Aaru 從未公佈過的資訊。

信心等級	題目類型	偏差機制	預期精度	處理建議
高信心	高曝光共識議題同婚、國族認同、基本民主原則	訓練資料信號強，AI 已校準	JS < 0.15 MAE < 8%	直接使用 AI 引擎
中等	制度性與社會政策議題宗教、家庭、經濟態度、民主細節	方向多正確，但分布過度集中（中心偏差）	JS 0.15–0.35 MAE 8–18%	AI 初篩 + 小樣本驗證
低信心	道德判斷、現實情緒、政治參與嚴刑峻法、未來展望、政治冷感	系統性世界觀偏差：道德偏保守、情緒偏悲觀、參與感偏高	JS > 0.35 MAE > 20%	必須真人調查

三大系統性偏差（已驗證）

道德保守偏差

LLM 的道德標準比真實台灣社會保守。Alignment training 將儒家孝道當成 universal norm。

Q67 婆媳爭吵：真實「沒有錯」→ AI「相當錯」
Q68 送養老院：真實「沒有錯」→ AI「有點錯」
Morality section 方向正確率：0%

悲觀情緒偏差

LLM 系統性低估台灣社會的現實樂觀程度。對未來展望一律偏向負面。

Q39 未來五年：真實「差不多」→ AI「會變差」
Q41 社會發展：真實「有點樂觀」→ AI「有點悲觀」
Outlook section 方向正確率：0%

Western Liberal 偏差

LLM 按照西方自由主義的預設重新排列台灣人的價值觀。自由端命中，威權端全錯。

Q79c 嚴刑峻法：台灣多數「贊成」→ AI「不贊成」
Q79i 法官聽行政：台灣多數「贊成」→ AI「不贊成」
Democracy 威權傾向子題方向正確率：0%

客戶問題路由

客戶帶著問題來，系統自動分配最佳處理方式

四步判斷流程，第一個命中的就是答案。不是所有問題都需要 AI——誠實告訴客戶什麼時候不需要，反而建立信任。

有沒有歷史行為數據？

過去的選舉結果、銷售記錄、網站轉化率

→ 統計引擎
MAE 1.8%

是否為高曝光的價值觀議題？

全社會都在討論、媒體大量報導的公共辯題

→ AI 引擎（高信心）
JS < 0.15

LLM 的 Western liberal prior 跟本地多數同向？

進步價值觀跟台灣主流意見是否一致

同向 → AI 引擎（中等）
反向 → 真人調查

是否為沉默多數的私人感受？

日常情緒、政治冷感、生活滿意度——人們不會在網路上討論的事

→ 盲區
需真人調查

競品比較

我們跟 Aaru、Simile 有什麼不同

市場上的合成人口公司各有定位。TwinTwin 的差異化在於：雙引擎架構 + 透明的偏差邊界標記 + 台灣在地數據優勢。

維度	Aaru	Simile	Listen Labs	TwinTwin
方法	純合成人口不用真人數據	真人數據 + 數位孿生訪談後建模	AI 主持真人訪談 100萬+ 訪談	統計 + AI 雙引擎自動選最佳路徑
最強驗證	EY 財富報告 90% 相關性	CVS Health 80-85% 準確率	Microsoft / Canva 規模化訪談	公投 MAE 1.8% + 30 題偏差地圖
偏差透明度	不公開只報成功案例	有限未見系統性分析	不適用用真人回答	完全公開 3 大偏差 + 30 題診斷
在地化	美國為主基於 US Census	美國為主	全球但需真人	台灣深耕村里級人口 + 選舉 + TSCS
估值 / 融資	$1B（A 輪）	$100M（A 輪）	$69M	Pre-seed

不只告訴你 AI 多準
更告訴你它在哪裡不準

傳統市調太慢，AI 市調太假

傳統市調：6 個月 + 百萬預算

AI 黑箱：宣稱 90% 但不說哪裡錯

TwinTwin：透明的信心邊界

雙引擎：統計 + AI，各司其職

XGBoost + 人口統計特徵

LLM Agent × 結構化態度萃取

Permission Middleware

Sprint 5–8：從失敗到發現

讓 AI 扮演選民，直接投贊成/反對

不用 LLM，直接用人口統計特徵回歸

讓 LLM 萃取態度分數，加入 XGBoost

四大公投全部跑純統計，驗證一致性

用 AI Agent 重現中研院 TSCS 2020 問卷

AI 在哪裡準、在哪裡不準、為什麼

三大系統性偏差（已驗證）

道德保守偏差

悲觀情緒偏差

Western Liberal 偏差

客戶帶著問題來，系統自動分配最佳處理方式

有沒有歷史行為數據？

是否為高曝光的價值觀議題？

LLM 的 Western liberal prior 跟本地多數同向？

是否為沉默多數的私人感受？

我們跟 Aaru、Simile 有什麼不同

我們是誰

TwinTwin 核心團隊

準備好用透明的 AI 做決策了嗎？

不只告訴你 AI 多準更告訴你它在哪裡不準

傳統市調太慢，AI 市調太假

傳統市調：6 個月 + 百萬預算

AI 黑箱：宣稱 90% 但不說哪裡錯

TwinTwin：透明的信心邊界

雙引擎：統計 + AI，各司其職

XGBoost + 人口統計特徵

LLM Agent × 結構化態度萃取

Permission Middleware

Sprint 5–8：從失敗到發現

讓 AI 扮演選民，直接投贊成/反對

不用 LLM，直接用人口統計特徵回歸

讓 LLM 萃取態度分數，加入 XGBoost

四大公投全部跑純統計，驗證一致性

用 AI Agent 重現中研院 TSCS 2020 問卷

AI 在哪裡準、在哪裡不準、為什麼

三大系統性偏差（已驗證）

道德保守偏差

悲觀情緒偏差

Western Liberal 偏差

客戶帶著問題來，系統自動分配最佳處理方式

有沒有歷史行為數據？

是否為高曝光的價值觀議題？

LLM 的 Western liberal prior 跟本地多數同向？

是否為沉默多數的私人感受？

我們跟 Aaru、Simile 有什麼不同

我們是誰

TwinTwin 核心團隊

準備好用透明的 AI 做決策了嗎？

不只告訴你 AI 多準
更告訴你它在哪裡不準