企業級社會數位孿生平台

不只告訴你 AI 多準
更告訴你它在哪裡不準

TwinTwin 是第一個精確標記 AI 模擬偏差邊界的社會數位孿生系統。
雙引擎架構:統計引擎處理有歷史數據的場景,AI 引擎處理未知場景——每個預測都附帶信心等級。

1.8%
統計引擎 MAE
30 題
AI 偏差診斷
7,700
村里級覆蓋
4 案
公投全覆蓋

傳統市調太慢,AI 市調太假

焦點小組耗時數月且充滿偏誤。Aaru 等 AI 模擬器能縮短至數小時,但它們不告訴你預測在什麼條件下會失準——直到你做了錯誤的商業決策。

傳統市調:6 個月 + 百萬預算

EY 全球財富報告需要 3,600 人、30+ 市場、6 個月實地調查。中小企業根本負擔不起。

🎭

AI 黑箱:宣稱 90% 但不說哪裡錯

Aaru 報告 90% 相關性,但從不公佈 failure modes。你不知道那 10% 的錯誤會不會剛好落在你最重要的決策上。

🔬

TwinTwin:透明的信心邊界

我們精確標記每個預測的信心等級。統計引擎 MAE 1.8%(有數據時),AI 引擎附帶偏差診斷(無數據時)。

雙引擎:統計 + AI,各司其職

系統自動判斷每個問題的最佳處理路徑。有歷史數據時用統計引擎(快速、精準),無歷史數據時用 AI persona 引擎(靈活、附帶偏差標記)。

📊
引擎 A — 統計預測

XGBoost + 人口統計特徵

7,700 個村里的人口結構、政黨傾向、城鄉分類。在有歷史 proxy 的場景中,LLM 完全多餘。

MAE 1.8% · 四案公投一致 · SHAP 白盒解釋
🧠
引擎 B — AI Persona 模擬

LLM Agent × 結構化態度萃取

在無歷史 proxy 的場景中,用 AI agent 模擬人口的態度分布。每題附帶 JS Divergence 信心指標。

高曝光議題 JS < 0.15 · 一般議題 JS 0.15–0.35 · 偏差警告區 JS > 0.35
🔒
中介層 — 權限與資訊邊界

Permission Middleware

嚴格控制虛擬社會中的資訊流動。KOL 可廣播、平民只能 1-to-1。記憶庫完全隔離,防止跨角色資訊污染。

攔截率 100% · 全流程可稽核

Sprint 5–8:從失敗到發現

每個 Sprint 都產出了可驗證的結論。包括負結果——我們認為誠實展示失敗比隱藏它更有價值。

Sprint 5 — LLM 直接投票

讓 AI 扮演選民,直接投贊成/反對

用 DSPy MIPROv2 優化 prompt,期望提升投票精度。

基線 MAE:16.99%
優化後 MAE:20.81%(更差)
結論:LLM 的 safety alignment 導致所有議題收斂到 40-50% 中間值。Prompt 層面無法修正。
Sprint 6 — 純統計引擎

不用 LLM,直接用人口統計特徵回歸

XGBoost 用年齡結構、政黨傾向、城鄉分類預測村里同意率。

10-Fold CV MAE:1.79% ± 0.05%
Holdout MAE:0.38%
結論:純統計碾壓 LLM。SHAP 顯示政黨傾向佔預測力 70%+。
Sprint 7 — LLM 態度特徵加入統計

讓 LLM 萃取態度分數,加入 XGBoost

測試 LLM 能否在統計模型之上提供增量價值。

純統計 CV MAE:4.45%
+LLM 態度 CV MAE:4.60%(無改善)
結論:2021 四大公投全是政黨動員,LLM 增量為零。但這精確標定了 LLM 有用 vs 無用的邊界。
Sprint 7.5 — 四案全覆蓋

四大公投全部跑純統計,驗證一致性

第17案 核四:1.79%
第18案 萊豬:1.78%
第19案 綁大選:1.82%
第20案 藻礁:1.78%
結論:四案 MAE 一致在 1.78-1.82%。2021 公投完全由政黨基本盤決定。
Sprint 8 — 問卷重現實驗

用 AI Agent 重現中研院 TSCS 2020 問卷

30 題態度調查(經濟、民主、家庭、道德、政治)。與 1,855 人面訪結果比對。

方向正確率:53.3%(16/30 題)
高準確題(JS < 0.15):3 題(同婚、生活圓滿、反威權)
中等題(JS 0.15–0.35):18 題
失準題(JS ≥ 0.35):9 題
結論:精確 map 出 LLM 的三大系統性偏差——道德保守、情緒悲觀、中心收斂。這就是產品的可交付價值。

AI 在哪裡準、在哪裡不準、為什麼

基於 30 題 × 1,855 人真實調查的交叉驗證。這是 Aaru 從未公佈過的資訊。

信心等級題目類型偏差機制預期精度處理建議
高信心 高曝光共識議題
同婚、國族認同、基本民主原則
訓練資料信號強,AI 已校準 JS < 0.15
MAE < 8%
直接使用 AI 引擎
中等 制度性與社會政策議題
宗教、家庭、經濟態度、民主細節
方向多正確,但分布過度集中(中心偏差) JS 0.15–0.35
MAE 8–18%
AI 初篩 + 小樣本驗證
低信心 道德判斷、現實情緒、政治參與
嚴刑峻法、未來展望、政治冷感
系統性世界觀偏差:
道德偏保守、情緒偏悲觀、參與感偏高
JS > 0.35
MAE > 20%
必須真人調查

三大系統性偏差(已驗證)

道德保守偏差

LLM 的道德標準比真實台灣社會保守。Alignment training 將儒家孝道當成 universal norm。

Q67 婆媳爭吵:真實「沒有錯」→ AI「相當錯」
Q68 送養老院:真實「沒有錯」→ AI「有點錯」
Morality section 方向正確率:0%

悲觀情緒偏差

LLM 系統性低估台灣社會的現實樂觀程度。對未來展望一律偏向負面。

Q39 未來五年:真實「差不多」→ AI「會變差」
Q41 社會發展:真實「有點樂觀」→ AI「有點悲觀」
Outlook section 方向正確率:0%

Western Liberal 偏差

LLM 按照西方自由主義的預設重新排列台灣人的價值觀。自由端命中,威權端全錯。

Q79c 嚴刑峻法:台灣多數「贊成」→ AI「不贊成」
Q79i 法官聽行政:台灣多數「贊成」→ AI「不贊成」
Democracy 威權傾向子題方向正確率:0%

客戶帶著問題來,系統自動分配最佳處理方式

四步判斷流程,第一個命中的就是答案。不是所有問題都需要 AI——誠實告訴客戶什麼時候不需要,反而建立信任。

1

有沒有歷史行為數據?

過去的選舉結果、銷售記錄、網站轉化率

→ 統計引擎
MAE 1.8%
2

是否為高曝光的價值觀議題?

全社會都在討論、媒體大量報導的公共辯題

→ AI 引擎(高信心)
JS < 0.15
3

LLM 的 Western liberal prior 跟本地多數同向?

進步價值觀跟台灣主流意見是否一致

同向 → AI 引擎(中等)
反向 → 真人調查
4

是否為沉默多數的私人感受?

日常情緒、政治冷感、生活滿意度——人們不會在網路上討論的事

→ 盲區
需真人調查

我們跟 Aaru、Simile 有什麼不同

市場上的合成人口公司各有定位。TwinTwin 的差異化在於:雙引擎架構 + 透明的偏差邊界標記 + 台灣在地數據優勢。

維度AaruSimileListen LabsTwinTwin
方法 純合成人口
不用真人數據
真人數據 + 數位孿生
訪談後建模
AI 主持真人訪談
100萬+ 訪談
統計 + AI 雙引擎
自動選最佳路徑
最強驗證 EY 財富報告
90% 相關性
CVS Health
80-85% 準確率
Microsoft / Canva
規模化訪談
公投 MAE 1.8%
+ 30 題偏差地圖
偏差透明度 不公開
只報成功案例
有限
未見系統性分析
不適用
用真人回答
完全公開
3 大偏差 + 30 題診斷
在地化 美國為主
基於 US Census
美國為主 全球
但需真人
台灣深耕
村里級人口 + 選舉 + TSCS
估值 / 融資 $1B(A 輪) $100M(A 輪) $69M Pre-seed

我們是誰

TT

TwinTwin 核心團隊

我們相信 AI 模擬的價值不在於假裝完美,而在於精確標記自己的邊界。當客戶知道系統「在哪裡不準」,他們才能做出真正有信心的決策。

聯絡我們:ken@ciaodigi.com

準備好用透明的 AI 做決策了嗎?

下載完整技術白皮書,了解 TwinTwin 如何精確標記 AI 的能力邊界。

下載白皮書 →