TwinTwin 是第一個精確標記 AI 模擬偏差邊界的社會數位孿生系統。
雙引擎架構:統計引擎處理有歷史數據的場景,AI 引擎處理未知場景——每個預測都附帶信心等級。
焦點小組耗時數月且充滿偏誤。Aaru 等 AI 模擬器能縮短至數小時,但它們不告訴你預測在什麼條件下會失準——直到你做了錯誤的商業決策。
EY 全球財富報告需要 3,600 人、30+ 市場、6 個月實地調查。中小企業根本負擔不起。
Aaru 報告 90% 相關性,但從不公佈 failure modes。你不知道那 10% 的錯誤會不會剛好落在你最重要的決策上。
我們精確標記每個預測的信心等級。統計引擎 MAE 1.8%(有數據時),AI 引擎附帶偏差診斷(無數據時)。
系統自動判斷每個問題的最佳處理路徑。有歷史數據時用統計引擎(快速、精準),無歷史數據時用 AI persona 引擎(靈活、附帶偏差標記)。
7,700 個村里的人口結構、政黨傾向、城鄉分類。在有歷史 proxy 的場景中,LLM 完全多餘。
MAE 1.8% · 四案公投一致 · SHAP 白盒解釋在無歷史 proxy 的場景中,用 AI agent 模擬人口的態度分布。每題附帶 JS Divergence 信心指標。
高曝光議題 JS < 0.15 · 一般議題 JS 0.15–0.35 · 偏差警告區 JS > 0.35嚴格控制虛擬社會中的資訊流動。KOL 可廣播、平民只能 1-to-1。記憶庫完全隔離,防止跨角色資訊污染。
攔截率 100% · 全流程可稽核每個 Sprint 都產出了可驗證的結論。包括負結果——我們認為誠實展示失敗比隱藏它更有價值。
用 DSPy MIPROv2 優化 prompt,期望提升投票精度。
基線 MAE:16.99%優化後 MAE:20.81%(更差)XGBoost 用年齡結構、政黨傾向、城鄉分類預測村里同意率。
10-Fold CV MAE:1.79% ± 0.05%Holdout MAE:0.38%測試 LLM 能否在統計模型之上提供增量價值。
純統計 CV MAE:4.45%+LLM 態度 CV MAE:4.60%(無改善)30 題態度調查(經濟、民主、家庭、道德、政治)。與 1,855 人面訪結果比對。
方向正確率:53.3%(16/30 題)高準確題(JS < 0.15):3 題(同婚、生活圓滿、反威權)中等題(JS 0.15–0.35):18 題失準題(JS ≥ 0.35):9 題基於 30 題 × 1,855 人真實調查的交叉驗證。這是 Aaru 從未公佈過的資訊。
| 信心等級 | 題目類型 | 偏差機制 | 預期精度 | 處理建議 |
|---|---|---|---|---|
| 高信心 | 高曝光共識議題 同婚、國族認同、基本民主原則 |
訓練資料信號強,AI 已校準 | JS < 0.15 MAE < 8% |
直接使用 AI 引擎 |
| 中等 | 制度性與社會政策議題 宗教、家庭、經濟態度、民主細節 |
方向多正確,但分布過度集中(中心偏差) | JS 0.15–0.35 MAE 8–18% |
AI 初篩 + 小樣本驗證 |
| 低信心 | 道德判斷、現實情緒、政治參與 嚴刑峻法、未來展望、政治冷感 |
系統性世界觀偏差: 道德偏保守、情緒偏悲觀、參與感偏高 |
JS > 0.35 MAE > 20% |
必須真人調查 |
LLM 的道德標準比真實台灣社會保守。Alignment training 將儒家孝道當成 universal norm。
LLM 系統性低估台灣社會的現實樂觀程度。對未來展望一律偏向負面。
LLM 按照西方自由主義的預設重新排列台灣人的價值觀。自由端命中,威權端全錯。
四步判斷流程,第一個命中的就是答案。不是所有問題都需要 AI——誠實告訴客戶什麼時候不需要,反而建立信任。
過去的選舉結果、銷售記錄、網站轉化率
全社會都在討論、媒體大量報導的公共辯題
進步價值觀跟台灣主流意見是否一致
日常情緒、政治冷感、生活滿意度——人們不會在網路上討論的事
市場上的合成人口公司各有定位。TwinTwin 的差異化在於:雙引擎架構 + 透明的偏差邊界標記 + 台灣在地數據優勢。
| 維度 | Aaru | Simile | Listen Labs | TwinTwin |
|---|---|---|---|---|
| 方法 | 純合成人口 不用真人數據 |
真人數據 + 數位孿生 訪談後建模 |
AI 主持真人訪談 100萬+ 訪談 |
統計 + AI 雙引擎 自動選最佳路徑 |
| 最強驗證 | EY 財富報告 90% 相關性 |
CVS Health 80-85% 準確率 |
Microsoft / Canva 規模化訪談 |
公投 MAE 1.8% + 30 題偏差地圖 |
| 偏差透明度 | 不公開 只報成功案例 |
有限 未見系統性分析 |
不適用 用真人回答 |
完全公開 3 大偏差 + 30 題診斷 |
| 在地化 | 美國為主 基於 US Census |
美國為主 | 全球 但需真人 |
台灣深耕 村里級人口 + 選舉 + TSCS |
| 估值 / 融資 | $1B(A 輪) | $100M(A 輪) | $69M | Pre-seed |
我們相信 AI 模擬的價值不在於假裝完美,而在於精確標記自己的邊界。當客戶知道系統「在哪裡不準」,他們才能做出真正有信心的決策。
聯絡我們:ken@ciaodigi.com