當家裡會說故事的人走了,故事怎麼留下來?我們用 LLM Wiki 幫一個家族做了一本活百科

一句話先說: LLM Wiki 是 Andrej Karpathy 在 2026 年初提出的 AI 知識管理方法。AI 不再每次從零檢索,而是主動維護一本會長大的結構化維基,事先把文件消化成互相連結的頁面,還記得資訊之間的因果脈絡。適合家族史保存、企業隱性知識交接、個人深度學習庫。本文用新營一個四代家族的真實案例,拆解它和傳統知識庫(RAG)差在哪、怎麼四週建完、一般人如何開始。
我們花了四週,把一百四十八份散落在雲端、抽屜、錄音筆裡的家族文獻,整理成三十八頁互相連結的活百科。這篇文章拆解怎麼做到的,以及一般人可以怎麼用同一套方法,保住自己讀過的書、走過的路、還有長輩還記得的事。
你的記憶,其實有一大半是漏的
隨手問問自己:
- 去年讀過的那本書,最打動你的段落在哪一頁?
- 上個月聽的 podcast,講到什麼讓你停下腳步?
- 三年前和父親在餐桌上聊到的那個老故事,他提到的是哪條街、哪個親戚?
- 前同事離職前交接過的那份內部知識,現在還在誰的腦子裡?
大部分人答不出來。不是記憶力不好,是記憶從來就不是被動累積的。它需要一個結構持續接住、整理、交叉索引。可是我們每天吸收的資訊量,比整理的速度快得多。
最痛的一種漏,是家裡那個會說故事的長輩走了之後。相簿還在,老房子還在,族譜可能也還在。可是「誰是誰、什麼時候、為什麼」的那張隱形地圖,是和他一起走的。
這不是 AI 變得夠不夠聰明的問題——是我們一直沒有一套好的方法,把個人和家族層級的記憶真正存下來,而且還能繼續長大。
直到 LLM Wiki 出現。
什麼是 LLM Wiki?一張表看懂和知識庫(RAG)的差別
LLM Wiki 這個概念,由 OpenAI 前研究總監 Andrej Karpathy 在 2026 年初以一份 gist 提出。核心主張是:不要讓 AI 每次查資料都從零開始,讓 AI 幫你維護一本會長大的維基百科。
它和市面上常見的知識庫(RAG,檢索增強生成)差在哪?
| 面向 | 知識庫(RAG) | LLM Wiki |
|---|---|---|
| 運作方式 | 問題來了才即時查原始文件 | 事先消化過,寫成高度結構化的互連頁面 |
| 記憶型態 | 每次查詢重新推導 | 持續累積、不斷長大 |
| 交叉索引 | 沒有,或仰賴向量相似度 | 人物/事件/地點自動互連 |
| 矛盾處理 | 碰到就現場猜 | 事先標註、定期校驗 |
| 計算成本 | 集中在查詢時 | 集中在匯入時(低頻、可背景跑) |
| 適合場景 | 單次問答、FAQ 客服 | 知識持續沉澱、長期研究、家族傳記 |
打個比方。
知識庫(RAG)像一個圖書館櫃員。每次你問問題,他就去書架上翻資料、拼湊答案給你,可是書和書之間的關係,他從來沒幫你整理過。
LLM Wiki 則像一個二十四小時不睡覺的維基編輯。你丟一份新的口述訪談逐字稿給他,他不只讀完,還會順手更新這個家族裡提到的十五個人的頁面、三個組織的頁面、五條時間軸。每新增一份來源,可能就動到十到十五頁相關條目。
這個差異在資料量小的時候感覺不明顯。等到原始資料累積到一百多份、涉及的人名地名事件超過一百個,RAG 的答案品質會肉眼可見地崩壞,而 LLM Wiki 會越長越紮實。
一個真實的案例:四代家族、一百四十八份文獻、三十八頁活百科
台南新營大同路七十八巷有一棟一九二三年興建的日式宿舍,原本是日治時期「臺灣生藥株式會社」(俗稱「藥仔會社」)的員工宿舍。戰後由國民政府接收改為公務員宿舍。一九五六年許家以縣府秘書身分入住,之後四代人在這棟房子裡生活了整整六十三年。
二〇一九年家族的阿嬤辭世,宿舍歸還市府。許家第三代倡議成立協會,推動修復工程。二〇二四年九月,這棟百年日式宿舍重新開幕,成為新營地區的文化據點,取名「新東舊時光」。
這個家族留下來的原始素材有多雜?
- 一百四十八份文字文獻:家族歷史文件的多個修改版本、建物修復紀實、家族企業史、藥仔會社歷史考證、文化政策申請書、紀念散文。
- 訪談逐字稿:長子大伯的二〇二五年口述歷史。
- 結構化資料:五十一位家族成員、九間家族相關企業、十二個地點、八十四條時間軸、一百五十七筆事實引用。
這份資料大部分只有兩三個家族成員讀過全貌。每一位成員腦中的版本都不太一樣。很多關鍵細節只在某一份文件裡出現過一次,散落在一百多個 Word 和 PDF 裡。
我們花了四週,把它整理成一個結構化的活百科:
- 十五頁人物條目(從一八一七年出生的祖先,到第三代投入修復工程的家族成員)
- 五頁組織條目(螺絲模具廠、針織廠、代工所,都是許家經營過的事業)
- 五頁地點條目(新東舊時光本身、七股龍山村祖居地、白河古柯農場、日式修復參考案例、舊建材來源的碾米廠)
- 八篇主題文章(藥仔會社史、台灣古柯產業一九一〇到一九六八全史、許氏先祖渡海史、跨海認祖歸宗紀實、家族投資創業史、建築原貌技術調查、修復紀實、一八一七到二〇二五完整時間軸)
- 三頁特殊頁面(導覽指南、口述歷史逐字稿摘要、事實矛盾校驗報告)
共計三十八頁,全部互相連結。點開任何一頁,都能順著連結走進去整張知識網。每一個人名、地名、組織名首次出現時都是可點擊的連結,對應到那個實體的完整頁面。
一個細節:互連的力量
舉一個最小的例子。
某個家族的長子,年輕時因為家裡背著一大筆債,放棄升學機會北上都市打工。那幾年他把生活壓到極簡,將每一分擠出來的薪水直接寄回家供弟妹念書。他的弟弟那一年剛好考上當時全台最頂尖的大學。多年後,這位弟弟在公共領域做到了極具影響力的位置。
這個因果鏈(大哥的犧牲造就了弟弟的成就),在各自獨立的章節裡通常各說各話。大哥的篇章寫他的打工歲月,弟弟的篇章寫他的學術與事業成就,讀的時候得自己把它們拼起來。
在 LLM Wiki 架構裡,這件事會同時出現在兩個人的頁面上。大哥的頁面寫他放棄升學的選擇,以及這個決定如何支撐起弟妹的學費。弟弟的頁面也必須提到大哥的支持,否則他的求學歷程就會變成一個架空的勵志故事。兩邊都互相連結,讀者點哪一頁都看得到完整因果。
這就是互連。單獨讀一頁是一個人的故事;把十五頁人物一起讀,才是一整個家族。
這套方法的一個意外成效:Google 的 AI 已經會講這個故事
新東舊時光修復開幕之後,我們為這座建築產出的文史內容陸續上線到官網和粉專。幾個月之後開始有有趣的現象發生。
在 Google 搜尋輸入「新東舊時光」「藥仔會社」「白河古柯農場」「台灣古柯產業」這類關鍵字,搜尋結果頂端的 AI 摘要(Google AI Overviews)會直接引用我們寫過的內容來回答使用者。ChatGPT、Gemini、Perplexity 這些大模型被問到相關文史問題時,也會複述我們整理過的細節。甚至關於這個家族的歷史背景,這些 AI 入口也能順著我們建立的交叉引用給出像樣的回答。
這是一個意外的成效,回頭看卻是必然的。當 AI 搜尋(而不是「翻第二頁搜尋結果」)變成多數人的資訊入口時,誰能被 AI 讀懂、信任、引用,就決定了誰會被看見。
有結構、有來源標註、互相連結的 wiki 內容,比一篇漂亮但孤立的長文,更容易進入 AI 的 retrieval 結果。而內容本身的正確性,則反過來決定 AI 生成的答案品質。
LLM Wiki 不只是幫你整理知識。它是在 AI 搜尋時代,讓一個人、一個家族、一個組織的知識被正確呈現的基礎建設。
LLM Wiki 怎麼建?四週流程拆解
這套流程不是魔法。以新東舊案子為例,四週的實際動作:
第一週:盤點與脈絡梳理
把所有資料收進同一個資料夾。Word、PDF、錄音檔(音檔要先用 Whisper 或 Gemini 轉成逐字稿)、照片(建議先掃描加註)、email 截圖。
每份檔案加一行 metadata:來源、類型、分類、是否定稿。這一步的目的是讓 AI 知道哪些資料的權重較高、比較可信。
第二週:實體抽取
用 Claude Opus 或 Gemini 3.1 Pro 這種大上下文視窗的模型,分批讀原始文獻,抽出結構化的實體(人名、組織、地名、事件、時間軸),存成 JSON。
這一步最怕的是壓縮過度。有一次我們整理一份資料時,把「台大經濟系→台大碩士→史丹佛博士」壓成「史丹佛博士」,結果下游的 wiki 頁面產出時完全少掉了台大這段。後來我們訂了四條壓縮紅線:學歷完整路徑、關鍵人生轉折點、人物間因果鏈、建築空間的時序變化。這四條不允許省略。
第三週:知識網編織
為每個實體寫一頁 wiki。人物頁有固定結構(生平、家庭、成就、相關條目),組織頁、地點頁、主題文章各有不同模板。每一段重要敘述都要標註原始來源,並建立跨頁面的 [[wikilink]] 連結,讓整個知識網能互相跳轉。
第四週:矛盾校驗與交付
跑一輪 Lint 檢查,抓出以下問題:
- 孤頁(沒有其他頁面連過來的頁面,通常代表遺漏了背景鋪陳)
- 斷連(連結指到不存在的頁面)
- 矛盾(不同頁對同一件事有不同描述)
- 缺頁(被多次提到但沒有獨立頁面的實體)
同一件事,大伯的記憶和二姑的筆記可能完全相反。我們不假裝其中一方是真的,而是透過交叉比對明確標註這些矛盾,把不確定性本身也當作一種知識留下來。
新東舊案子最終的校驗結果是零斷連、零孤頁。校驗報告本身也成為 wiki 的一頁,追蹤九項已解決的事實歧異。之後新資料進來,走同樣的流程。不是重蓋,是追加。
一般人可以用 LLM Wiki 做什麼?五個入門場景
這套方法不是只能拿來做家族史。只要你有「知識持續累積但一直散」的痛點,都適用。
一、讀書筆記
每讀完一本書,不是寫一篇心得就丟著,而是把書中的人物、概念、引文更新到個人百科。讀第十本書時,你會發現它的某個觀點呼應第三本書的論點、反駁第七本書的結論。這種跨書的思辨連結,人腦記不住,Wiki 記得住。
二、興趣深挖
三國、紅樓夢、某個樂團、某位導演、某段歷史。粉絲維基(像 Tolkien Gateway)之所以豐富,是因為幾千個人花幾十年累積。一個人建不起來,一個人加上 LLM 可以。
三、家族史
長輩口述、老照片、族譜、老信件、土地公契。台灣很多家族橫跨日治/戰後/工業化/兩岸三地,資料格式比西方家族雜亂得多,也因此特別值得建。
四、個人日記轉成自我知識庫
散落五年的日記,整理後你能看見自己反覆踩進哪些情緒的泥淖、哪些一直沒解決的人際課題、哪些想法在不同時期的轉變。這是 ChatGPT 做不到的:它沒有你的記憶軸線。我們建置 Soul Matrix 陪伴系統時就是這個邏輯的產品化實踐:把個案的深度語境持續累積下來,每次對話都站在過去的肩膀上。
五、健康與心理紀錄
症狀、情緒、飲食、運動、睡眠的互連筆記。當醫生問起「最近有沒有什麼變化」,你能攤開清晰的軌跡,而不是在一片模糊的體感中打轉。
為什麼 LLM Wiki 特別適合台灣家庭
有幾個很具體的理由:
方言、舊地名、戒嚴前後的脈絡。 這些資訊 ChatGPT 的訓練資料裡很稀薄。日治時期的「庄」和戰後的「鄉鎮」、白色恐怖時期某個親戚「被請去」的背景、某個夜市原本是哪條圳溝填起來的,長輩記得,國際大模型不一定知道。
家族企業的商業史。 台灣戰後的中小企業很多是靠家族網絡起來的,這段歷史只有家人和老員工記得,幾乎沒有被系統化記錄過。
口述歷史會隨長輩辭世消失。 這一點最急迫。一個還在世的長輩,每一次訪談都比任何後期的考證值錢十倍。
跨格式、跨語言的資料整合。 老信件可能是手寫繁體、老相簿標註是日文、家族歷史文件是打字機年代的檔案、最新的訪談是 mp3 錄音。要一次整合這些,LLM Wiki 是目前最順的做法。
開始你自己的 LLM Wiki:三個最小可行做法
先用一張表快速對照三個路徑:
| 方案 | 適用對象與工具 | 核心差異 |
|---|---|---|
| 方案一:DIY 免費版 | 熟悉筆記軟體(Obsidian)+ AI 編輯器(Claude Code/Cursor) | 需自行摸索架構、手動清理髒資料,省下建置費用 |
| 方案二:輕量入門 | Notion + ChatGPT Project 或 Gemini Gem | 門檻最低,但互連維護需要人手跟進,超過五十頁會吃力 |
| 方案三:芯覺專業建置 | 適合家族傳記、家族 WIKI、文化場域、企業知識傳承 | 零技術門檻,四週內完整交付私有化部署的互連活百科 |
方案一:DIY 免費版(技術門檻中等)
工具:Obsidian(筆記軟體)+ Claude Code 或 Cursor(AI 編輯器)。你自己把原始資料放進資料夾,寫一個 CLAUDE.md 或 AGENTS.md 當作 schema,讓 AI 依照規則維護 wiki。Karpathy 的原始 gist 就是這樣做的。
方案二:輕量入門(最低門檻)
工具:Notion + ChatGPT Project 或 Gemini Gem。把資料上傳到 Project,讓 AI 寫 Notion 頁面。缺點是互連維護仍然需要人手動跟進,規模到五十頁以上會吃力。
方案三:專業建置(適合家族傳記、家族 WIKI、文化場域、企業知識傳承)
這是芯覺的核心業務。我們提供的不只是傳統的家族傳記撰寫,而是「家族傳記 + LLM Wiki」的完整架構。既保留傳記的敘事深度,又具備維基百科的結構性、可查性、互相連結性。個人、家族、企業都適用。
內部方法論是一套跨專案可複製的 LLM Wiki SOP(引擎共用、專案資料獨立、含 SQLite 結構化查詢和健康儀表板),適合需要整合一百份以上原始素材、要求高品質交付的場景。先前我們建置 稅務 AI 助手時,就是把上千頁稅務法規 PDF 結構化成可精準查詢的知識庫,是同一套方法論在另一個垂直領域的實證。
新東舊時光是這套方法論的第一個完整落地案例。這座建築的官網、粉專敘事以及背後的文史整理,都由芯覺一手建置。目前在日治時期台灣古柯產業史、藥仔會社、白河古柯農場、新東舊時光文史這些主題上,除了新東舊時光自己的官方通路之外,芯覺累積的結構化內容是目前最深的第三方來源。
DIY 自己做 vs 找芯覺做:一張表的差別
| 維度 | DIY 自己做 | 找芯覺做 |
|---|---|---|
| 原始素材整理 | 自己敲逐字稿、掃描照片、OCR 建檔 | 我們接手或共同處理,有現成工作流 |
| 壓縮紅線設計 | 自己踩坑自己修 | 四條紅線是我們踩過才定的 |
| 跨頁一致性維護 | 手動搜尋檢查 | lint 腳本 + SQLite FTS5 自動跑 |
| 新資料追加 | 每次重新思考要改哪些頁 | SOP 化 10–15 頁聯動更新 |
| 跨專案複製 | 重蓋一次 | engine 共用、換 config 即可 |
| 整體門檻 | 自己先花幾個月摸索結構化技能 | 帶著想保留的資料來就好 |
如果你就是喜歡動手做、時間不是限制,方案一是你的。如果你希望把這件事像「雇一個記憶管家」一次到位,方案三是我們的服務。
不管走哪條路,核心原則一樣:讓 AI 負責整理和維護,人負責提供素材、提問、校驗。
常見問題
建立 LLM Wiki 或 AI 知識庫,需要多少資料量才能開始?
沒有絕對的最低門檻。即使只有十篇長輩的訪談逐字稿、或五十篇個人讀書筆記,都能建置出初步的活百科。系統的價值在資料的深度與互相連結的關聯性,不是字數。資料越多、越雜、跨格式,LLM Wiki 的價值差距就越明顯。
LLM Wiki 和 ChatGPT 的「記憶功能」差在哪?
ChatGPT 的記憶功能是側寫式的偏好記錄(例如記住你叫什麼、喜歡什麼語氣)。LLM Wiki 是一套持續長大的結構化知識庫,有明確的頁面、交叉引用、來源追溯。前者適合個人化對話,後者適合知識累積。
我不會寫程式,可以做嗎?
可以。方案二(Notion + ChatGPT)幾乎不需要技術知識。方案一需要會用 Claude Code 之類的 AI 編輯器,不用寫傳統程式碼,靠自然語言和 AI 對話就能做很多。
建一個 LLM Wiki 要多少時間?
看原始資料量。家族史若有五十份以內的文獻,兩週可以做到堪用。一百多份、涉及四代人物的規模,四週是合理的預期。後續維護每份新資料大約一到兩小時處理時間。
資料很敏感(家族隱私或商業機密)怎麼辦?
採用私有化部署。讓 AI 跑在你自己的雲端帳號(GCP/AWS)或地端機器上,資料完全不出門。保護隱私與捍衛資料主權是我們處理任何專案的第一原則,關於這個主題另外有一篇專文:《企業 AI 的資料主權:雲端 vs 私有化部署怎麼選?》。
長輩已經不在了,只剩散的照片和錄音,還能建嗎?
能。照片可以做 OCR 辨識文字+註解人物、錄音可以轉逐字稿、散的信件和日記都是很好的原始素材。難度會比長輩還在世時訪談來得高,也正是 LLM Wiki 最有價值的場景之一:把散亂的碎片,重新連成一張完整的地圖。
為什麼找芯覺:我們自己就是 AI 加速最直接的樣本
方法論再好,聽起來還是像別人的故事。芯覺不一樣的地方是:創辦人 Max 本人就是 LLM Wiki 這套加速效應最直接的樣本。
他不是突然被 AI 武裝起來的人。
- 政大中文碩士。 多年的文獻考證、文本結構化、一手史料整理訓練。讀資料、辨真偽、拆敘事脈絡,是他十幾年前就有的基本功,不是 AI 給的能力。
- NGH 國際認證催眠師/講師。 對語言背後的意圖、語氣的真偽、敘事的心理力量、人在說自己故事時的防衛與鬆動,他有比多數工程師更深的敏感度。
- 全端工程師 × AI 開發者。 從 LINE Bot 客服到 RAG 知識庫、從 Gemini/Claude API 到 Cloud Run 部署,從資料切塊策略到 prompt 工程,他都親手跑過一輪。
換句話說,他本來就是一個懂結構、懂研究、會拆敘事、會寫程式的人。這套「手動做 → AI 放大」的加速之所以走得通,前提是這些底層能力早就在了。
新東舊時光的 LLM Wiki 能在四週內完成,前提是 Max 花了整整三年多的時間手工累積這套 raw layer。那個階段還沒有現在這一波 AI 可以用,他就是一場一場訪談、一卷一卷聽錄音敲逐字稿、一張一張老照片 OCR 建檔、一本一本文件人工分類標記。這些苦功夫 AI 做不了,它需要的是人對現場的判斷、對語氣真偽的捕捉、對微小細節的懷疑。
AI 進場的時機,是在這些原始素材大致就位之後。有了紮實的 raw layer,我們才能在四週內把一百四十八份文獻先整理成 RAG,再升級成更精準的 LLM Wiki 架構。
這個順序很重要:LLM Wiki 不是跳過人工累積的捷徑,它是讓人工累積的價值被放大一百倍的乘法器。
這件事翻過來看,就是芯覺對你的承諾
你不需要先花三年變成一個懂結構、懂研究、會寫 prompt 的人,才能開始做家族傳記、個人知識庫或企業內部 wiki。
如果你就是小白,也不想把人生切幾塊去學結構化、研究方法、AI 工程,可以直接來找芯覺。 我們已經走過那段路,你省下的是最昂貴的部分:前三年的手工打底、前三年的踩坑、前三年把三個不同領域(人文、心理、技術)焊在一起的養成。
這不是話術,是我們自己做過一次才能說的話。
對個人、家族、企業分別意味著什麼
對個人: 你讀過的書、走過的地方、做過的專案、想過的事,原本只能憑記憶或散落的筆記存在。有了 LLM Wiki,它們變成可查、可交叉引用、隨時間複利成長的自我知識體系。你問自己三年前的那個想法是什麼,不再只能翻手機備忘錄,而是問一個讀過你所有紀錄的 AI。
對家族: 長輩的記憶是一次性資源。只要還有人在,訪談、錄音、老照片、老信件、老契約都能持續轉化成結構化的家族傳記與家族 WIKI。家族走過的路不只是故事,是可以被下一代繼承的結構。三代之後的小孩問「為什麼我們家的姓是這個」,答案會清晰地留存在頁面裡。
對企業: 創辦人的商業直覺、資深員工的客戶判斷、內部 SOP 的隱性 know-how,這些是新人學最慢、離職就帶走的東西。我們建置 矽姬 LINE AI 客服時就深刻體會到,一套結構化的知識庫是讓組織記憶脫離個人、繼續在組織裡活下去的基礎建設。不只是文件庫,是一張會長大的神經網。
記憶是一間可以愈住愈大的老房子
不是每個家族都有能力修一棟百年古蹟。可是每個家族、每個人、每間公司都有自己的「老房子」:在長輩的記憶裡、在散落的照片裡、在還沒整理的信件裡、在一年年發出卻從沒人回頭讀的內部 email 裡。
那棟房子能不能傳下去,取決於有沒有人開始把它整理下來。而一旦開始整理,AI 是目前最強的放大器。
畢竟,溝通就像寫 Code,給對 Prompt,潛意識就會自動執行。老故事要留下來的邏輯,也是一樣的。
想為家族、個人或企業建一套 LLM Wiki? 歡迎跟我們聊聊。不用準備任何技術知識,帶著你想保留的那些故事、書單、資料來就好。聯絡芯覺 →
延伸閱讀:

Max(范姜冠閎)
政大中文碩士 · Google 認證 AI 講師 · NGH 催眠師/講師 · 全端工程師
芯覺數位創辦人。把人文語境翻譯成技術架構,用 AI 重新定義催眠教學與企業服務。
留言區
股東與會員的留言會顯示在這裡。公開留言所有人看得到;私下留言只有創辦人會看到。