Polyglot Concordance / 方法論

關於 Polyglot Concordance

這是一項試點。 當前範圍僅限馬可福音。完整計劃 — 包括其他新約書卷、希伯來聖經的旗艦專案、更多文字見證、匯出格式以及兩個規劃中的子專案 — 已在下方 路線圖中列出.

馬可福音的逐詞對齊,跨越三種文字見證 — 希臘文新約、敘利亞文別西大譯本與拉丁文克萊孟版武加大譯本 — 並在每一處歧異處附有一至兩句的批註說明。

作者 Jossi Fresco Benaim 0009-0000-2026-0836

方法論

馬可福音的每一節經文都已透過 Anthropic 的 Claude Opus 4.8(經由 Batch API)在三種文字見證之間逐詞對齊。每個對齊組都記錄了一項異文判定alignedminormajoromittedadded — 加上一種語義型別(一致、構造、協和化、替換、習語等),並對每一個未對齊組提供一至兩句的批註式註釋。其輸出是一份機器生成的對齊草稿,意在作為學者審閱的起點,而非權威性的批判版。

結果均為預先計算並以每節經文一份 JSON 檔案的形式存於程式碼庫中 — 執行中的瀏覽器無任何執行時 LLM 依賴。

方法論驗證(及其侷限)

我們在希臘文→英文逐詞對齊這一狹義子任務上,將 Claude 的對齊推理與 Berean Interlinear Bible 進行了合理性核驗。在全部 673 節馬可福音經文(共 6175 個計分詞元)中,Claude 與 Berean 的學術性英譯註解在 67.7% 的詞元上保持一致(4182 / 6175)。該結果記錄於 2026-04-23T06:26:59.983024+00:00,使用 claude-sonnet-4-5

其餘約 32% 的不一致主要源自 Berean 與 WEB(涉及的兩種英文譯本)在選詞上的差異 — 例如對同一希臘詞 ὄχλος,Berean 譯作 “crowd”,WEB 譯作 “people” — 而非對齊錯誤。

這意味著什麼:它是一項可遷移的合理性檢驗,並非正確性的保證。Claude 的希臘文→英文對齊邏輯與一份成熟的學術性逐行對照譯本一致,這排除了災難性的失敗模式,並表明本瀏覽器中的希臘文 / 別西大 / 武加大三方對齊採用的是同樣合理的推理。它並不直接衡量別西大或武加大對齊的質量(不存在可作基準的真值參照),也不衡量批註說明的質量、異文分類或型別標籤的正確性。

Berean 僅作為方法論的基準使用 — 絕不會作為瀏覽器中的展示資料。

執行間的穩定性已經測量,且並不完美。已發布的語料(v2.0.0,Claude Opus 4.8)是一次仍會因執行而變化的生成過程的樣本:在 Opus 4.8 上對馬可福音第 13 章進行的兩次獨立執行,對齊組成員關係僅有約 76% 重合,共享組上的判定一致率為 90%,語義型別一致率為 76% — 也就是說,約有四分之一的組在不同次執行之間不穩定。模型自報的置信度(約 0.86)經過對正確性的校準,不應被視作品質訊號。從 Sonnet 4.5(語料 v1.0.0)升級到 Opus 4.8(v2.0.0),在準確性(4 個人工核驗的批註錯誤全部避免,其中一個是 Sonnet 系統性重複的)和一致性(組成員關係一致率 +11 個百分點)兩方面都帶來了可測量的改進,但兩者都未被消除。本語料最好被視為機器生成的對齊草稿,而非權威性的批判版。

瀏覽器靈感來源

本檢視採用平行列的呈現方式與綠 / 紅(輕微對比重大)異文配色,靈感來自 Dr. Zhan Chen(陳博士,United International College — BNU-HKBU UIC,珠海,數字社會科學副教授兼歷史與文化研究中心特聘副研究員)所打造的 bible-mt5 平行檢視。陳博士本人的學術研究聚焦於敘利亞文聖經文字(博士論文:An Investigation into the Peshitta of Isaiah,Harvard NELC,2020)以及漢語聖經翻譯。

資料來源

希臘文新約(帶標註)
STEP Bible TAGNT,來自 Tyndale House Cambridge,CC BY 4.0,經由 github.com/STEPBible/STEPBible-Data
別西大新約
經由 Aramaic Root Atlas 語料庫(Jossi Fresco Benaim) — 敘利亞文文字,以 CSV 形式打包。
克萊孟版武加大譯本
公有領域,經由 seven1m/open-bibles(USFX)
經文英文譯註
World English Bible(WEB),公有領域
別西大詞根、同源詞與姊妹根
Aramaic Root Atlas(Jossi Fresco Benaim) — 三輔根抽取、姊妹根辨識以及希伯來文 / 阿拉伯文同源詞對映。本檢視在別西大詞元上的點選浮窗即依賴這一層資料。
對齊驗證基準
Berean Interlinear Bible — 僅用於方法論核驗 (在 673 節經文的抽樣上達到 67.7% 的一致率).
對齊生成
Anthropic Claude Opus 4.8

API

驅動渲染版瀏覽器的同一份產物,也以公開唯讀的 JSON API 形式開放在 /api/v1/。CORS 全開放、邊緣快取、附 OpenAPI 文件 — 任何工具都可直接取得對齊資料、搜尋索引或語料 manifest,而無需抓取 HTML 或複製程式碼庫。

所有端點均為 CORS 開放且邊緣快取。許可:派生對齊資料採用 CC BY 4.0;再分發時請致謝上游來源。

相關工作

Peshitta Constellations
peshitta.onrender.com — 探索別西大語料庫的姊妹專案。
Aramaic Root Atlas
aramaic-root-atlas.onrender.com — 跨語料的閃族語三輔根瀏覽器,附希伯來文與阿拉伯文同源詞對映。本檢視浮窗層所使用的別西大詞根資料即來自此處。
BibCrit
bibcrit.app — 用於文字分析的聖經批判工作臺。

本應用的適用場景

底層引擎是一個帶 AI 生成對齊與批註的多見證平行文字瀏覽器。任何文字只要存在多個版本,本工具就能將它們並排呈現,附以逐詞對齊與已註解的歧異。

聖經學術研究

教學

翻譯工作

面向讀者的探索

路線圖

近期規劃

擴充套件書卷覆蓋範圍

新約(延續當前範圍):

希伯來聖經 / 塔納赫(獨立的旗艦專案):

次經 / 旁經

擴充套件文字見證覆蓋範圍(在當前書卷之內)

瀏覽器功能

匯出

子專案

節次劃分

經節標號遵循 NA28 的編號方式。克萊孟版武加大譯本在某些章節中採用了不同的分節方式;在必要之處(尤其是馬可福音第 9 章及馬可福音 4:40–41),我們已將武加大文字重新對映至 NA28 的邊界。完整的修改清單參見程式碼庫中的 known-issues.md

許可與再利用

本瀏覽器程式碼計劃在專案獲得公共資助後以開源許可釋出。所派生的對齊 JSON 來自混合許可的資料源(CC BY 4.0、公有領域);任何未來的再分發都將致謝上游來源。

聯絡方式

歡迎反饋 — jossi@somosunodigital.com.