Polyglot Concordance / 方法论

关于 Polyglot Concordance

这是一项试点。 当前范围仅限马可福音。完整计划 — 包括其他新约书卷、希伯来圣经的旗舰项目、更多文本见证、导出格式以及两个规划中的子项目 — 已在下方 路线图中列出.

马可福音的逐词对齐,跨越三种文本见证 — 希腊文新约、叙利亚文别西大译本与拉丁文克莱孟版武加大译本 — 并在每一处歧异处附有一至两句的批注说明。

作者 Jossi Fresco Benaim 0009-0000-2026-0836

方法论

马可福音的每一节经文都已通过 Anthropic 的 Claude Sonnet 4.5(经由 Batch API)在三种文本见证之间逐词对齐。每个对齐组都记录了一项异文判定alignedminormajoromittedadded — 加上一种语义类型(一致、构造、协和化、替换、习语等),并对每一个未对齐组提供一至两句适合作为批判性批注的说明。

结果均为预先计算并以每节经文一份 JSON 文件的形式存于代码库中 — 运行中的浏览器无任何运行时 LLM 依赖。

方法论验证(及其局限)

我们在希腊文→英文逐词对齐这一狭义子任务上,将 Claude 的对齐推理与 Berean Interlinear Bible 进行了合理性核验。在全部 673 节马可福音经文(共 6175 个计分词元)中,Claude 与 Berean 的学术性英译注解在 67.7% 的词元上保持一致(4182 / 6175)。该结果记录于 2026-04-23T06:26:59.983024+00:00,使用 claude-sonnet-4-5

其余约 32% 的不一致主要源自 Berean 与 WEB(涉及的两种英文译本)在选词上的差异 — 例如对同一希腊词 ὄχλος,Berean 译作 “crowd”,WEB 译作 “people” — 而非对齐错误。

这意味着什么:它是一项可迁移的合理性检验,并非正确性的保证。Claude 的希腊文→英文对齐逻辑与一份成熟的学术性逐行对照译本一致,这排除了灾难性的失败模式,并表明本浏览器中的希腊文 / 别西大 / 武加大三方对齐采用的是同样合理的推理。它并不直接衡量别西大或武加大对齐的质量(不存在可作基准的真值参照),也不衡量批注说明的质量、异文分类或类型标签的正确性。

Berean 仅作为方法论的基准使用 — 绝不会作为浏览器中的展示数据。

浏览器灵感来源

本视图采用平行列的呈现方式与绿 / 红(轻微对比重大)异文配色,灵感来自 Dr. Zhan Chen(陈博士,United International College — BNU-HKBU UIC,珠海,数字社会科学副教授兼历史与文化研究中心特聘副研究员)所打造的 bible-mt5 平行视图。陈博士本人的学术研究聚焦于叙利亚文圣经文本(博士论文:An Investigation into the Peshitta of Isaiah,Harvard NELC,2020)以及汉语圣经翻译。

数据来源

希腊文新约(带标注)
STEP Bible TAGNT,来自 Tyndale House Cambridge,CC BY 4.0,经由 github.com/STEPBible/STEPBible-Data
别西大新约
经由 Aramaic Root Atlas 语料库(Jossi Fresco Benaim) — 叙利亚文文本,以 CSV 形式打包。
克莱孟版武加大译本
公有领域,经由 seven1m/open-bibles(USFX)
经文英文译注
World English Bible(WEB),公有领域
别西大词根、同源词与姊妹根
Aramaic Root Atlas(Jossi Fresco Benaim) — 三辅根抽取、姊妹根识别以及希伯来文 / 阿拉伯文同源词映射。本视图在别西大词元上的点击浮窗即依赖这一层数据。
对齐验证基准
Berean Interlinear Bible — 仅用于方法论核验 (在 673 节经文的抽样上达到 67.7% 的一致率).
对齐生成
Anthropic Claude Sonnet 4.5

API

驱动渲染版浏览器的同一份产物,也以公开只读的 JSON API 形式开放在 /api/v1/。CORS 全开放、边缘缓存、附 OpenAPI 文档 — 任何工具都可直接获取对齐数据、搜索索引或语料 manifest,而无需抓取 HTML 或克隆代码库。

所有端点均为 CORS 开放且边缘缓存。许可:派生对齐数据采用 CC BY 4.0;再分发时请致谢上游来源。

相关工作

Peshitta Constellations
peshitta.onrender.com — 探索别西大语料库的姊妹项目。
Aramaic Root Atlas
aramaic-root-atlas.onrender.com — 跨语料的闪族语三辅根浏览器,附希伯来文与阿拉伯文同源词映射。本视图浮窗层所使用的别西大词根数据即来自此处。
BibCrit
bibcrit.app — 用于文本分析的圣经批判工作台。

本应用的适用场景

底层引擎是一个带批判性批注的多见证平行文本浏览器。任何文本只要存在多个版本,本工具就能将它们并排呈现,附以逐词对齐与已注解的歧异。

圣经学术研究

教学

翻译工作

面向读者的探索

路线图

近期规划

扩展书卷覆盖范围

新约(延续当前范围):

希伯来圣经 / 塔纳赫(独立的旗舰项目):

次经 / 旁经

扩展文本见证覆盖范围(在当前书卷之内)

浏览器功能

导出

子项目

节次划分

经节标号遵循 NA28 的编号方式。克莱孟版武加大译本在某些章节中采用了不同的分节方式;在必要之处(尤其是马可福音第 9 章及马可福音 4:40–41),我们已将武加大文本重新映射至 NA28 的边界。完整的修改清单参见代码库中的 known-issues.md

许可与再利用

本浏览器代码计划在项目获得公共资助后以开源许可发布。所派生的对齐 JSON 来自混合许可的资料源(CC BY 4.0、公有领域);任何未来的再分发都将致谢上游来源。

联系方式

欢迎反馈 — jossi@somosunodigital.com.