关于 Polyglot Concordance

这是一项试点。 当前范围仅限马可福音。完整计划 — 包括其他新约书卷、希伯来圣经的旗舰项目、更多文本见证、导出格式以及两个规划中的子项目 — 已在下方路线图中列出.

马可福音的逐词对齐，跨越三种文本见证 — 希腊文新约、叙利亚文别西大译本与拉丁文克莱孟版武加大译本 — 并在每一处歧异处附有一至两句的批注说明。

作者 Jossi Fresco Benaim 0009-0000-2026-0836

方法论

马可福音的每一节经文都已通过 Anthropic 的 Claude Opus 4.8（经由 Batch API）在三种文本见证之间逐词对齐。每个对齐组都记录了一项异文判定 — aligned、minor、major、omitted 或 added — 加上一种语义类型（一致、构造、协和化、替换、习语等），并对每一个未对齐组提供一至两句的批注式注释。其输出是一份机器生成的对齐草稿，意在作为学者审阅的起点，而非权威性的批判版。

结果均为预先计算并以每节经文一份 JSON 文件的形式存于代码库中 — 运行中的浏览器无任何运行时 LLM 依赖。

方法论验证（及其局限）

我们在希腊文→英文逐词对齐这一狭义子任务上，将 Claude 的对齐推理与 Berean Interlinear Bible 进行了合理性核验。在全部 673 节马可福音经文（共 6175 个计分词元）中，Claude 与 Berean 的学术性英译注解在 67.7% 的词元上保持一致（4182 / 6175）。该结果记录于 2026-04-23T06:26:59.983024+00:00，使用 claude-sonnet-4-5。

其余约 32% 的不一致主要源自 Berean 与 WEB（涉及的两种英文译本）在选词上的差异 — 例如对同一希腊词 ὄχλος，Berean 译作 “crowd”，WEB 译作 “people” — 而非对齐错误。

这意味着什么：它是一项可迁移的合理性检验，并非正确性的保证。Claude 的希腊文→英文对齐逻辑与一份成熟的学术性逐行对照译本一致，这排除了灾难性的失败模式，并表明本浏览器中的希腊文 / 别西大 / 武加大三方对齐采用的是同样合理的推理。它并不直接衡量别西大或武加大对齐的质量（不存在可作基准的真值参照），也不衡量批注说明的质量、异文分类或类型标签的正确性。

Berean 仅作为方法论的基准使用 — 绝不会作为浏览器中的展示数据。

运行间的稳定性已经测量，且并不完美。已发布的语料（v2.0.0，Claude Opus 4.8）是一次仍会因运行而变化的生成过程的样本：在 Opus 4.8 上对马可福音第 13 章进行的两次独立运行，对齐组成员关系仅有约 76% 重合，共享组上的判定一致率为 90%，语义类型一致率为 76% — 也就是说，约有四分之一的组在不同次运行之间不稳定。模型自报的置信度（约 0.86）未经过对正确性的校准，不应被视作质量信号。从 Sonnet 4.5（语料 v1.0.0）升级到 Opus 4.8（v2.0.0），在准确性（4 个人工核验的批注错误全部避免，其中一个是 Sonnet 系统性重复的）和一致性（组成员关系一致率 +11 个百分点）两方面都带来了可测量的改进，但两者都未被消除。本语料最好被视为机器生成的对齐草稿，而非权威性的批判版。

浏览器灵感来源

本视图采用平行列的呈现方式与绿 / 红（轻微对比重大）异文配色，灵感来自 Dr. Zhan Chen（陈博士，United International College — BNU-HKBU UIC，珠海，数字社会科学副教授兼历史与文化研究中心特聘副研究员）所打造的 bible-mt5 平行视图。陈博士本人的学术研究聚焦于叙利亚文圣经文本（博士论文：An Investigation into the Peshitta of Isaiah，Harvard NELC，2020）以及汉语圣经翻译。

数据来源

希腊文新约（带标注）: STEP Bible TAGNT，来自 Tyndale House Cambridge，CC BY 4.0，经由 github.com/STEPBible/STEPBible-Data
别西大新约: 经由 Aramaic Root Atlas 语料库（Jossi Fresco Benaim） — 叙利亚文文本，以 CSV 形式打包。
克莱孟版武加大译本: 公有领域，经由 seven1m/open-bibles（USFX）
经文英文译注: World English Bible（WEB），公有领域
别西大词根、同源词与姊妹根: Aramaic Root Atlas（Jossi Fresco Benaim） — 三辅根抽取、姊妹根识别以及希伯来文 / 阿拉伯文同源词映射。本视图在别西大词元上的点击浮窗即依赖这一层数据。
对齐验证基准: Berean Interlinear Bible — 仅用于方法论核验 (在 673 节经文的抽样上达到 67.7% 的一致率).
对齐生成: Anthropic Claude Opus 4.8

API

驱动渲染版浏览器的同一份产物，也以公开只读的 JSON API 形式开放在 /api/v1/。CORS 全开放、边缘缓存、附 OpenAPI 文档 — 任何工具都可直接获取对齐数据、搜索索引或语料 manifest，而无需抓取 HTML 或克隆代码库。

/api/docs — 由 OpenAPI 3.0 规范渲染的交互式 Swagger UI。
/api/v1/manifest — 语料元数据：文本见证、经文译本、模式版本、完整经节枚举，以及对齐生成的来源说明（含 Berean 基准）。
/api/v1/alignment/{book}/{chapter}/{verse} — 单节经文的规范对齐 JSON — 含每一对齐组的判定、语义类型、批注说明与置信度评分。
/api/v1/verse/{book}/{chapter}/{verse} — 面向展示形态的经文字典 — 文本见证（其 token 已带对齐标签）、异文，以及多语言 gloss_map。
/api/v1/search?q={query} — 跨所有文本见证与异文类型的逐节全文搜索。支持引用跳转（如 13:14）。

所有端点均为 CORS 开放且边缘缓存。许可：派生对齐数据采用 CC BY 4.0；再分发时请致谢上游来源。

本应用的适用场景

底层引擎是一个带 AI 生成对齐与批注的多见证平行文本浏览器。任何文本只要存在多个版本，本工具就能将它们并排呈现，附以逐词对齐与已注解的歧异。

圣经学术研究

文本批判研究 — 观察希腊文新约的某节经文与其别西大译文、武加大译文在何处不一致；每一处歧异都被标注类型（协和化、替换、习语、语法变化等），并以一至两句话加以解释。
对观比较 — 一旦马太 / 马可 / 路加全部上线，便可在三种语言下逐一比对三卷对观福音中的同一段记述。
闪族语平行阅读 — 别西大与希伯来文旧约、塔尔古姆 Onkelos 并列；词根 / 姊妹根的浮窗使同源结构清晰可见。
翻译技巧研究 — 别西大如何处理希腊文分词？武加大如何处理希伯来文绝对不定词？已分类的批注让此类问题能够迅速得到回答。
协和化追踪 — 当某一传统从平行段落引入材料时（例如别西大本马可福音 13:14 从马太福音 24:15 引入「藉先知但以理所说的」），批注会明确标示。

教学

古代语言教学 — 希腊文 / 希伯来文 / 叙利亚文 / 拉丁文的入门学生可在任意词上悬停以获取 Strong's / 词元 / 词法。异文批注让每节经文都成为一堂文本批判课。
比较宗教学 — 一个中立的呈现界面，用以展示不同正典传统如何传抄同一份基础文本。
批判版训练 — 读者通过点击经过整理的示例，先学习学术性批注的*形态*（符号、判定、类型），再去面对印刷版 NA28 / BHS 中密集的体例。本处展示的批注是机器生成的、用于教学目的，不能替代权威版本。

翻译工作

用古代文本见证检验新译本 — 一份当代的西班牙文或中文译本是否与古代传统的多数一致，还是存在显著歧异？
为委员会决策提供依据 — 圣经翻译团队可以在一个可点击的引用中指出某一具体的歧异模式（例如「MT + LXX + 别西大都读作 X；唯有武加大读作 Y」）。

面向读者的探索

带批判性维度的圣经阅读 — 读者无需翻开教科书，便能看到一句熟悉的话语其实有着具有争议的传抄历史。
礼仪比较 — 东正教礼仪使用斯拉夫文 + 希腊文拜占庭文本；天主教使用武加大；东方教会使用别西大。三者皆可并排呈现。

路线图

近期规划

叙利亚文字体选择 — 由用户选择字体（Noto Sans Syriac、Estrangelo Edessa、Serto / Jacobite、East Syriac / Nestorian、Madnhaya），附字形预览与按用户持久化保存。
顶栏中的设置面板 — 将语言、叙利亚文字体、主题与侧栏可见性合并到一个齿轮图标之下；偏好设置在多次会话间保持。

扩展书卷覆盖范围

新约（延续当前范围）：

四福音书 — 马太福音 / 路加福音 / 约翰福音。语料库与对齐流水线已支持。
使徒行传 — 希腊文新约的历史叙事；武加大与别西大已涵盖。
保罗书信 — 罗马书至腓利门书。
普通书信与启示录 — 雅各书、彼得前后书、约翰一二三书、犹大书、启示录。

希伯来圣经 / 塔纳赫（独立的旗舰项目）：

律法书（摩西五经） — 自然的起点。创世记、出埃及记、利未记、民数记、申命记跨马所拉文本（列宁格勒 / 阿勒颇）+ LXX（Rahlfs 或 Swete）+ 别西大旧约 + 武加大旧约 + 撒玛利亚五经（与 MT 间约有 6,000 处具有意义的异文）+ 塔尔古姆 Onkelos + 塔尔古姆 Pseudo-Jonathan 进行对齐。
前先知书 — 约书亚记、士师记、撒母耳记、列王记。
后先知书 — 以赛亚书（陈博士本人博士论文的研究焦点，相关的别西大学术成果丰富）、耶利米书、以西结书、十二小先知书。
死海古卷文本见证（凡现存者，1QIsaᵃ、4QSamᵇ 等） — 其异文读法常与 MT / LXX / 别西大形成颇具研究意义的对照。
圣文集（Ketuvim） — 诗篇、箴言、约伯记、五卷（雅歌、路得记、耶利米哀歌、传道书、以斯帖记）、但以理书、以斯拉记—尼希米记、历代志。

次经 / 旁经：

所罗门智训、便西拉智训、多比传、犹滴传、马加比书、巴录书等 — 与天主教、东正教及埃塞俄比亚正典相关。

扩展文本见证覆盖范围（在当前书卷之内）

英文（WEB）作为头等的第四列，对齐将在四种传统之间重新生成。
希腊文拜占庭文本（多数文本 / TR） — 与 NA28 的差异作为第五列文本见证呈现，对东正教读者与 KJV 谱系读者尤为有用。
东正教中文文本群 — 1751 年斯拉夫文（伊丽莎白圣经）+ 1864 年固里译本（固里，固里·卡尔波夫修士大司祭）+ 1910 年英诺肯提乙译本（英诺肯提乙，英诺肯提乙·菲古罗夫斯基主教）。这三者构成俄国东正教传教士所译古典中文译本的一个对齐家族，对应教会斯拉夫文 + 希腊文礼仪文本。
科普特文（沙希迪克 + 波海里克）。
亚美尼亚文（佐赫拉布圣经）。
埃塞俄比亚文（吉兹文）。
古拉丁 / Latin Vetus — 哲罗姆之前的拉丁文文本见证，供对观异文研究使用。
塔尔古姆 Onkelos + 圣经亚兰文 + 别西大旧约 — 已收入 Aramaic Root Atlas 语料库；待希伯来文旧约范围落地后接入。

浏览器功能

无障碍审计 — 完整的 aria 检查、纯键盘导航、高对比度 / 暗色模式打磨。
异文注释中的交叉引用（例如「参马太福音 24:15」）将渲染为可点击的跳转，在平行经节之间切换。
按章导航面板，包含经节计数、低置信度标记与人工复核标记。
书签 / 永久链接 — 指向特定异文的深度链接保持稳定；提供可分享的「复制链接」功能。
移动端打磨 — 单列响应式布局、更大的点击目标、经节间滑动切换。
悬停即显的别西大词根卡 — 悬停于任一别西大词元（无需点击）即可显示一张紧凑的卡片，包含三辅根、字面译义、姊妹根，以及取自 Aramaic Root Atlas 的希伯来文 / 阿拉伯文同源词。点击仍可打开完整的 Strong's 风格浮窗。

导出

按 TEI P5 的 <app>/<rdg> 约定导出批判性批注的 TEI XML。
按经节 / 按异文导出 BibTeX 引文。
全部对齐数据的 CSV 批量导出，便于下游分析。

子项目

Machine Annotation Engine — 针对试点未涵盖的经节，提供实时按需对齐。REST 接口 /api/align，附按请求的置信度、缓存、限速及自定义文本覆盖。
Scholar Review Workflow — 账号 + 鉴权（ORCID / GitHub / Google）、学生 / 学者 / 编辑角色、来自引擎与被标记低置信度经节的复核队列、按节展开的线程式评论、达成共识阈值后的发布、TEI / BibTeX / CSV 黄金标准数据导出，以及通过 Zenodo DOI 进行的数据集引用。

节次划分

经节标号遵循 NA28 的编号方式。克莱孟版武加大译本在某些章节中采用了不同的分节方式；在必要之处（尤其是马可福音第 9 章及马可福音 4:40–41），我们已将武加大文本重新映射至 NA28 的边界。完整的修改清单参见代码库中的 known-issues.md。

许可与再利用

本浏览器代码计划在项目获得公共资助后以开源许可发布。所派生的对齐 JSON 来自混合许可的资料源（CC BY 4.0、公有领域）；任何未来的再分发都将致谢上游来源。

联系方式

欢迎反馈 — jossi@somosunodigital.com.