语料库

以侧边栏 + 编辑面板的分栏布局管理造语文本、行间标注和语料音变。

导航:点击左侧 语料库

文本管理

  • 创建 / 编辑 / 删除语料文本
  • 元数据:标题、描述、标签、时间戳
  • 原始文本(造语原文)和自由翻译

行间标注(Leipzig Glossing)

支持符合莱比锡规范的多层标注:

  • Surface form(表层词形)
  • Morpheme break(语素切分)
  • Gloss labels(语法缩写标签)
  • Linked entry(词典词条绑定)
  • IPA(音标)

自动标注能力(新版)

1. 词典精确匹配

先按词形在词典中做精确匹配,命中后回填:

  • 语素切分
  • gloss 标签
  • 词条绑定
  • IPA

2. 屈折逆向识别

当无法整词命中时,自动尝试按语法规则逆向解析:

  • 多前缀 + 词干 + 多后缀
  • 连字符写法(如 oh-kam)和连写写法(如 ohkam
  • 非拼接类型候选(infix / circumfix / reduplication / ablaut)

3. 置信度与复核

  • 高置信候选自动应用
  • 低置信候选进入“待复核列表”
  • 支持逐条应用、全部应用、关闭面板

4. 自动标注统计(按语料独立)

每次自动标注后保存统计到当前语料 metadata:

  • 总词元数
  • 自动应用数
  • 待复核数
  • 未识别数

切换到其他语料时不会串用统计;切回当前语料可继续看到该语料自己的统计。

语料 SCA 预览与应用(新增)

语料模块可直接应用 SCA 规则,不必先去词典批量改写。

入口

点击 「预览并应用 SCA 到语料」

Diff 预览能力

会生成变更清单(默认全选),包含:

  • 变更范围:原文 / 标注行原文 / 词元表层
  • 变更前后:before -> after
  • 上下文片段

选择与应用

  • 全选 / 取消全选
  • 单条勾选
  • 右上角圆形关闭按钮可随时关闭预览
  • 点击“应用选中变更”后写回语料

应用后的自动处理

  • 自动触发一次自动标注
  • 自动更新统计与候选复核列表
  • 被修改的词元会重新建立标注,避免旧标注失效

词典联动

token 绑定词条后,悬浮可查看词条详情(词性、释义、IPA),便于边读语料边核对词汇系统。

推荐流程

  1. 先写原文与自由翻译。
  2. 执行一次自动标注。
  3. 处理待复核候选。
  4. 如需演变文本,再执行语料 SCA 预览并勾选应用。
  5. 应用后复查自动标注统计。
Tip

语料库是“语言是否可用”的最终验证层。建议把常见句型、问候语、叙事段落都写成语料,以驱动词典和语法持续迭代。