语料库
以侧边栏 + 编辑面板的分栏布局管理造语文本、行间标注和语料音变。
导航:点击左侧 语料库
文本管理
- 创建 / 编辑 / 删除语料文本
- 元数据:标题、描述、标签、时间戳
- 原始文本(造语原文)和自由翻译
行间标注(Leipzig Glossing)
支持符合莱比锡规范的多层标注:
- Surface form(表层词形)
- Morpheme break(语素切分)
- Gloss labels(语法缩写标签)
- Linked entry(词典词条绑定)
- IPA(音标)
自动标注能力(新版)
1. 词典精确匹配
先按词形在词典中做精确匹配,命中后回填:
- 语素切分
- gloss 标签
- 词条绑定
- IPA
2. 屈折逆向识别
当无法整词命中时,自动尝试按语法规则逆向解析:
- 多前缀 + 词干 + 多后缀
- 连字符写法(如
oh-kam)和连写写法(如ohkam) - 非拼接类型候选(infix / circumfix / reduplication / ablaut)
3. 置信度与复核
- 高置信候选自动应用
- 低置信候选进入“待复核列表”
- 支持逐条应用、全部应用、关闭面板
4. 自动标注统计(按语料独立)
每次自动标注后保存统计到当前语料 metadata:
- 总词元数
- 自动应用数
- 待复核数
- 未识别数
切换到其他语料时不会串用统计;切回当前语料可继续看到该语料自己的统计。
语料 SCA 预览与应用(新增)
语料模块可直接应用 SCA 规则,不必先去词典批量改写。
入口
点击 「预览并应用 SCA 到语料」。
Diff 预览能力
会生成变更清单(默认全选),包含:
- 变更范围:原文 / 标注行原文 / 词元表层
- 变更前后:
before -> after - 上下文片段
选择与应用
- 全选 / 取消全选
- 单条勾选
- 右上角圆形关闭按钮可随时关闭预览
- 点击“应用选中变更”后写回语料
应用后的自动处理
- 自动触发一次自动标注
- 自动更新统计与候选复核列表
- 被修改的词元会重新建立标注,避免旧标注失效
词典联动
token 绑定词条后,悬浮可查看词条详情(词性、释义、IPA),便于边读语料边核对词汇系统。
推荐流程
- 先写原文与自由翻译。
- 执行一次自动标注。
- 处理待复核候选。
- 如需演变文本,再执行语料 SCA 预览并勾选应用。
- 应用后复查自动标注统计。
Tip
语料库是“语言是否可用”的最终验证层。建议把常见句型、问候语、叙事段落都写成语料,以驱动词典和语法持续迭代。