余嘉豪法尔古籍整理方法论
一、核心原则
本方法遵循三大准则:
- 文本实证优先原则
- 版本谱系分析法
- 跨学科交叉验证法
二、操作流程
1. 原始文献采集
建立三级分类体系:
文献类型 | 采集标准 | 存档要求 |
孤本 | 完整件数记录 | 独立编号+材质描述 |
善本 | 版本特征标注 | 双份备份 |
普通本 | 流传信息记录 | 电子化存档 |
2. 初步整理阶段
执行五步校勘法:
- 字词层面校勘
- 句读层面校勘
- 段落逻辑校勘
- 文体特征校勘
- 时代背景校勘
三、技术应用
1. 文本数字化
采用Unicode 15.1编码标准,设置三级字符过滤机制:
- 禁用生僻字库(GB/T 32100-2015)
- 保留特殊符号(ISO 8859-1扩展区)
- 自动生成字符对照表
2. 数据分析
应用自然语言处理技术包,包含:
- 分词模块
- 支持8种方言变体识别
- 词频统计模块
- 自动生成时序分布图谱
- 语义网络构建模块
- 支持知识图谱可视化
四、质量控制
实施三重验证机制:
- 专家委员会终审(含2名古籍专家+1名文献数字化专家)
- 平行文本比对(至少3个同类数据库)
- 机器学习纠错(基于BERT-wwm模型)