建立公司自己的词库,从收集与清洗现有术语开始,接着定义结构与字段、选择或搭建管理工具、导入并与翻译记忆同步,最后制定维护、权限和质量流程,循环迭代以保持一致性与可追溯性。

先把概念说清楚(像给朋友解释)
词库(terminology database,简称TB)不是单纯的单词表,它是把公司常用术语、固定译法、上下文说明、来源与使用规则以结构化方式保存起来的工具。和翻译记忆库(TM)不同,TM保存句子对,词库更关注术语级别的标准化。把词库想成公司的“语言配置文件”,每个项目、每个客户、每个产品线都可以从里头读取一致的用语。弄懂这些,后面做起来就不会迷路。
为什么要建自己的词库?
- 统一口径:避免不同翻译人员对同一概念用不同译法。
- 提高效率:常见术语被快速命中,翻译速度和交付一致性提高。
- 提升质量:减少因术语不统一导致的返工和客户投诉。
- 知识沉淀:将客户偏好、行业表达方式以结构化方式保存,便于新译者快速上手。
- 合规与品牌一致性:对专有名词、商标、法律术语等特别重要。
总体流程(用费曼法把复杂问题拆成几步)
把建立词库的任务拆成清晰的几个步骤:收集 → 清洗 → 设计结构 → 导入/构建 → 集成到翻译流程 → 维护与治理。下面逐步讲清每一步具体怎么做、用什么格式、常见陷阱和实战技巧。
步骤一:收集(你要把“食材”准备齐)
- 内部资源:之前项目的术语表、翻译记忆库、客户提供的词表、技术文档、产品说明书、软件界面文本。
- 外部资源:行业标准词表、公开的TBX词库、辞典内容(注意版权)以及领域内权威文献名词。
- 专家输入:产品经理、工程师、法务、市场、客户侧语言负责人提供的术语和用法偏好。
- 工具导出:从CAT工具(如Trados、memoQ、Phrase/Smartling、OmegaT等)导出TM和术语表,通常可得CSV、TBX或Excel。
步骤二:清洗与规范(把乱糟糟的食材处理干净)
收集后别急着导入,先做数据清洗:
- 去重:同义重复、大小写差异、半角全角问题。
- 标准化:统一标点、单位表示、数字格式(如1,000 vs 1000)、大小写规则。
- 语言检查:确认源语与目标语语言标签、编码(UTF-8),避免乱码。
- 确认语义:对多义词提供上下文或行业标签,防止错误映射。
- 来源记录:保留每条术语的来源与证据(谁确认、哪份文档、哪个客户要求)。
步骤三:设计字段与分类(词库的骨架)
一个好的词库结构决定后续使用效率。常见且实用的字段如下:
| 字段名 | 说明 |
| term_id | 唯一标识(系统生成或手动编号) |
| source_term | 源语术语 |
| target_term | 目标语标准译法(可有多条) |
| part_of_speech | 词性(可选) |
| domain | 领域/业务线/项目标签 |
| context/example | 上下文或示例句 |
| status | 状态(草案/已确认/弃用) |
| source_reference | 来源(文档名、客户、人员) |
| priority | 优先级(高/中/低) |
| notes | 备注、使用规则、替代词、限制 |
顺便提醒:如果你有多目标语,target_term可以设计成多语列或独立的记录行。TBX格式天然支持多语言,而CSV/Excel方式要设计好列结构以避免混淆。
步骤四:选择工具或搭建系统(买现成还是自己做)
这里没有唯一答案,取决于预算、团队规模和希望的集成深度。常见选项:
- 使用CAT厂商的术语管理:Trados MultiTerm、memoQ 的Termbase、Phrase/Smartcat/Across的术语模块,优点是和翻译工作流和TM无缝集成。
- 采用云协作平台:例如Phrase、Smartcat等,方便多人在线编辑、审校和权限控制。
- 自建CSV/Excel+版本控制:适合小团队或初期,低成本但需要手工同步和严格的变更管理。
- 数据库与前端系统:使用MySQL/PostgreSQL+管理界面或定制SaaS,适合大公司想要定制化规则、API调用权限和审计日志。
与CAT工具集成要点
- 确认格式兼容性:TBX是术语交换标准;很多工具也支持CSV/Excel。
- 导入前做字段映射,确保字段名与工具匹配。
- 启用实时术语检查或术语高亮,减少译者手动查表。
- 设置优先级和范围(如某客户/某领域优先);避免通用词库覆盖客户专属术语。
实操细化(像手把手教你做)
准备阶段(1-2周)
- 列出资源清单:所有可拿到的术语来源。
- 分配角色:谁负责收集、谁负责清洗、谁确认术语、谁做最终导入。
- 确定工具与导入格式。
清洗与初始导入(2-4周)
- 把所有文件导出成可处理的格式(CSV/Excel/TBX)。
- 用脚本或Excel做基础去重、编码统一、空值检查。
- 人工审核高频或有歧义术语,标注上下文。
- 导入测试量(比如先导入500条),在CAT工具中做小规模试译,观察命中率与误警。
确认与上线(1周)
- 组织客户/内部专家确认关键术语(可做投票或审核流程)。
- 将确认后的词库发布到翻译平台,并通知译者使用说明与注意点。
维护(持续进行)
- 设定更新周期(如每月或每季度)和紧急更新流程。
- 建立变更日志与版本控制(谁在什么时候做了什么变更)。
- 定期清理弃用或过时术语。
- 收集译者/客户反馈并形成反馈闭环。
质量控制与治理(别把垃圾数据放进去)
- 审校流程:每条术语最好经过双人审核:提交者和独立审校者。
- 回归测试:更新词库后在代表性项目上做回归,确认不引入错误匹配。
- 指标监测:术语命中率、术语争议率、客户投诉数、术语响应时间。
- 权限管理:谁可以新增、谁可以修改、谁可以发布。建议采用分级审批。
- 审计与备份:保留历史版本和变更记录,定期备份数据库。
常见问题与解决策略(像在解答FAQ)
Q:术语有多义如何处理?
给每个意义建立独立条目并用领域/上下文字段区分,同时在上下文里放示例句,减少误用。
Q:词库和TM怎么协作?
术语库用于标记和强制术语一致性,TM用于句段或全文重用。把两者都接入CAT工作流,术语优先级高于TM匹配时常可避免译者忽视术语规则。
Q:如何处理客户改变译法的临时偏好?
采用项目层级词表覆盖通用词库,并记录该偏好为“项目规则”,项目结束后评估是否升为全局术语。
小技巧与实用范例(更像经验笔记)
- 把术语频率统计也保存在词库中,频次高的术语先重点审核。
- 在备注里写“不可译/保留英文/只译为X在UI场景”,帮助译者快速判断。
- 用颜色或标签标注“法律敏感/必须与法务确认”等高风险术语。
- 导入时保留原始来源字段,方便追溯并应对客户质疑。
- 定期对新进译者做词库使用培训,避免误用和绕过词库。
示例CSV格式(导入前的样板)
下面是一个简单CSV列头示例,导入到大多数系统前可以使用这种结构:
| term_id | source_term | target_zh | domain | context | status | source | priority | notes |
| 1001 | checkout | 结账 | 电商 | 购物车到支付流程 | confirmed | client-A spec | high | UI按钮文字 |
迁移旧数据与常见陷阱
- 不要盲目合并所有历史术语:旧项目的临时译法可能带来大量噪音。
- 避免只靠一人决策:术语最好由语言专家与业务方共同确认。
- 注意编码和字符集,中文环境推荐使用UTF-8。
- 避免在词库里混入句子级别内容,词库聚焦术语级别。
衡量成效(你怎么知道词库好不好用)
- 词库命中率:翻译时命中的术语占比。
- 译后修改次数:术语相关的返工率是否下降。
- 客户满意度:对术语一致性的反馈。
- 新译者上手时间:通过词库减少的培训成本。
最后一些现实建议(像朋友提醒你几句)
刚开始别想一步到位,从小范围、几个关键客户和高频术语入手,形成可运行的流程后再扩展;把“谁能改词库”规则写清楚,别让词库变成人人乱改的“黑洞”;保持周期性的回顾会议,把词库当作活的资产不断改进。
好吧,就写到这里——这些步骤和细节其实是累积出来的经验,照着一步步来,词库会慢慢变得有用并且被珍惜。希望你能尽快把自己的词库搭起来,开始沉淀公司的语言资产。