我的 RIME 词库说明

目录
最开始用的基础词库来源于ssnhd/rime,这是它的词表介绍
主要用了这几份词库:
- luna_pinyin.dict.yaml:默认字库,有部分的词语,总计7万;
- luna_pinyin.sogou.dict.yaml:来源于搜狗词库,总计105万;
- easy_en.dict.yaml:英文词库,总计11万;
此外还用了几份自己维护的词库:
- 股票名称列表,使用Tushare API拉取A股的股票名称列表生成词库,总计5千;
- 我的搜狗自定义词库,从搜狗导出后经过手动删除,总计3千;
- 我手动维护的词库,总计1百;
但是这份词库存在几个问题:
- 缺乏词库持续的更新维护;
- 这份百万级的搜狗词库质量不高,并不是搜狗自带的词库;
- 本身基于繁体,尽管这符合RIME的做法;
最近发现两份还不错的简体词库,分别是四叶草拼音和雾凇拼音。其中雾凇拼音有6K的star数量,并且更新还是比较及时的,提供的功能也比较完善,下面是一个功能介绍:

作者也明确说明了他会长期维护几份词库:
- 8105字表。
- base基础词库。
- ext扩展词库,小词库。
- tencent扩展词库,大词库。
- Emoji
雾凇拼音用了大量的lua脚本来实现功能,这里先不整体引用,打算只引用词库。但是在部署的时候却发现小狼毫会一直处于加载中,尝试后发现是在加载Tencent大词库的时候才出问题。搜索Github发现可以关掉配置use_preset_vocabulary就可以解决问题。
目前使用的外部词库保留了来源于雾凇拼音的四份中文词库
- cn_dicts/8105# 字表
- cn_dicts/base# 基础词库
- cn_dicts/ext# 扩展词库
- cn_dicts/tencent# 腾讯词向量