⭐后续有空会持续补充各subword分词算法原理与代码实现,以及面试常问知识点~先休息吃夜宵,打王者,拒绝内卷!
🚀 subword分词算法可以说是现在各种预训练语言模型的标配分词算法,也是提升NLP模型性能的重要方法。
1、传统分词无法很好处理OOV问题。
2、传统分词不利于模型学习词缀之间的关系。(e.g. 模型学到的small, smaller, smallest的关系无法泛化到big, bigger, biggest)
3、如果按字母来分词(character embedding)以解决OOV问题的话,粒度太细,消耗空间,且难以学到词的语义。
4、而subword的分词粒度在字符与词之间,且能够很好的缓解OOV问题。