Python 处理POS标签
在这里,我们将查看一些词性(POS)标记的数据,并提取从中获取一些分布信息,然后使用单词/POS标签共现计数作为构建简单POS标签的基础
打开其中一个数据文件文件以查看数据格式(称为Brill格式,在txt文档中)方便的处理格式,其中文本每行一句已标记,每个标记之间有一个空格。每个令牌都是一起提供的其POS形式为TOKEN/POS。你会看到一些标点符号是在该令牌化方案中被视为单独的令牌。
There/EX is/VBZ no/DT slow-motion/JJ close-up/NN ,/, blood-and-guts/JJ portrayal