Word Segmentation 分词 – Tokenization
Stem extraction 词干提取 - Stemming
Lexical reduction 词形还原 – Lemmatization
Part of Speech Tagging 词性标注 – Parts of Speech
Named entity recognition 命名主体识别 -NER
Chunking 分块 -Chunking
语音识别:也称为语音转文本,用于将语音数据以可靠的方式转换为文本数据。 任何遵循语音命令或回答口述问题的应用都需要语音识别功能。 语音识别的挑战性在于人们的说话方式 — 语速快,含糊不清,各种重音、语调和口音,以及语法常常不正确。
词性标注:也称语法标注,这个过程按照用法和上下文确定特定单词或文本片段的词性。 “I can m