- 分词
- 词性标注(Part-of-speech tagging),命名实体识别(Named Entity Recognition)
- 文本分类,中文摘要,文本相似度,机器翻译,机器阅读理解
- 常用模型
- 后续
- 附
中文NLP目前的主流任务:分词,词性标注,命名实体识别,实体关系抽取,句法依存,文本分类,中文摘要,文本相似度,机器翻译,机器阅读理解,对话问答,百度的paddlepaddle 开源了好几个nlp模型,可以参考学习。
分词
基于词典和基于概率,
基于字符串匹配算法:最大匹配法(正向、逆向、双向)
基于统计的分词方法(传统机器学习):N-gram, HMM, ME(Max Ent,最大熵模型),CRF,(参考)[https://blog.csdn.net/qq_18603599/article/details/80865233]
HMM:状态,观测值;用维特比译码,忽略了上下文信息;MEMM(最大熵马尔可夫模型),CRF可以参考李航的《统计学习方法》,训练时依赖特征函数的选取。
基于统计的深度学习分词方法:词嵌入+Bi-LSTM+CRF
词性标注(Part-of-speech tagging),命名实体识别(Named Entity Recognition)
方法类似于分词,分词隐藏状态B(begin),M(middle),E(end),S(单独成词),NER隐藏状态为B,M,E,O(other),隐藏状态都是基于字符级,指字符的状态。
文本分类,中文摘要,文本相似度,机器翻译,机器阅读理解
传统机器学习:人工提取特征,选取不同模型训练。
主流是深度学习,基本结构为lstm,输入为词向量。
常用模型
lattice-lstm:ner
simnet:语义匹配
后续
下一步计划从代码层面学习模型的具体细节,模型训练细节,顺便提高编程能力,C++、java,代码的效率,简洁性、系统性、可读性,这是一个长期计划, 媲美下一个五年计划(haha),俗话说罗马不是一天建成的,代码不是一天练成的。
附
需要强迫自己先做最重要的事情。。。。。。拎的清轻重,但是做不到呀呀呀呀呀!!!!