NLP任务简介

中文NLP目前的主流任务：分词，词性标注，命名实体识别，实体关系抽取，句法依存，文本分类，中文摘要，文本相似度，机器翻译，机器阅读理解，对话问答，百度的paddlepaddle 开源了好几个nlp模型，可以参考学习。

分词

基于词典和基于概率，

基于字符串匹配算法：最大匹配法(正向、逆向、双向)

基于统计的分词方法(传统机器学习)：N-gram, HMM, ME(Max Ent，最大熵模型),CRF，(参考)[https://blog.csdn.net/qq_18603599/article/details/80865233]

HMM：状态，观测值;用维特比译码，忽略了上下文信息；MEMM(最大熵马尔可夫模型)，CRF可以参考李航的《统计学习方法》，训练时依赖特征函数的选取。

基于统计的深度学习分词方法：词嵌入+Bi-LSTM+CRF

方法类似于分词，分词隐藏状态B(begin),M(middle),E(end)，S(单独成词)，NER隐藏状态为B,M,E,O(other)，隐藏状态都是基于字符级，指字符的状态。

传统机器学习：人工提取特征，选取不同模型训练。

主流是深度学习，基本结构为lstm，输入为词向量。

lattice-lstm：ner

simnet：语义匹配

下一步计划从代码层面学习模型的具体细节，模型训练细节，顺便提高编程能力，C++、java,代码的效率，简洁性、系统性、可读性，这是一个长期计划，媲美下一个五年计划(haha),俗话说罗马不是一天建成的，代码不是一天练成的。

需要强迫自己先做最重要的事情。。。。。。拎的清轻重，但是做不到呀呀呀呀呀！！！！