Yin Guoqing Postgraduate of NJUPT

NLP任务简介

2019-03-21
NLP

中文NLP目前的主流任务:分词,词性标注,命名实体识别,实体关系抽取,句法依存,文本分类,中文摘要,文本相似度,机器翻译,机器阅读理解,对话问答,百度的paddlepaddle 开源了好几个nlp模型,可以参考学习。

分词

基于词典和基于概率,

基于字符串匹配算法:最大匹配法(正向、逆向、双向)

基于统计的分词方法(传统机器学习):N-gram, HMM, ME(Max Ent,最大熵模型),CRF,(参考)[https://blog.csdn.net/qq_18603599/article/details/80865233]

HMM:状态,观测值;用维特比译码,忽略了上下文信息;MEMM(最大熵马尔可夫模型),CRF可以参考李航的《统计学习方法》,训练时依赖特征函数的选取。

基于统计的深度学习分词方法:词嵌入+Bi-LSTM+CRF

词性标注(Part-of-speech tagging),命名实体识别(Named Entity Recognition)

方法类似于分词,分词隐藏状态B(begin),M(middle),E(end),S(单独成词),NER隐藏状态为B,M,E,O(other),隐藏状态都是基于字符级,指字符的状态。

文本分类,中文摘要,文本相似度,机器翻译,机器阅读理解

传统机器学习:人工提取特征,选取不同模型训练。

主流是深度学习,基本结构为lstm,输入为词向量。

常用模型

lattice-lstm:ner

simnet:语义匹配

后续

下一步计划从代码层面学习模型的具体细节,模型训练细节,顺便提高编程能力,C++、java,代码的效率,简洁性、系统性、可读性,这是一个长期计划, 媲美下一个五年计划(haha),俗话说罗马不是一天建成的,代码不是一天练成的。

需要强迫自己先做最重要的事情。。。。。。拎的清轻重,但是做不到呀呀呀呀呀!!!!


上一篇 图像检测

Comments

Content