我爱自然 语言处理

博狗博彩网 2019-06-13 06:02174http://www.geo-hitch.com/admin

HMM学习最佳范例系列大概翻译于10年前,是52nlp上早期访问量较高的一批文章,这里提供一个全文PDF下载,关注AINLP公众号,回复'HMM'获取网盘链接:

我爱自然 语言处理

另外将博客上的隐马尔可夫模型相关文章做个索引,仅供参考:

HMM学习最佳范例

HMM相关文章

HMM应用

本条目发布于2019年01月12号。属于中文分词、标注、自然语言处理、隐马尔科夫模型分类,被贴了 hmm、HMM中文分词、HMM分词、HMM学习文档、HMM学习最佳范例、HMM文档、HMM标注、HMM词性标注、中文分词、词性标注、隐马尔可夫模型、隐马尔科夫模型、马尔可夫、马尔可夫模型、马尔科夫、马尔科夫模型 标签。作者是52nlp HMM相关文章索引

HMM系列文章是52nlp上访问量较高的一批文章,这里做个索引,方便大家参考。

HMM学习

HMM学习最佳范例一:介绍

HMM学习最佳范例二:生成模式

HMM学习最佳范例三:隐藏模式

HMM学习最佳范例四:隐马尔科夫模型

HMM学习最佳范例五:前向算法

HMM学习最佳范例六:维特比算法

HMM学习最佳范例七:前向-后向算法

HMM学习最佳范例八:总结

HMM学习最佳范例全文文档PDF百度网盘-密码f7az

HMM相关

wiki上一个比较好的HMM例子

几种不同程序语言的HMM版本

HMM应用

HMM词性标注

HMM中文分词

本条目发布于2015年03月7号。属于中文分词、标注、自然语言处理、隐马尔科夫模型分类,被贴了 hmm、HMM中文分词、HMM分词、HMM标注、HMM词性标注、中文分词、词性标注、隐马尔可夫模型、隐马尔科夫模型、马尔可夫、马尔可夫模型、马尔科夫、马尔科夫模型 标签。作者是52nlp Itenyh版-用HMM做中文分词五:一个混合的分词器

        在上一节中,我们看到了HMM分词器的优势在于它的灵活性,能够联系上文情况作出是否分词的判断,但是过于灵活又会出现一些低级的分词错误。一种扬长避短的想法是使用词典限定HMM的分词。具体的做法是,用基于词典的分词方法分出N种结果,然后用HMM挑出最有可能的分词结果。

       介绍一下分词使用的词典,在《中文分词入门之资源》有提到:

        Mandarin.dic                             分词词典,约40000条词汇

        对于一段文本,找出所有可能的切分结果叫做全切分,全切分可以保证切分结果集对正确切分结果100%的召回率,换句话说全切分中一定包含正确结果(在不包含未登录词的前提之下)。长度为n的句子,最大全切分数量可以达到2`(n-1)个,因此全切分计算量会随着句子长度增加急剧上升。举例,句子“研究生命起源”的全切分如下:

研/究/生/命

研/究/生命

研究/生/命

研究/生命

研究生/命

共有5个切分方案,其中倒数第二个是正确切分。下面讲一下我对句子进行全切分用的具体算法。

我爱自然 语言处理

        如上图,考虑构建一颗多叉树,其中每一条从root到叶子节点的路径均为一种分词结果,所有root到叶子节点的路径就是全切分的结果。树的建立方法是使用的递归:

        对句子进行正向词典匹配,结果为:

        研            对剩余句子:究生命    进行词典匹配

        研究        对剩余句子:生命        进行词典匹配

        研究生    对剩余句子:命            进行词典匹配

        全切分结果准备就绪,下面的问题是如何从备选分词中选出最佳分词结果,因为备选结果只有有限的数量,因此可以使用枚举算法求最佳解:

                                                          ArgmaxC,O  P(C|O)

解法在第2集中已经提到,等价于求:

ArgmaxC,O  P(O|C)P(C)

       为了避免计算溢出(小数位数太多计算机无法表示),我们改为求:

                                                          ArgminC,O  -lnP(O|C) – lnP(C)

        对于句子“研究生命”,分词结果如下:

        研/究/生/命:44.24491284128293

        研/究/生命:37.12604972173189

        研究/生/命:33.59480382540995

        研究/生命:26.49050292705271

        研究生/命:32.15705471620734

        其中“研究/生命”拥有最低值,被选为最优解。再举一些有意思的分词结果:

        研究生/研究/生活

        结合/成/分子

        他/说/的/确实/在/理

        可以看出这种混合分词器能够灵活的掌握字符间的分和,消除一些歧义分词。

博狗博彩网_双色球走试图:我爱自然 语言处理

Copyright © 2002-2017 博狗博彩网_双色球走试图 版权所有 备案号:鄂ICP备12013455号-2 鄂公网安备61032703000317