搜索引擎常用的中文分词的方法有哪些?
中文分词算法大概分为两大类a.第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词相同,就算匹配。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等策略。这类算法优点是速度块,都是o(n)时间复杂度,实现简单,效果尚可。也有缺点,就是对歧义和未登录词处理不好。b.第二类是基于统计以及机器学习的分词方式这类分词基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行估计,即训练。在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。常见的序列标注模型有hmm和crf。这类分词算法能很好处理歧义和未登录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。
机器学习需要哪些数学基础?
最主要的是线性代数和概率论。
线性代数
现在最流行的机器学习模型,神经网络基本是就是一大堆向量、矩阵、张量。从激活函数到损失函数,从反向传播到梯度下降,都是对这些向量、矩阵、张量的操作和运算。
其他“传统”机器学习算法也大量使用线性代数。比如线性回归
听名字就知道和线性代数关系密切了。
而主成分分析,从线性代数的观点看,就是对角化协方差矩阵。
概率
特别是当你读论文或者想深入一点的时候,概率论的知识非常有帮助。
包括边缘概率、链式法则、期望、贝叶斯推理、最大似然、最大后验、自信息、香农熵、kl散度,等等。
其他
神经网络很讲究“可微”,因为可微的模型可以通过梯度下降的方法优化。梯度下降离不开求导。所以多变量微积分也需要。另外,因为机器学习是基于统计的方法,所以统计学的知识也缺不了。不过大部分理工科应该都学过这两块内容,所以这也许不属于需要补充的内容。
在nlp中常用的算法都有哪些?
词向量方面有有word2vec,tf-idf,glove等
序列标注方面有hmm,crf等常用的算法,也可和神经网络结合使用,可用于解决分词,词性识别,命名实体识别,关键词识别等问题!
关键词提取方面可以用textrank,lda等
分类方面(包括意图识别和情感识别等)传统的机器学习算法和神经网络都是可以的。
其他方面,如相似度比较的余弦相似度,编辑距离以及其他优化方面的动态规划,维特比等很多。
原文标题:CRF是什么缩写 搜索引擎常用的中文分词的方法有哪些?,如若转载,请注明出处:https://www.saibowen.com/wenda/22898.html
免责声明:此资讯系转载自合作媒体或互联网其它网站,「赛伯温」登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。