一、一个比较不同中文分词法的软件(论文文献综述)
王敬[1](2021)在《文本分类中SVM核函数的探讨》文中研究指明SVM作为常用的分类算法之一,通过引入核技术,有效地解决了非线性分类问题。众所周知,不同核函数确定的非线性变换与特征空间也不同。因此,核函数是影响SVM分类性能的关键因素之一。但是,对于如何选择合适的核函数,目前并没有完整的理论基础来指导完成。因此,选择合适的核函数是进一步发展SVM的关键点。在SVM中较为常用的核函数有:线性核、多项式核、RBF核、Sigmoid核。其中,线性核、多项式核、Sigmoid核属于全局核函数,RBF核属于局部核函数。本文主要对以上核函数在文本分类中的表现进行探讨,主要工作如下:首先,本文对CHI、MI、TF-IDF在文本分类中的特征提取性能进行分析与实验,实验结果显示:相比于CHI与MI,TF-IDF的特征提取性能较好。其次,本文分别对四种常见核函数的文本分类性能进行实验分析,实验结果表明:当Sigmoid核函数的参数取值满足对称且半正定条件时,它的分类性能与RBF核的文本分类性能相差不大,并优于其他两种常用核函数,表现出较好的分类性能。最后,基于研究者提出的组合核思想,本文提出:由满足对称且半正定条件的Sigmoid核与RBF核构建的新组合核函数,实验结果显示:新组合核函数提高了SVM的文本分类性能。
陶哲源[2](2020)在《基于在线评价的消费者网购满意度影响因素分析 ——以京东商城光学眼镜类产品为例》文中指出随着互联网技术的成熟、物流网络的完善以及人们观念的转变,网络购物因为其丰富的商品,实惠的价格以及足不出户的便利性,深受消费者喜爱。5G技术的出现更是带了全新的全场景沉浸式网购模式。目前国内主要的网络购物平台有淘宝、京东、苏宁易购、拼多多等。据国家统计局数据显示,2019年,全国网上零售额106324亿元,比上年增长16.5%,占社会消费品零售总额的25%以上,是消费市场重要的组成部分,而且发展潜力巨大,是零售企业极力开拓的市场。在线评价是消费者在购物之后对商品满意度的直接体现,既影响其他消费者的购物决策,也对企业具有重要意义。通过对在线评价进行文本挖掘,得出消费者对商品满意度的影响因素,对企业理解消费者需求,提升服务质量从而实现销售额增长具有现实意义。本文以京东商城光学眼镜评论为研究对象,设计爬虫程序抽取京东商城销量最高的20款光学眼镜的11384条在线评价,通过TFIDF算法选取特征,对特征值较大的前200个关键词进行抽取,对关键词进行概念化提炼与概括初步分析出影响网购眼镜的满意度影响因素。基于机器学习的算法,训练朴素贝叶斯情感分类器,并评价分类器性能,使用分类器将评论文本分为积极情感集和消极情感集。再使用LDA主题模型分别对积极情感评价集和消极情感评价集提取主题,从而分析消费者网购眼镜的满意因素和不满意因素。网购眼镜的消费者满意度影响因素有17个,本文归纳为4个类目:产品质量类目、价格价值类目、包装物流类目、客户服务类目。根据分析结果,为京东商城光学眼镜卖家提高消费者满意度提供可靠建议;同时分析结果对潜在消费者了解网购眼镜的优缺点也有一定的意义。
吴杰胜[3](2020)在《基于多部情感词典和深度学习的中文微博情感分析研究》文中指出近年来,以微博为代表的中文媒体平台正在不断融入人们的生活,人们每天都在这些平台上发表自己的观点、感受等其他主观信息,如何从这些信息中提取有价值的情感信息并加以利用就称作情感分析。本文以中文微博为研究对象,分别从基于情感词典的方法和基于深度学习的方法对中文微博进行情感分析研究,研究结果证明了两种方法对中文微博的情感分析均具有很好的作用,主要研究内容如下:(1)首先根据目前已有的情感词典和微博特性,可以发现目前已有的情感词典无法满足微博情感分析,因此本文专门开发扩建了六部情感词典,包括原始情感词典、否定词与双重否定词典、副词词典、连词词典、表情符号词典和中文微博新词情感词典,其中构造中文微博新词情感词典是该方法的一个关键点,它基于改进的PMI算法来进行构造。其次对每个词典中的每一个词赋予一个情感值,然后进一步分析中文微博文本之间的语义规则集,将句间分析规则和句型分析规则引入到中文微博的情感分析中,进一步提高了中文微博情感分析的准确性。最后,基于多部情感词典和语义规则集的方法,本文提出了一种从复句到单句,再从单句到词,并结合表情符号的中文微博情感计算算法。根据此算法将微博数据集分为正面、负面和中性三种类别,然后通过三组对比实验:基于原始情感词典的方法、基于多部情感词典的方法、基于多部情感词典和规则集的方法对微博进行情感分析,结果表明本文提出的基于多部情感词典和规则集的方法在准确率、召回率和F值三个层面上均优于前两种方法。(2)本文为了研究利用深度学习的方法对微博进行情感分析的有效性,分别针对基于卷积神经网络CNN和基于长短期记忆网络LSTM的方法的优点和缺点,提出一种将两者结合的模型即CNN-LSTM模型,该模型首先利用卷积神经网络CNN对微博进行特征提取,然后利用长短期记忆网络LSTM对微博进行情感预测。通过实验对比发现,该模型对微博的情感分析相比于单一的CNN模型和LSTM模型在准确率、召回率和F值三个层面上均有很大提高。图31 表6 参80
陶兴[4](2020)在《多源学术新媒体用户生成内容的知识聚合研究》文中研究说明随着信息经济迅猛发展,学术新媒体作为新型的网络学术知识平台逐渐受到科研工作者的关注,为知识信息获取、知识交流、知识传播等带来了改变。学术新媒体以学术微博、学术微信公众号、学术虚拟社区、学术APP等主要形式存在,具有平台类型多样、平台内容丰富、平台知识专业化等特点。为科研工作者提供了获取学术信息、分享学术成果、开展学术交流等活动的新途径。学术新媒体不再以文章、期刊论文等长文本形式作为知识推送的内容,学术用户作为学术新媒体环境中知识接受者与生产者两种身份并存,新媒体环境鼓励学术用户通过提问、回答与分享来自主产生新知识,创新了学术知识获取方式。随着新媒体环境的扩张,互联网中的用户生成内容呈现出了爆炸式增长,用户在搜寻知识过程中需要消耗大量的时间和精力去浏览与筛选知识内容。知识内容出现“知识过载”,用户陷入“知识迷航”,而学术新媒体中的用户生成知识内容也存在内容质量参差不齐,知识点碎片化分散,内容冗余等问题。同时不同学术新媒体平台间缺乏信息交流,单一平台内的知识无法及时完善与更新,导致用户须花费大量时间去浏览多平台内的知识,增加了获取知识的难度。如何对学术新媒体内用户生成内容进行知识的挖掘、组织和管理,创新学术新媒体的知识服务模式,为学术用户提供高质量知识服务内容,已成为学术新媒体发展面临的新问题。鉴于此,本文将知识聚合理论与方法引入到学术新媒体用户生成内容的知识聚合研究中,构建基于知识聚合的多源学术新媒体用户生成内容聚合机理,探讨了用户生成内容质量评测问题,提出了主题聚合与摘要生成两种用户生成内容知识聚合方法,设计了知识聚合精准推荐方案,并提出多源学术新媒体用户生成内容的知识聚合能力提升策略。本文主要开展了以下方面的研究:第一,构建多源学术新媒体用户生成内容的知识聚合机理。界定了学术新媒体用户生成内容的知识聚合内涵,即对新媒体平台用户生成内容中蕴含的知识进行有效组织,进而挖掘其内在知识的关联关系,为学术新媒体用户提供多源平台的知识聚合服务。划分了多源学术新媒体用户生成内容知识聚合类型,分别为:同型异源知识聚合、异型异源知识聚合、多语种知识聚合。将多源学术新媒体用户生成内容的知识聚合要素分为知识聚合主体、知识聚合客体、知识聚合内容、知识聚合环境、知识聚合技术等五个方面。从学术信息资源需求、学术创新环境、知识聚合主体收益、科技进步、多源学术资源等方面探讨了多源学术新媒体用户生成内容知识聚合的驱动力。从原理特点、作用方式等方面详细阐述了其影响知识聚合的原因。解读了多源学术新媒体知识聚合过程,分别为挖掘与解读用户需求,学术信息的数据处理,学术信息质量评测,知识发现与聚合,学术知识推荐。最后提出了多源学术新媒体用户生成内容的知识聚合机理模型,并从各要素间的关系与交互行为入手,绘制其实践应用中的具体过程图。第二,提出了学术新媒体用户生成内容的自动化质量评测方法。文本通过数据维度、情感极性、领域词汇等三方面考虑,建立学术用户生成内容自动化特征提取过程。再利用双层BI-GRU神经网络学习学术用户生成内容的特征属性。引入专业学术领域词典,优化词嵌入模型所生成的学术用户生成文本向量化表达。最终实现学术新媒体用户生成内容的质量评测,筛选出高质量的文本内容,为后续的多源学术新媒体用户生成内容知识聚合方法研究提供优质的数据基础。第三,基于主题生成的多源学术新媒体用户生成内容的知识聚合研究。提出基于混合神经网络BiLSTM-CNN-CRF和LDA主体概率模型的学术新媒体用户生成内容的知识主体聚合方法。利用混合神经网络分词法,对学术新媒体用户生成内容进行学习分词,然后将获取到的学术专业分词表输入到LDA主体概率模型中,生成多源学术新媒体平台的知识主题。从多个平台的生成主题中,证实了不同学术新媒体平台同类知识内容中存在较大的知识主题差异,在此基础上对知识主题进行融合,帮助学术新媒体用户能够从大规模用户生成知识内容中获取核心知识点,为学术新媒体用户提供了知识导航服务。第四,提出了多源学术新媒体用户生成内容的知识摘要生成方法。为实现多个学术新媒体平台中用户生成内容的知识概括性描述问题,提出基于Word2Vec模型和MMR算法的摘要生成方法。利用Word2Vec方法可以有效解决传统词向量表达方法忽略词语间语义联系的问题;利用MMR排序方法,对重要性程度高的摘要进行排序筛选,剔除重复度高的摘要句,同时保留重要性高的摘要句;利用专业领域词典,解决专业领域词无法识别的问题。通过对多个学术新媒体平台的用户生成内容进行聚合,帮助知识欠缺的平台弥补自身知识内容不足的问题,实现了学术新媒体环境整体知识内容的极大融合,为学术新媒体用户提供一个效率获取冗余用户生成内容中关键性知识的聚合服务。第五,提出了多源学术新媒体用户生成内容的知识聚合精准推荐方法。通过用户兴趣度值挖掘推荐项目和用户间的相似关系,将其作为用户对项目的推荐评分。通过传递相似度,实现多源学术新媒体平台间用户的相似度计算,进而建立起多源学术新媒体用户网络。最后通过项目推荐评分与用户传递性网络,构建学术新媒体用户生成内容的知识聚合精准推荐方法,为学术用户提供多源平台的学术知识与学术用户的双重精准推荐服务。
赵悦[5](2020)在《基于词语分类和排序的最大匹配中文分词技术》文中提出随着科技的快速发展,自然语言处理技术已经广泛深入到每个人的工作、学习当中。中文分词技术作为自然语言处理的基础,广泛应用于各种自然语言处理领域,如智能问答系统、搜索引擎、文本检索、机器翻译、语音识别系统等。在大多数自然语言处理应用系统中,第一步都是中文分词过程,对文本切分的准确率和效率会直接影响到后续应用的效果,高效又准确的中文分词是各个应用系统的基础环节。只有更好的解决中文分词问题,才能更好的理解句子和文章层面的问题。所以成熟完善的中文分词技术是自然语言处理技术得到更广泛应用的重要前提和保障,对中文分词技术进行深入研究,具有重要的科学意义和实际应用价值。通过分析现有中文分词方法的研究现状,总结了各种分词方法的优缺点以及目前中文分词方法中存在的问题,为提升中文分词的准确性和效率,提出了基于词语分类和排序的最大匹配中文分词方法。首先,为提升分词效率,设计了新的分词词典结构,新的分词词典采用分组的思想,将首字相同、词长相同的词分为一组,并且每个组中的词进行排序。采用该词典进行分词,在每一次匹配过程中,只需要在对应的组中进行查找即可,这样大大缩小了搜索范围,可以在很大程度上提升搜索效率。其次,针对最大匹配算法在分词过程中存在的缺点,利用新设计的中文分词词典,对最大匹配算法进行改进,改进后的最大匹配算法无需预先设置最大长度,可以根据词典中的词长种类跳跃的减少每次匹配的字数,并在每次词语匹配过程减小搜索范围,该方法可在多个方面提升分词效率。另外,为提升分词准确性,对分词过程中出现的歧义切分和未登录词进行处理。对于歧义的处理,采用建立歧义处理规则和词语统计相结合的方法;对于未登录词的处理,采用命名实体识别的方法,并将识别出的新词补充进词典。然后整合分词中的所有步骤,设计了新的中文分词流程。最后,设计了对比实验对分词准确率和分词效率进行测试,通过实验验证了算法的有效性,从实验结果中可知,改进的最大匹配算法在分词速度上有明显提升,并且改进的最大匹配算法和命名实体识别方法相结合,在分词准确率上也取得较好效果。另外,还设计并实现了中文分词系统,并对外提供接口供其他系统调用,可作为其他高级自然语言处理系统的一个支撑系统。
梁思程[6](2019)在《基于深度学习的文本表示与分类研究》文中进行了进一步梳理随着信息技术在人们日常生活中的广泛应用,文本信息正以指数形式增长,如何对海量文本信息进行有效管理,进而快速了解文本信息的价值成为了研究的焦点。其中,文本表示和文本分类是文本信息管理的关键技术。传统文本表示采用统计学的方法,假设词之间相互独立,未考虑语义信息,提取的文本特征数据稀疏、维度高,丢失了大量的文本信息。如今,文本信息语义丰富,主题多样对文本分类提出了更高的挑战,尤其是面对长文本的分类问题时,传统浅层的文本分类器泛化能力一般,不能满足分类管理要求。深度学习层与层之间特有的结构,可以从浅层或者中层特征中提取到高级特征,很好的解决了文本分类面临的上述问题,为文本表示内容的准确提取和文本分类模型的精准构建提供了支持。本文应用文本分类技术,在研究深度学习各类算法基础上,将深度学习有效的应用到文本表示和文本分类中并进行深入研究,主要完成如下工作:(1)提出改进的Fasttext模型用于中文长文本分类,可解决Fasttext模型进行复杂的长文本分类工作时,丢失太多文本上下文的信息的问题。经THUCNews数据集实验分析,改进的Fasttext模型既保证了文本分类的准确性,又降低了词向量训练速度。(2)针对长文本在特征提取时采用词向量进行文本表示导致训练时间长,分类结果不理想等问题,在PV-DM模型研究基础上,提出采用无监督的学习方法生成文本句向量,进而实现句子级别的文本分析,提高了长文本的分析速度。(3)针对长文本分类器提取语义关键特征难度大,分类效果差等问题,建立了基于循环神经网络和卷积神经网络的BGRU-CNN混合模型,实现了长文本的准确分类。采用THUCNews数据集和SogouC数据集的训练集,分别训练BGRU-CNN混合模型并进行测试实验,与CNN、LSTM、GRU、B-LSTM、B-GRU,5个文本分类模型进行对比。通过实验的比较分析,证明了BGRU-CNN混合模型的有效性。本文针对复杂中文长文本的分类,提出了改进的Fasttext模型文本表示方法和BGRU-CNN文本分类方法,不仅在理论上提供了解决方案,而且在应用层面同样具有指导意义。图32幅,表9张,参考文献64篇
孙玉霞[7](2019)在《基于BiGRU-Attention模型的文本情感分析研究》文中研究表明随着各大电商平台的兴起,人们倾向网购并对商品做出评价,成为流行趋势,评论数据量每天数以亿计的增长。这些看似毫无规则或关联性不大的评论,当数据达到一定程度,细分到某个行业或某类商品时,分析这些数据就能看出人们对某个行业或者某类商品的一种普遍看法,对分析、研发商品、预测销售前景具有非常重要的价值,因此文本情感分析近些年变得流行。最初的文本情感分析算法是基于机器学习的算法,但是随着数据量的增大,机器学习的算法无法适应快速处理数据的需求,适合大数据分析预测的神经网络模型开始在自然语言处理(NLP)领域广泛应用。CNN最先用来做文本情感分类,CNN不能学习上下文信息的特征使RNN开始应用在文本情感分类中,RNN梯度弥散的问题使得长短时记忆神经(LSTM)、循环门控神经网络(GRU)、双向长短时记忆神经(BiLSTM)、双向门控循环神经网络(BiGRU)等变体开始流行。后来,注意力(Attention)机制被证明了突出局部信息的有效性;研究人员开始尝试把神经网络模型和注意力机制进行模型混搭,实验结果证明了这种混搭模型的有效性。针对当前模型没有考虑评论可能存在的拼写错误、词向量长短不一且应用较多的BiLSTM训练时间过长、不能充分提取文本信息的问题,本文提出了一种基于BiGRU-Attention的文本情感分析模型,在预处理前导入textblob包修正可能存在的拼写错误,在输入层用padsequences填充为固定长度、利用双向门控循环网络(BiGRU)提取信息,利用注意力(Attention)机制突出词向量重点信息。BiGRU-Attention模型采用六层结构,把文本词向量经输入层、进入神经网络(BiGRU)层提取特征,放入注意力(Attention)机制突出词向量的重点信息,放入Dropout层防止过拟合,经过全连接层,最后放入softmax层进行文本情感分类。BiGRUAttention模型在四种数据集上进行多组对比实验,验证了BiGRU-Attention模型有效性。该论文有图33幅,表14个,参考文献52篇。
任军帅[8](2019)在《基于协同过滤算法的安规考核系统试题推荐方法研究》文中提出电厂的安全生产问题一直是电力生产的重中之重,电厂愈发的重视其自身的安全规范,越来越重视对员工进行安全培训。基于B/S结构的安规培训管理系统采用服务器-浏览器的模式实现了电厂在线完成安规考核和学习任务,有效地提高了电厂人员的学习效率。但随着题库题量不断地扩充,手动检索出适合用户练习的题目将花费大量时间,本文所提出的推荐系统就是在安规考核系统中加入试题推荐功能,系统可以根据用户每个人对知识的掌握情况推荐适合其练习的题目,提高学习的效率。本文主要完成了以下内容:1.研究了基于用户的协同过滤算法和基于物品的协同过滤算法,比较两者在不同推荐系统中的应用情况,比较其优缺点。结合安规考核系统的实际情况采用基于物品的协同过滤算法实现本课题的研究,根据需求在数据库中设计用于保存用户-物品评分矩阵和物品-物品相似度矩阵的数据表。2.学习中文分词技术,收集题库中的题目,去除文本中的标点符号进行数据预处理。测试并比较了Stanford、Snown Lp、结巴分词等几个常用的中文分词工具,最终选用了结巴分词器进行分词。3.统计部分用户的错题信息生成用户-物品评分矩阵并保存到数据库中;对每道题目进行中文分词,比较不同的文本向量化算法优劣,验证后选取了TF-IDF算法进行文本向量化,基于2生成的词库构建词向量,采用欧式距离两两计算题目之间的距离,将计算得到的距离值做为题目的相似度,构建物品-物品相似度矩阵并保存到数据库中。4.根据用户-物品评分矩阵和物品-物品相似度矩阵生成推荐列表,完成推荐系统其它功能的设计,使试题推荐功能可以投入使用,当用户使用该功能时,系统可根据用户之前的错题情况对用户推荐相近的题目。
阿别木呷[9](2018)在《基于Python的彝文词典分词技术研究》文中研究表明在英文的行文中,单词之间以空格作为自然分界符,英文可以直观的看出单词分界。而彝文只是句和段可以通过明显的标点符号来简单划界,词却没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,在词这一层上,彝文比英文要复杂得多。彝文分词是把彝语中的词用明显的符号分隔开,即将连续的彝文序列按照一定的规范重新组合成词序列的过程,即使用明显的符号将词语分隔,使词与词之间有明显的界限。彝文机器翻译、篇章理解、自动摘要、文本校对、自动标注等语言处理应用离不开分词。例如将彝语翻译成其它语言,首先得提取彝语中的所有词汇,然后再对提取的彝语词汇一一对应成所要翻译的语言词汇,再按照对应的语法重组,即可得到翻译的结果。除了机器翻译以外,语言处理其它的基础建设同样离不开分词。因此,在使用计算机处理彝语之前,首先得解决分词问题。此彝文分词研究根据彝语的特性及语法特征,从基础的彝文字符编码、文本、分词标准规范、词典等为基础。在参考借鉴主流的最大正向、最大逆向和最大双向三种语言分词技术后,在Python环境下实现目前比较完整的机械分词机制与构架。文本首先结合彝语的语言特点,将特殊结构“否定词”纳入分词词典,同时也制定了一个目前较为符合彝文分词的标准。然后分析现有彝文文本内容和体裁后,根据实际情况只采用切合日常彝语语用的小说和民间故事作为分词对象。在对目前主流分词方法进行分析对比后,结合彝文分词技术的难点,说明了目前不使用统计和机器学习分词的原因。最后实现了在Python环境下的彝文处理,完成了最大正向最大逆向和最大双向匹配三种分词方法结果进行评测和对比。这个分词系统完善了机械彝文分词机制的内容,可以在以后的大量文本分词、语法、词法等研究中作为分词工具辅助使用,也为后续的彝文分词研究提供了真实客观的理论依据和数据依据。本文虽然实现彝文机械分词,但在这类分词方法中,决定分词精度和速度的因素大多,例如词典中的词数直接决定了彝文分词的准确率,同时分词词典中的词条数、计算机的处理器速度和内存直接影响了彝文分词的速度和处理效果。因此,在今后的分词研究中只有扩大分词词典中收录词汇,才能解决分词的精度。对彝文机械分词过于依赖对计算机处理器和内存的问题上,只有改进算法才能减少对计算机处理器和内存的依赖性。今后处理彝文的主要趋向是依靠计算机统计和深度学习,使用统计和深度学习方法处理彝文也更加的科学准确。因此只有保证词典、文本等软资源库,才能更理想的处理彝文分词;在建设基础材料的同时,未来彝语处理也可以借鉴目前其它自然语言的处理办法,走向语音合成,语音分析,句法分析、语义分析,文本分析、自然语言理解。
陆启文[10](2018)在《基于条件随机场的《左传》自动分词研究》文中指出汉语自动分词是汉语信息处理的重要分支。目前大多关于汉语自动分词的研究都是针对现代汉语的,对古汉语自动分词的研究较为薄弱。先秦典籍是了解先秦文化和历史的重要途径,《左传》则是先秦时期具有代表性的史学着作之一,因此,本文选取《左传》为研究对象,结合古汉语信息处理的特点,基于逆向最大匹配法和条件随机场模型的自动分词法对《左传》实现自动分词。本文主要进行了以下几个方面的工作:(1)设计了基于条件随机场模型的《左传》自动分词算法,包括语料选取、语料的标注、特征的选择以及特征模板的制定。本文选取了四词位的标注体系,选择了字符分类、词性、上古声、调、韵、反切、古音等特征进行CRF训练;(2)根据所设计出的基于条件随机场模型的《左传》自动分词算法进行具体的分词实验。采用CRF++0.58版本工具包,进行了不同特征和特征组合下的CRF分词实验;(3)对设计的基于条件随机场模型的《左传》自动分词算法进行测试。分别将采用逆向最大匹配算法的《左传》分词结果和未加入任何特征下的条件随机场法的分词结果设置成基准线Baseline1和Baseline2,将所有实验结果与Baseline之间进行对比分析,将不同实验结果之间进行对比分析,得出对比结果,并为今后的先秦文本自动分词工作提出建议。通过实验结果测评分析,本文得出了以下结论:(1)采用条件随机场对古汉语进行自动分词得到的分词效果要优于采用逆向最大匹配法对古汉语进行自动分词得到的分词效果,采用逆向最大匹配法对《左传》进行自动分词得到的分词F值为93.4631%,而采用条件随机场对《左传》进行自动分词得到的分词F值可达到95%以上;(2)在《左传》的自动分词中,“调”和“古音”的特征加入可以提高系统的分词切分精度,而“字符分类”、“声”、“反切”、“韵”的特征加入不但没有提高系统的分词效能,反而削弱了系统的分词效能;“词性”作为实验结果中最好的特征,它的加入大大提高了《左传》的切分精度,其分词F值能达到99%以上;(3)不能简单地认为某一特征在单一特征实验中得到的分词效果与它在多特征实验中的分词效果具有正相关关系,二者之间并不存在明显的相关性。在单一特征实验中分词结果较差的特征在组合特征实验中可以得到较好的分词结果,而在单一特征实验中分词结果较好的特征在组合特征实验中反而可以表现较差;(4)由于古汉语大多以单音节词为主,因此采用条件随机场对古汉语进行自动分词的特征模板窗口长度不宜过长,在我们所做的《左传》切分实验中,窗口长度为1的特征模板得到的分词效果最好。本文的主要贡献在于:(1)设计了一种基于条件随机场模型的《左传》自动分词法,融合了字符分类、词性、上古声、调、韵、反切、古音等多种特征,提高了分词效果;(2)在条件随机场模型的训练中,加入了不同数量的特征,全面测评了不同特征组合对分词效果的影响,对于在《左传》分词中效果较好的特征组合。我们在今后对古汉语进行自动分词时可以首先考虑加入此类特征组合,这对先秦文本自动分词具有一定启发性的意义。但是本文中作为基准线的分词方法比较单一,在进行基于词表的分词法实验中所选取的词表也较为单一。对此,在下一步工作中,我们可以采取更丰富的方法进行对照实验,同时可以采取更丰富的词表(如注疏词表)进行基于词表的分词法实验。
二、一个比较不同中文分词法的软件(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一个比较不同中文分词法的软件(论文提纲范文)
(1)文本分类中SVM核函数的探讨(论文提纲范文)
中文摘要 |
Abstract |
第一章 绪论 |
1.1 背景意义 |
1.2 文献综述 |
1.3 研究内容 |
1.4 组织架构 |
第二章 相关理论基础 |
2.1 文本分类综述 |
2.2 文本分类蓝图 |
2.3 文本规范化处理 |
2.3.1 噪声清除 |
2.3.2 分词处理 |
2.3.3 停用词去除 |
2.3.4 文本向量化 |
2.4 特征选择 |
2.4.1 卡方统计量(CHI) |
2.4.2 互信息(MI) |
2.4.3 TF-IDF |
2.5 常用分类算法 |
2.5.1 朴素贝叶斯算法 |
2.5.2 支持向量机算法 |
2.6 分类性能评价指标 |
2.6.1 查准率 |
2.6.2 查全率 |
2.6.3 F值 |
第三章 核函数理论与研究 |
3.1 核函数 |
3.1.1 核函数理论 |
3.1.2 核函数性质 |
3.2 常用核函数 |
第四章 新的组合核函数理论与研究 |
4.1 核函数的分类 |
4.1.1 全局核函数 |
4.1.2 局部核函数 |
4.2 组合核函数 |
4.2.1 组合核函数的构建过程 |
4.2.2 组合核函数的参数优化 |
第五章 文本分类系统的实现与仿真分析 |
5.1 实验平台说明 |
5.1.1 硬件与软件情况 |
5.2 文本分类仿真系统的搭建 |
5.2.1 仿真实验数据集 |
5.2.2 文本规范化处理 |
5.2.3 特征选择 |
5.2.4 文本分类器的构造 |
5.3 实验结果分析 |
5.3.1 文本规范化处理结果 |
5.3.2 特征选择分类性能 |
5.3.3 单一核函数的分类性能 |
5.3.4 组合核函数的分类性能 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
(2)基于在线评价的消费者网购满意度影响因素分析 ——以京东商城光学眼镜类产品为例(论文提纲范文)
学位论文数据集 |
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.1.1 研究背景 |
1.1.2 研究的意义 |
1.2 眼镜行业的国内外发展状况 |
1.2.1 国外的发展状况 |
1.2.2 国内的行业状况 |
1.3 研究现状 |
1.3.1 文本情感分析研究综述 |
1.3.2 顾客满意度影响因素研究综述 |
1.4 研究内容和框架 |
第二章 理论基础及文献综述 |
2.1 顾客满意度概念 |
2.1.1 网络购物满意度影响因素 |
2.2 网络爬虫 |
2.3 中文分词 |
2.4 关键词提取 |
2.5 情感分析 |
2.5.1 贝叶斯情感分类器 |
2.5.2 分类器性能评价指标 |
第三章 数据采集和处理 |
3.1 数据采集 |
3.2 文本预处理 |
3.3 关键词抽取及分析 |
第四章 文本分析 |
4.1 朴素贝叶斯分类器 |
4.2 LDA主题挖掘 |
4.2.1 积极情感集的LDA主题模型结果与分析 |
4.2.2 消极情感集的LDA主题模型结果与分析 |
第五章 结论与展望 |
5.1 结论 |
5.2 本文研究的不足与展望 |
参考文献 |
致谢 |
作者及导师简介 |
附件 |
(3)基于多部情感词典和深度学习的中文微博情感分析研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 基于词典的方法进行情感分析发展现状 |
1.2.2 基于机器学习的方法进行情感分析发展现状 |
1.2.3 其他的方法进行情感分析发展现状 |
1.3 主要研究内容 |
1.4 本文章节结构 |
2 情感分析相关理论介绍 |
2.1 情感分析概述 |
2.2 文本预处理 |
2.2.1 微博数据处理 |
2.2.2 中文分词 |
2.2.3 删除停用词 |
2.2.4 词性标注 |
2.3 文本表示方法 |
2.3.1 向量空间模型 |
2.3.2 主题模型 |
2.3.3 布尔模型 |
2.4 文本特征提取 |
2.4.1 卡方统计量 |
2.4.2 信息增益 |
2.5 情感分析方法 |
2.5.1 基于情感词典的方法 |
2.5.2 基于机器学习的方法 |
2.5.3 基于深度学习的方法 |
2.6 本章小结 |
3 基于多部情感词典与规则集的中文微博情感分析 |
3.1 多部情感词典的构造 |
3.1.1 原始情感词典 |
3.1.2 否定词和双重否定词词典 |
3.1.3 副词词典 |
3.1.4 连词词典 |
3.1.5 微博表情符号词典 |
3.2 微博新词情感词典的构造 |
3.2.1 微博新词的挖掘 |
3.2.2 改进的PMI算法和微博新词情感判断 |
3.3 微博文本语义规则集的情感分析 |
3.3.1 句间分析规则 |
3.3.2 句型分析规则 |
3.4 微博情感计算的算法 |
3.5 实验与分析 |
3.5.1 实验数据 |
3.5.2 实验设置 |
3.5.3 实验结果和分析 |
3.6 本章小结 |
4 基于深度学习的中文微博情感分析 |
4.1 深度学习模型流程 |
4.1.1 数据获取与预处理 |
4.1.2 文本向量化表示 |
4.2 CNN-LSTM情感分类模型 |
4.2.1 CNN分类模型 |
4.2.2 LSTM分类模型 |
4.2.3 CNN-LSTM分类模型 |
4.3 实验与分析 |
4.3.1 实验数据 |
4.3.2 实验设置 |
4.3.3 实验结果与分析 |
4.4 本章小结 |
5 总结与展望 |
5.1 本文工作 |
5.2 未来工作展望 |
参考文献 |
致谢 |
作者简介及读研期间主要科研成果 |
(4)多源学术新媒体用户生成内容的知识聚合研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 选题背景 |
1.1.1 学术新媒体成为科研工作者学术交流的新途径 |
1.1.2 学术新媒体普遍存在低质量用户生成内容 |
1.1.3 用户需求促使学术新媒体知识聚合成为趋势 |
1.1.4 多源平台内容的知识聚合需求逐渐增长 |
1.2 研究目的及意义 |
1.2.1 研究目的 |
1.2.2 研究意义 |
1.3 国内外研究现状 |
1.3.1 学术新媒体国内外研究现状 |
1.3.2 新媒体用户生成内容国内外研究现状 |
1.3.3 新媒体知识聚合国内外研究现状 |
1.3.4 研究现状述评 |
1.4 研究内容与研究方法 |
1.4.1 研究内容 |
1.4.2 研究方法 |
1.4.3 技术路线 |
1.5 本文创新点 |
第2章 相关概念及理论基础 |
2.1 学术新媒体内涵与特征 |
2.1.1 学术新媒体的内涵 |
2.1.2 学术新媒体的特征 |
2.2 用户生成内容概述 |
2.2.1 用户生成内容的内涵 |
2.2.2 用户生成内容的特征 |
2.2.3 用户生成内容的分类 |
2.3 知识聚合理论与方法 |
2.3.1 知识聚合的概念 |
2.3.2 知识聚合的方法 |
2.4 自然语言处理概述 |
2.4.1 自然语言处理概念 |
2.4.2 自然语言处理方法 |
2.5 本章小结 |
第3章 多源学术新媒体用户生成内容的知识聚合机理 |
3.1 多源学术新媒体用户生成内容知识聚合的内涵与类型 |
3.1.1 多源学术新媒体用户生成内容的知识聚合内涵 |
3.1.2 多源学术新媒体用户生成内容的知识聚合类型 |
3.2 多源学术新媒体用户生成内容知识聚合的要素 |
3.2.1 知识聚合主体 |
3.2.2 知识聚合客体 |
3.2.3 知识聚合的内容 |
3.2.4 知识聚合的环境 |
3.2.5 知识聚合的技术 |
3.3 多源学术新媒体用户生成内容的知识聚合动机 |
3.3.1 学术信息资源需求驱动 |
3.3.2 学术创新环境驱动 |
3.3.3 知识聚合主体收益驱动 |
3.3.4 科技进步驱动 |
3.3.5 多源学术平台资源驱动 |
3.4 多源学术新媒体用户生成内容的知识聚合过程 |
3.4.1 挖掘与解读用户需求 |
3.4.2 学术信息的数据处理 |
3.4.3 学术信息的质量评测 |
3.4.4 知识发现与聚合 |
3.4.5 学术知识推荐 |
3.5 多源学术新媒体用户生成内容的知识聚合机理模型 |
3.6 基于用户需求的多源学术新媒体用户生成内容知识聚合服务过程 |
3.7 本章小结 |
第4章 多源学术新媒体用户生成内容的质量评测 |
4.1 多源学术新媒体用户生成内容质量评测的目的 |
4.2 多源学术新媒体用户生成内容质量评测的过程与方法 |
4.2.1 多源学术新媒体用户生成内容质量评测的过程 |
4.2.2 多源学术新媒体用户生成内容质量评测方法 |
4.3 应用实例分析 |
4.3.1 数据集预处理与自动化特征提取 |
4.3.2 双层Bi-GRU模型训练 |
4.3.3 评价指标 |
4.3.4 结论与分析 |
4.4 本章小结 |
第5章 多源学术新媒体用户生成内容的知识主题生成 |
5.1 多源学术新媒体用户生成内容知识主题生成概念和目的 |
5.2 多源学术新媒体用户生成内容知识主题生成过程与方法 |
5.2.1 多源学术新媒体用户生成内容知识主题生成过程 |
5.2.2 多源学术新媒体用户生成内容知识主题生成方法 |
5.3 基于BiLSTM-CNN-CRF和 LDA的多源学术新媒体用户生成内容的知识主题生成模型 |
5.4 应用实例分析 |
5.4.1 结合BiLSTM-CNN-CRF和 LDA主题词生成 |
5.4.2 主题词过滤与融合 |
5.4.3 结论与分析 |
5.5 本章小结 |
第6章 多源学术新媒体用户生成内容的知识摘要生成 |
6.1 学术用户生成内容的摘要生成的概念及意义 |
6.2 多源学术新媒体用户生成内容摘要生成过程与方法 |
6.2.1 用户生成内容摘要生成过程 |
6.2.2 用户生成内容摘要生成方法 |
6.3 基于W2V-MMR的多源学术新媒体用户生成内容摘要生成方法 |
6.3.1 W2V-MMR算法的计算过程 |
6.3.2 多源学术新媒体用户生成内容摘要评价指标 |
6.4 应用实例分析 |
6.4.1 数据获取与预处理 |
6.4.2学术新媒体用户生成内容生成摘要实验 |
6.4.3 结论与分析 |
6.5 本章小结 |
第7章 多源学术新媒体用户生成内容的知识聚合精准推荐 |
7.1 多源学术新媒体用户生成内容知识聚合推荐的概念及目的 |
7.2 多源学术新媒体用户生成内容的知识聚合推荐过程与方法 |
7.2.1 多源学术新媒体用户生成内容的知识聚合推荐过程 |
7.2.2 多源学术新媒体用户生成内容的知识聚合推荐方法 |
7.3 基于用户兴趣度模型与传递相似度的多源学术新媒体用户生成内容的知识聚合精准推荐 |
7.3.1 基于用户兴趣度模型的精准推荐评分体系 |
7.3.2 基于用户相似性传递的用户共联网络 |
7.3.3 基于用户兴趣度模型与传递相似度的混合推荐 |
7.3.4 多源学术新媒体用户生成内容知识聚合的精准知识推荐服务 |
7.4 本章小结 |
第8章 提升多源学术新媒体知识聚合效果的策略 |
8.1 知识聚合主体层面 |
8.1.1 以用户为中心建立知识聚合理念 |
8.1.2 深入挖掘学术新媒体用户多层次的需求 |
8.1.3 完善学术新媒体平台内容质量监管和激励机制 |
8.1.4 合理规范学术新媒体内的主题与重点内容 |
8.1.5 学习与借鉴他源平台内容 |
8.2 知识聚合对象层面 |
8.2.1 促进学术用户积极互动 |
8.2.2 提升学术用户信息素养 |
8.2.3 提倡统一用词与语言凝练 |
8.2.4 提升多源平台交叉用户基数 |
8.3 知识聚合技术层面 |
8.3.1 改进大数据挖掘和人工智能技术 |
8.3.2 搭建学术新媒体的新型知识服务系统 |
8.3.3 建立多源学术新媒体的互联技术 |
8.3.4 应用学术知识可视化技术 |
8.4 知识聚合环境层面 |
8.4.1 营造良好的学术讨论氛围 |
8.4.2 加强学术新媒体平台之间的交流合作 |
8.4.3 加大学术新媒体平台的宣传力度 |
8.5 本章小结 |
第9章 研究结论与展望 |
9.1 研究结论 |
9.2 研究不足与展望 |
参考文献 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(5)基于词语分类和排序的最大匹配中文分词技术(论文提纲范文)
中文摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 中文分词研究现状 |
1.3 本文主要研究内容 |
1.4 本文组织结构 |
第2章 基础理论 |
2.1 中分分词方法概述 |
2.1.1 基于词典的中文分词方法 |
2.1.2 基于统计的中文分词方法 |
2.1.3 基于理解的中文分词方法 |
2.2 最大匹配算法 |
2.2.1 正向最大匹配算法 |
2.2.2 逆向最大匹配算法 |
2.3 中文分词词典结构 |
2.4 中文分词的两个难点 |
2.4.1 歧义切分的处理 |
2.4.2 未登录词的处理 |
2.5 本章小结 |
第3章 中文分词词典设计 |
3.1 新的分词词典结构设计 |
3.2 分词词典的存储 |
3.3 本章小结 |
第4章 基于词语分类和排序的最大匹配中文分词 |
4.1 概述 |
4.2 基于词语分类和排序的最大匹配分词算法 |
4.2.1 最大匹配算法分析 |
4.2.2 基于词语分类和排序的最大匹配算法 |
4.3 歧义切分处理 |
4.3.1 歧义字段识别 |
4.3.2 歧义消解 |
4.4 未登录词处理 |
4.4.1 条件随机场模型 |
4.4.2 基于条件随机场模型的命名实体识别 |
4.5 中文分词过程整体流程 |
4.6 本章小结 |
第5章 实验分析及系统实现 |
5.1 实验分析 |
5.1.1 分词速度对比实验分析 |
5.1.2 分词准确率实验分析 |
5.2 中文分词系统设计与实现 |
5.2.1 系统架构设计 |
5.2.2 系统功能设计 |
5.2.3 系统实现 |
5.3 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
个人简历 |
(6)基于深度学习的文本表示与分类研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景和意义 |
1.2 研究现状 |
1.2.1 文本表示 |
1.2.2 文本分类 |
1.2.3 存在的问题 |
1.3 论文的主要研究内容 |
2 文本表示及文本分类方法 |
2.1 中文分词方法 |
2.1.1 字符串匹配分词法 |
2.1.2 统计分词法 |
2.1.3 理解分词法 |
2.1.4 中文分词工具 |
2.1.5 中文分词面临的问题 |
2.2 文本表示 |
2.2.1 One-hot |
2.2.2 向量空间模型 |
2.2.3 LDA主题模型 |
2.2.4 词向量 |
2.3 文本分类 |
2.3.1 逻辑回归 |
2.3.2 朴素贝叶斯 |
2.3.3 支持向量机 |
2.3.4 决策树 |
2.3.5 人工神经网络 |
2.3.6 集成学习 |
2.4 深度学习 |
2.4.1 深度信念网络和深度玻尔兹曼机 |
2.4.2 自动编码 |
2.4.3 卷积神经网络 |
2.4.4 循环神经网络 |
2.4.5 长短时记忆模型 |
2.4.6 关键技术 |
2.5 本章小结 |
3 基于改进Fasttext模型的文本表示 |
3.1 问题描述 |
3.2 文本表示模型 |
3.2.1 Word2vec模型 |
3.2.2 Fasttext模型 |
3.2.3 改进的Fasttext模型 |
3.3 实验过程 |
3.3.1 实验方案 |
3.3.2 实验数据集 |
3.3.3 评估方法 |
3.3.4 实验测试 |
3.4 实验结果与分析 |
3.5 本章总结 |
4 循环神经网络和卷积神经网络混合的文本分类方法 |
4.1 问题描述 |
4.2 长文本分析及句子表示 |
4.2.1 文本分类流程 |
4.2.2 长文本特性分析 |
4.2.3 文本特征表示 |
4.3 BGRU-CNN混合模型 |
4.3.1 建立BGRU-CNN模型 |
4.3.2 BGRU-CNN模型循环层计算节点 |
4.3.3 训练BGRU-CNN模型 |
4.4 实验过程 |
4.4.1 实验数据集 |
4.4.2 实验测试 |
4.5 实验结果分析 |
4.6 本章总结 |
5 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
作者攻读学位期间发表论文清单 |
致谢 |
(7)基于BiGRU-Attention模型的文本情感分析研究(论文提纲范文)
致谢 |
摘要 |
abstract |
变量注释表 |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 本论文研究内容 |
1.4 本论文内容安排 |
2 文本情感分析相关理论 |
2.1 文本处理的相关技术 |
2.2 机器学习中文本分析的经典算法 |
2.3 深度学习在自然语言处理领域的演变历程 |
2.4 注意力机制 |
2.5 本章小结 |
3 文本情感分析模型改进研究 |
3.1 模型提出的背景 |
3.2 BiGRU-Attention模型 |
3.3 BiGRU-Attention模型训练方法 |
3.4 本章小结 |
4 实验结果及其分析 |
4.1 实验评价标准 |
4.2 实验步骤 |
4.3 实验运行环境及数据集 |
4.4 BiGRU-Attention参数选择实验 |
4.5 对比实验 |
4.6 同一数据集的验证实验 |
4.7 不同数据集的验证实验 |
4.8 本章小结 |
5 结论与展望 |
5.1 结论 |
5.2 展望 |
参考文献 |
作者简历 |
学位论文数据集 |
(8)基于协同过滤算法的安规考核系统试题推荐方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 引言 |
1.2 研究的背景及意义 |
1.3 国内外研究现状 |
1.3.1 推荐系统研究现状 |
1.3.2 推荐算法研究现状 |
1.4 论文结构及研究内容 |
第2章 文本推荐相关技术 |
2.1 中文分词 |
2.1.1 分词的定义 |
2.1.2 常用的分词方法 |
2.1.3 技术难点 |
2.2 常用推荐算法 |
2.2.1 关联分析推荐算法-Apriori算法 |
2.2.2 协同过滤算法 |
2.3 文本向量化及文本相似度的计算方法 |
2.3.1 文本向量化方法介绍 |
2.3.2 距离度量方法 |
2.4 本章小结 |
第3章 基于安规考核题库的用户-物品评分矩阵和物品相似度矩阵实现 |
3.1 安规培训考核专家系统及题库介绍 |
3.1.1 安规培训考核专家系统概述 |
3.1.2 安规培训考核专家系统题库结构 |
3.2 用户-物品评分矩阵的实现 |
3.2.1 数据库中User表的设计 |
3.2.2 生成other字段中userItem内容 |
3.3 物品相似度矩阵的实现 |
3.3.1 中文分词的实现 |
3.3.2 文本向量化和计算距离的实现 |
3.3.3 实验测评及结果展示 |
3.4 本章小结 |
第4章 试题推荐系统设计与实现 |
4.1 系统需求分析 |
4.2 系统概要设计 |
4.2.1 试题推荐系统功能设计 |
4.2.2 系统架构设计 |
4.3 基于物品协同过滤算法试题推荐系统实现 |
4.3.1 矩阵动态更新 |
4.3.2 生成推荐列表 |
4.4 系统功能展示 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读硕士学位期间发表的论文及其他成果 |
致谢 |
(9)基于Python的彝文词典分词技术研究(论文提纲范文)
中文摘要 |
ABSTRACT |
摘要 |
绪论 |
第1章 彝文分词概述 |
1.1 彝文分词的基本问题 |
1.1.1 彝文字符编码 |
1.1.2 彝语文本 |
1.2 彝文分词难点 |
1.2.1 彝文分词标准 |
1.2.2 彝文分词规范和分词词典 |
1.2.3 彝语分词中的消歧 |
1.2.4 彝语未登陆词 |
1.3 本章小结 |
第2章 彝文基本分词原理 |
2.1 基于字符串匹配的分词方法 |
2.1.1 最大匹配法(Maximum Match Method) |
2.1.2 最小匹配法(Minimum Match Method) |
2.1.3 双向匹配法(Bi-directional Match Method) |
2.2 基于统计的分词方法 |
2.3 基于理解的分词方法 |
2.4 分词方法比较 |
2.5 本章小结 |
第3章 PYTHON环境下彝文分词实现原理 |
3.1 机械分词的实现 |
3.1.1 分词词典的建立 |
3.1.2 Python环境下的彝文编码 |
3.2 基于最大匹配法的彝文机械分词分实践 |
3.2.1 彝文最大正向匹配的实际操作 |
3.2.2 最大逆向匹配的实际操作 |
3.2.3 最大双向匹配的实际操作 |
3.3 本章小结 |
第4章 实验结果及分析 |
4.1 实验环境及测评指标 |
4.1.1 实验环境与资源 |
4.1.2 测评指标 |
4.2 实验内容与结果分析 |
4.2.1 实验内容和结果 |
4.2.2 结果分析 |
4.3 本章小结 |
第5章 彝文机械分词系统说明 |
5.1 源码封装过程说明 |
5.2 系统安装与说明 |
5.3 分词实例 |
5.4 本章小结 |
结语及展望 |
一、彝文机械分词总结 |
二、对未来彝文分词标准的建议 |
三、存在的问题与未来的展望 |
参考文献 |
致谢 |
附录一 (封闭测试) |
附录二 (开放测试) |
(10)基于条件随机场的《左传》自动分词研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与研究意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 本文的主要工作 |
1.3 创新之处 |
1.4 本章小结 |
第二章 文献综述 |
2.1 汉语自动分词的概述 |
2.1.1 汉语自动分词的算法 |
2.1.2 目前汉语自动分词的发展趋势 |
2.1.3 汉语自动分词的两大困难 |
2.2 古汉语自然语言处理的发展概况 |
2.2.1 古汉语自动分词概况 |
2.2.2 古汉语其他信息处理技术概况 |
2.3 条件随机场模型在自动分词中的应用 |
2.4 本章小结 |
第三章 基于条件随机场的《左传》自动分词实验算法设计 |
3.1 算法的总体设计 |
3.2 语料选取 |
3.3 语料的标注 |
3.3.1 序列标注 |
3.3.2 标注体系的选择 |
3.4 特征的选择 |
3.4.1 上下文窗口长度 |
3.4.2 句法结构 |
3.4.3 语言特征 |
3.5 特征模板 |
3.5.1 特征模板的格式 |
3.5.2 特征模板的类型 |
3.6 本章小结 |
第四章 基于条件随机场的《左传》自动分词实验算法实现 |
4.1 实验的工具 |
4.1.1 CRF++工具包的选择 |
4.1.2 CRF++工具包的使用 |
4.2 基于条件随机场的《左传》分词流程 |
4.3 本章小结 |
第五章 基于条件随机场的《左传》自动分词实验结果测评 |
5.1 实验测评的标准 |
5.2 实验与结果 |
5.2.1 基于词表的自动分词 |
5.2.2 无特征下的CRF自动分词 |
5.2.3 加入一个特征的CRF自动分词 |
5.2.4 加入两个特征的CRF自动分词 |
5.2.5 加入三个特征的CRF自动分词 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 研究总结 |
6.2 不足与展望 |
参考文献 |
附录 |
致谢 |
四、一个比较不同中文分词法的软件(论文参考文献)
- [1]文本分类中SVM核函数的探讨[D]. 王敬. 兰州大学, 2021(02)
- [2]基于在线评价的消费者网购满意度影响因素分析 ——以京东商城光学眼镜类产品为例[D]. 陶哲源. 北京化工大学, 2020(02)
- [3]基于多部情感词典和深度学习的中文微博情感分析研究[D]. 吴杰胜. 安徽理工大学, 2020(04)
- [4]多源学术新媒体用户生成内容的知识聚合研究[D]. 陶兴. 吉林大学, 2020(08)
- [5]基于词语分类和排序的最大匹配中文分词技术[D]. 赵悦. 沈阳师范大学, 2020(12)
- [6]基于深度学习的文本表示与分类研究[D]. 梁思程. 西安工程大学, 2019(02)
- [7]基于BiGRU-Attention模型的文本情感分析研究[D]. 孙玉霞. 辽宁工程技术大学, 2019(07)
- [8]基于协同过滤算法的安规考核系统试题推荐方法研究[D]. 任军帅. 华北电力大学, 2019(01)
- [9]基于Python的彝文词典分词技术研究[D]. 阿别木呷. 西南民族大学, 2018(03)
- [10]基于条件随机场的《左传》自动分词研究[D]. 陆启文. 南京农业大学, 2018(07)