基于SOM算法的文本聚类

一、基于SOM算法实现的文本聚类（论文文献综述）

李丰男^[1]（2020）在《基于Spark的网络舆情分析方法的研究与应用》文中进行了进一步梳理随着互联网技术的飞速发展,人们日常生活中使用网络的时刻也越来越多,越来越多的人习惯于在网上针对于社会热点、时事新闻发表自己的看法,而互联网作为这样一个自由的虚拟平台,并不意味着它不需要任何管理,及时发现话题热点,遏制不实谣言的传播,引导舆论向正确的方向发展,保证一个良好的互联网环境,是互联网时代政府相关工作人员的新职责。然而面对如此海量的文本数据,如何从中提炼出话题,及时地为之后的管理、引导工作指明方向,正是该项研究工作的第一大难点。本文结合了自然语言处理、机器学习、大数据处理这几种相关技术,致力于解决这一难点问题。本文针对网络舆情分析中的话题检测部分,提出了一种基于多特征融合的Single-Pass-SOM组合模型的话题检测方法。该话题检测方法分为了两部分,一部分为文本表示,一部分为话题聚类。针对文本表示部分,本文提出了基于时间衰减因子的LDA&&word2vec文本表示模型,利用LDA模型提取主题特征,利用word2vec模型提取语义特征,将文本的这两种特征融合在一起,并设计了时间衰减因子,将时间特征也加入其中,从而获取更加全面的文本信息,提高话题检测的精度。针对话题聚类部分,本文提出了Single-Pass-SOM组合聚类模型,结合了Single-Pass聚类算法和SOM神经网络的优点,使用Single-Pass聚类算法作为粗聚类的模型,使用SOM神经网络作为细聚类的模型,提高了话题聚类的准确率和召回率。本文也通过设计一系列对比实验,证明了该话题检测方法的有效性。并且,本文还在提出的话题检测方法中应用了Spark分布式计算框架,采用并行化计算的方式,提高了算法的运行效率。

崔国荣^[2]（2020）在《基于深度学习的软件需求聚类研究》文中研究说明伴随着第四次工业革命的崛起,大数据和人工智能搭载上了高速发展的列车,软件数量及规模以惊人的速度增长,类型也趋于多样化,在众多风格迥异的软件中,以何种策略挖掘需求特征,并对软件需求特征聚类已成为软件工程和人工智能交叉领域的重要挑战。软件需求文本聚类为软件质量提供了可靠的保障,最大限度地减少了需求分析的风险,降低了软件开发的成本。国内外对于软件需求文本的特征挖掘研究尚少,同时聚类算法过于单一,对于不同的功能性需求划分模糊,对于噪声模型鲁棒性较差。本文针对上述问题,结合深度学习技术和经典聚类算法提出了深度聚类模型,在软件需求文本上取得了良好的聚类效果。本文对软件需求文本进行了数据分析,发现软件需求文本存在离散度高、噪声大、稀疏性等特点,而现有的聚类工作基于传统特征提取来划分样本,鲜有考虑软件需求功能语义。因此,本文提出了两种方式用于软件需求文本聚类:（1）融合自注意力机制和多路金字塔卷积的文本聚类算法,利用卷积神经网络进行特征融合,再将融合后的特征由传统聚类算法完成聚类输出;（2）正则变分嵌入式聚类,利用正则变分自编码深度提取文本特征,然后将编码器的特征用于聚类,经过反向传播优化相对熵损失、重构损失和聚类损失,以达到好的聚类效果。在融合自注意力机制和多路金字塔卷积的软件需求聚类算法（Self-Attention Multi-Channel Pyramid Convolution Network and Self Organization Map,SA-MPCN&SOM）上,将软件需求文本经过文本预处理和词嵌入后,注意力机制会捕获句内关系,然后基于多路金字塔网络以不同的卷积窗口提取特征信息,卷积过程中文本感知的片段与序列长度成反比,经过融合多路特征再由自组织映射网络完成聚类输出。该方法解决了传统特征提取方式的缺点,通过与其它深度特征提取方式对比,突出了本文方法的有效性。为解决两段式聚类不能反向传播优化聚类中心和样本分布的问题,在正则变分嵌入式聚类（Dropout Variational Embedding Cluster,DVEC）上,将原始软件需求文本经过句嵌入,然后输入到正则变分聚类模型中,融合Dropout正则化去除噪声,再由变分嵌入式聚类的自编码器结构学习原始数据分布,通过重参数技巧使嵌入空间符合正态分布,使用解码器重构文本,嵌入空间的向量经过聚类划分,定义聚类的目标分布,通过小批量梯度下降共同优化正则变分自编码器损失和聚类损失,最终输出聚类结果。该方法提高了模型的鲁棒性,避免特征空间因聚类损失而失真,同时学习样本分布提高了特征质量,通过与国内外聚类算法对比,该方法可以达到良好的聚类效果。

陈诚^[3]（2020）在《PCA-PSO-FCM在短文本聚类中的研究与应用》文中认为当下社交网络高速发展,各类信息数量成指数式的爆发增长,人们生活,社交,娱乐,阅读更加依赖于社交网络。为了满足人们日益增长的快速获取信息的需求,互联网中诞生了诸如微博,豆瓣,知乎,今日头条等媒体。这类媒体通过给用户推送短文本信息,使得用户得以在短时间内,迅速了解时下社会问题,热点新闻,重要事件等与生活息息相关的信息。随着这类短文本信息量不断的积累,这其中蕴含的大量有价值的信息对人们的日常的生活,工作,学习,有着不小的影响。并且对经济,文化,政治等多个方面有着重大的研究意义。对这类短文本数据进行精准且有效的聚类,对舆情监测,广告投放,情感分析,文本分类等领域,有着先导作用和应用的价值。因此,对于海量的短文本信息数据的聚类研究,是存在着实际意义和研究前景的。短文本与长文本相比,文本长度短,词汇个数少。在整体的信息量不降低的前提下,短文本的单个词具有高信息量,高概括性。传统基于词向量特征空间模型,将短文本转换成稀疏的空间词特征矩阵,在处理大量数据时,会面临空间复杂度高,特征矩阵稀疏度高,针对噪声的抵抗弱,鲁棒性低的问题。利用word2vec结合文本卷积神经网络的方法将文本信息压缩,极大程度的保留了文本数据的关键特征,针对于短文本的空间复杂度,降低词向量的稀疏程度上面做了优化。短文本存在多义性以及多类性的性质,传统聚类算法只能将短文本数据硬性划分为一类,从而丢失多类交界文本数据的有效信息,无法完整的反映文本的真实信息,并且聚类结果精度不高,聚类中心偏移。为了解决短文本聚类存在多义性和多类性的问题,本文提出一种在Text-CNN支持下PCA-PSO-FCM短文本聚类算法。利用word2vec模型训练语料库,训练出词向量;使用Text-CNN的一维卷积层,对特征进行学习将词向量从高维映射到低维;然后通过PCA计算各维度主成分贡献率限制文本粒子各维度的移动;最后通过PCA-PSO-FCM算法对短文本进行实验,验证算法的有效性,对比算法的整体性能。结果表明该算法在短文本聚类中比传统聚类算法有明显的改进。

赵翠翠,尹春华^[4]（2020）在《K-means和SOM在商品评论中的情感词聚类对比》文中研究表明为了选取适合商品评论中情感词聚类的方法,利用K-means和SOM两种算法分别进行聚类分析;以商品评论为研究对象,通过对商品评论文本进行分词、向量化表示等步骤得到情感词向量,采用欧氏距离进行相似度聚类计算;经过对两种算法可视化结果和准确率的对比分析,发现SOM算法的聚类结果更均匀,准确率更高;实验表明,SOM算法的情感词聚类效果优于Kmeans算法,更适合于商品评论情感词聚类。

康雁,崔国荣,李浩,杨其越,李晋源,王沛尧^[5]（2020）在《融合自注意力机制和多路金字塔卷积的软件需求聚类算法》文中研究表明随着软件数量的急剧增长以及种类的日益多样化,挖掘软件需求文本特征并对软件需求特征聚类,成为了软件工程领域的一大挑战。软件需求文本的聚类为软件开发过程提供了可靠的保障,同时降低了需求分析阶段的潜在风险和负面影响。然而,软件需求文本存在离散度高、噪声大和数据稀疏等特点,目前有关聚类的工作局限于单一类型的文本,鲜有考虑软件需求的功能语义。文中鉴于需求文本的特点和传统型聚类方法的局限性,提出了融合自注意力机制和多路金字塔卷积的软件需求聚类算法（SA-MPCN&SOM）。该方法通过自注意力机制捕获全局特征,然后基于多路金字塔卷积从不同窗口的通路深度挖掘需求文本特征,使得感知的文本片段逐倍增加,最终融合多路文本特征,利用SOM完成聚类。在软件需求数据上的实验表明,所提方法能较好地挖掘需求特征并对其聚类,性能上优于其他特征提取方式和聚类算法。

张浩洋^[6]（2020）在《基于知识地图的民航航空法规知识管理方法研究及应用》文中研究说明交通运输业是中国改革开放进程中的支柱性产业,而民航业更是实现交通强国的重要战略产业。安全作为任何一个行业都必须直面的主题,在民航空管中也无法回避。截至2018年年底,我国已经拥有了一部民航基本法（《中华人民共和国民用航空法》）,二十七部行政法规和行政法规性文件,一百一十五部现行有效规章,这些法律文件组成了中国多层次的民航法规体系框架。但中国民航局和各地方民航局还在不断地增删大量新的法规和管理条例,这就增大了法律制定者和法律执行者的工作难度。对于法律制定者而言,想要确保法律条文在设立时既不会与已知法律产生冲突,也不会在废止时留下与其它法律的关联,日益成为一件困难的事;对于法律执行者而言,如何在第一时间找出与当前状况相关联的最新、有效的法律条文,也成为其首要关心的问题。本文以民航空管中的安全管理系统为背景,针对安全管理过程中法律文件不能及时更新、法律条文数量及信息量过大及法律适用性等问题,首先将改进的GHSOM算法用于民航航空法规知识地图的构建,随后采用Doc2Vec深度神经网络算法挖掘法规文本之间的相似性及关联关系以用于在知识地图中快速搜索法规内容和知识地图的更新,切实提高法律工作者的工作效率,提高民航安全管理能力。本论文对系统中使用的关键技术作出了详细阐述,对系统的主要功能给出了实现,具体工作如下:1.对民航航空法规知识管理系统的需求进行了分析,给出了系统总体框架,对系统所用到的关键技术进行了具体阐述,同时也详细分析了系统中主要功能模块处理流程。2.提出了一种改进的GHSOM聚类分析算法。K-means等文本聚类算法聚类后簇的数量往往需要被提前指定,这就在一定程度上降低了结果的精度。改进的GHSOM算法克服了事先固定地图大小与非阶层式调整地图架构的问题,可根据资料的结构去动态发展地图大小与阶层架构,动态分配簇数目。本文在GHSOM算法验证级内终止条件时增添了赤迟信息量准则,以动态调整算法中?1的值,使结果更加精确。3.提出了基于Doc2Vec算法的民航航空法规文本相似性判断算法。本文对Doc2Vec算法在文本相似度比对方面的效果进行了实验研究,并尝试将该算法应用到对文本聚类结果的更新和对相近知识内容的查询中,提出了基于值域的三区间分类法。4.对民航航空法规知识管理系统的背景及应用进行了具体描述,给出了法律文本关联查询、危险源识别等功能的系统实现,并设计了基于用户错误报告的知识地图寿命监控机制,实现对文本聚类结果和地图更新结果的参数化追踪。

陈万振^[7]（2016）在《TextRank关键词提取算法与SOM文本聚类模型的优化研究》文中进行了进一步梳理互联网信息技术快速发展,为满足人们对浩瀚网络文本信息的检索需求,文本聚类逐渐成为人们研究的焦点。在文本聚类过程中,关键词提取与聚类算法分析起着至关重要的作用。为改善的文本聚类效果,本文从这两个方面展开研究：1.提出改进的TextRank关键词提取算法预处理文本。将基于滑动窗格的词互信息作为边权重加入到TextRank算法的图模型中,优化了TextRank算法中候选词评分分配问题。在此基础上,将候选词的顶点权重-单文档词频TF（Term Frequency）加入到TextRank算法的权值迭代计算公式,用词频调整词的跳转概率,一定程度上解决了等概率“跳转”问题。实验结果表明：所提算法的准确率、召回率以及F1值均有提升,算法的迭代计算效率提升20%；所提取关键词更能代表文本特征,有助于改善后续的文本聚类效果。2.将贝叶斯正则化理论引入SOM文本聚类训练算法,在SOM权值调整公式中引入反映网络权值复杂性的惩罚项,避免权值调整过程中出现过度拟合；利用贝叶斯推理获取权值调整公式中的最优超参数,使迭代训练过程中网络权值和输入样本的概率分布趋于更一致,达到提升SOM文本聚类结果的目的。在UCI和文本数据集上的实验结果表明：与传统的SOM算法相比,所提算法的聚类凝聚度平均提升了1.5倍,聚类的准确率亦有提高,聚类效果较好。

李超雄,黄发良,温肖谦^[8]（2015）在《基于改进BBO的Web文本聚类算法》文中指出针对生物地理优化算法（Biogeography-Based Optimization,BBO）随机初始化以及轮盘迁移机制等不足,结合自组织神经网络算法（Self-Organizing Map,SOM）,提出了一种用于Web文本聚类的改进BBO算法（Improved Biogeography-Based Optimization,IBBO）.该算法引入SOM改进BBO栖息地随机初始化策略,并结合局部优化思想提出了一个基于梯度下降贪心搜索（Gradient Descent Search,GDS）的新迁移算子.真实数据集Reuters-21578的实验结果表明IBBO算法具有良好的聚类有效性,能更好地对Web文本进行聚类.

侯泽民,巨筱^[9]（2014）在《一种改进的基于潜在语义索引的文本聚类算法》文中研究指明提出一种改进的基于潜在语义索引的文本聚类算法。算法引入潜在语义索引理论,改进传统的SOM算法。用潜在语义索引理论表示文本特征向量,挖掘文本中词与词之间隐藏的语义结构关系,从而消除词语之间的相关性,实现特征向量的降维。改进传统的SOM算法的局限性,准确给出聚类类别数目的值。实验结果表明,本算法的聚类效果更好,聚类时间更少。

蔡丽宏^[10]（2011）在《SOM聚类算法的改进及其在文本挖掘中的应用研究》文中提出情报是国防的灵魂,关系到一个国家的安危及进步。而迅速发展的互联网为国防新闻的搜集提供了最及时、最重要的来源。但是由于互联网上的情报信息大多以半结构化甚至非结构化的自由文本的形式存在,而且数量之大,让人无法形容,导致情报人员容易在“数据海洋”、“信息迷雾”中迷失。因此有必要实现一个文本挖掘系统帮助情报人员自动进行分类、聚类信息,进而快速从中提取出有效情报。文本聚类是文本挖掘中最基本、也是最重要的功能,因此在实现该文本挖掘系统时,关键的问题是如何进行文本聚类以及如何提高聚类的效率。本文先分析了文本聚类的研究背景、国内外研究现状,再介绍了文本聚类的相关基础理论,包括文本挖掘的理论和文本聚类的相关关键技术,着重介绍了自组织映射神经网络SOM聚类算法的工作原理、基本流程,并分析出SOM的优缺点。针对SOM聚类算法的缺点,从两方面对应提出改进方案,即一方面是针对传统上基于向量空间模型表示的输入向量存在高维稀疏及缺乏语义支持的问题,提出基于领域本体将文本表示成主题概念向量;另一个方面是针对聚类过程中传统上采用全失真搜索最邻近结点的乘法运算量过高导致聚类时间过长的问题,提出部分失真方法,早期拒绝不可能的候选获胜神经元,避免不必要的计算,降低计算时的乘法运算量,提高了聚类速度。最后,将改进后的SOM算法应用于国防文本挖掘中,以实验验证其有效性及相对于原始的SOM算法的优越性。

二、基于SOM算法实现的文本聚类（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、基于SOM算法实现的文本聚类（论文提纲范文）

（1）基于Spark的网络舆情分析方法的研究与应用（论文提纲范文）

摘要

abstract

第1章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 网络舆情研究现状

1.2.2 话题检测研究现状

1.2.3 文本表示方法研究现状

1.3 论文主要研究内容

1.4 论文组织结构

1.5 本章小结

第2章相关技术研究

2.1 文本分析概述

2.2 文本预处理

2.2.1 分词

2.2.2 去停用词

2.3 文本特征提取

2.4 分布式计算框架Spark

2.4.1 Spark概述

2.4.2 Spark数据计算单元

2.4.3 Spark生态系统

2.4.4 Spark运行机制

2.5 本章小结

第3章基于时间衰减因子的LDA&&word2vec文本表示模型

3.1 引言

3.2 传统的文本表示模型

3.2.1 布尔模型

3.2.2 向量空间模型

3.2.3 主题模型

3.2.4 词向量模型

3.3 文本相似度计算

3.4 改进文本表示模型的构建

3.5 本章小结

第4章 Single-Pass-SOM组合聚类模型

4.1 引言

4.2 文本聚类相关算法

4.2.1 基于划分的聚类算法

4.2.2 基于层次的聚类算法

4.2.3 基于密度的聚类算法

4.2.4 基于网格的聚类算法

4.2.5 基于模型的聚类算法

4.2.6 增量式聚类算法

4.3 Single-Pass聚类算法

4.4 SOM聚类算法

4.5 组合聚类模型的构建

4.6 Spark并行化计算

4.7 本章小结

第5章实验结果与分析

5.1 实验数据

5.2 评价指标

5.3 实验设计与结果分析

5.3.1 不同文本表示模型对比实验

5.3.2 不同话题聚类算法对比实验

5.3.3 Spark并行化计算对比实验

5.4 本章小结

第6章总结与展望

6.1 工作总结

6.2 展望

参考文献

致谢

作者简历及攻读学位期间发表的学术论文与研究成果

（2）基于深度学习的软件需求聚类研究（论文提纲范文）

中文摘要

Abstract

第一章引言

1.1 课题研究背景

1.2 课题研究现状

1.2.1 需求文本聚类现状

1.2.2 文本聚类算法现状

1.3 研究内容和主要工作

1.4 论文组织结构

第二章相关理论概述

2.1 软件需求数据特点

2.2 自编码器概述

2.3 特征提取技术研究

2.3.1 传统特征提取

2.3.2 深度特征提取

2.4 聚类算法介绍

2.4.1 传统聚类算法

2.4.2 深度聚类算法

第三章基于自注意力机制和多路金字塔卷积的软件需求聚类算法

3.1 算法概述

3.2 文本预处理

3.2.1 英文分词

3.2.2 去除停用词

3.2.3 文本向量化

3.3 基于自注意力机制和多路金字塔卷积的聚类

3.3.1 自注意力机制

3.3.2 多路金字塔卷积网络的特征提取

3.3.3 SOM文本聚类

3.3.4 算法流程

3.4 实验对比与分析

3.4.1 实验数据

3.4.2 实验设置

3.4.3 评价指标

3.4.4 结果分析

第四章基于正则变分嵌入式的软件需求聚类算法

4.1 算法概述

4.2 句嵌入模型

4.3 正则变分嵌入式聚类

4.3.1 Dropout正则化

4.3.2 变分嵌入式聚类

4.3.3 算法流程

4.4 实验对比与分析

4.4.1 实验设置

4.4.2 结果分析

第五章总结与展望

5.1 总结

5.2 展望

参考文献

攻读硕士学位期间完成的科研成果

致谢

（3）PCA-PSO-FCM在短文本聚类中的研究与应用（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 文献综述

1.2 国内外研究现状

1.2.1 短文本研究现状

1.2.2 短文本聚类的问题和解决方法

1.3 本文的主要工作

1.4 本文的组织结构

1.5 本章小结

第2章相关基础理论

2.1 中文分词

2.1.1 停用词

2.2 词向量

2.2.1 传统词向量模型

2.2.2 词嵌入模型

2.3 文本卷积神经网络模型

2.3.1 卷积神经网络模型

2.3.2 文本卷积神经网络模型

2.4 主成分分析

2.5 本章小结

第3章基于主成分分析优化的PSO-FCM聚类算法

3.1 粒子群模糊C均值算法

3.1.1 FCM算法流程

3.1.2 FCM算法优化

3.2 基于主成分分析优化的PSO-FCM

3.2.1 PSO-FCM模型算法的优化

3.2.2 PSO-FCM模型算法步骤

3.3 Text-CNN支持下的短文本聚类优化模型

3.3.1 Text-CNN和 PCA-PSO-FCM模型算法融合

3.3.2 融合模型算法步骤

3.4 本章小结

第4章实验分析

4.1 实验数据

4.2 评价指标

4.3 实验对比

4.3.1 各算法监督聚类性能对比实验

4.3.2 PCA-PSO-FCM在短文本聚类中卷积层参数调参对比实验

4.3.3 聚类算法卷积层参数调参对比实验

4.3.4 PCA-PSO-FCM在调整聚类中心数目下性能对比实验

4.3.5 聚类算法在聚类中心数目调整性能对比实验

4.3.6 PCA-PSO-FCM半监督聚类性能对比实验

4.3.7 聚类算法在半监督聚类性能对比实验

4.4 实验结论

4.5 本章小结

第5章总结和展望

总结

展望

参考文献

致谢

攻读学位期间的科研成果

（4）K-means和SOM在商品评论中的情感词聚类对比（论文提纲范文）

0 引言

1 算法描述

1.1 K-means算法

1.2 SOM算法

2 聚类实验

2.1 实验流程

2.2 数据准备

2.3 数据预处理

2.4 相似度计算

3 实验结果及分析

3.1 K-means聚类

3.2 SOM聚类

3.3 结果对比

4 结束语

（5）融合自注意力机制和多路金字塔卷积的软件需求聚类算法（论文提纲范文）

1 引言

2 相关研究

2.1 需求文本聚类研究

2.2 文本聚类方法的研究

3 SA-MPCN&SOM软件需求聚类

3.1 SA-MPCN&SOM算法模型

3.2 文本预处理

3.3 基于SA-MPCN的特征提取

3.4 基于SOM的文本聚类

3.5 SA-MPCN&SOM算法

4 实验及结果分析

4.1 实验数据

4.2 实验设置

4.3 结果分析

（6）基于知识地图的民航航空法规知识管理方法研究及应用（论文提纲范文）

摘要

abstract

缩略词

第一章绪论

1.1 研究背景及意义

1.2 知识地图技术研究现状

1.3 知识地图更新技术研究现状

1.4 论文主要工作及结构安排

1.4.1 主要工作

1.4.2 结构安排

第二章民航航空法规知识管理系统设计

2.1 系统需求分析

2.1.1 系统数据分析

2.1.2 系统功能需求

2.1.3 系统性能需求

2.2 系统总体设计

2.2.1 系统框架设计

2.2.2 系统功能设计

2.3 关键技术

2.3.1 知识地图构建方法

2.3.2 知识地图更新方法

2.4 本章小结

第三章基于GHSOM算法的知识地图构建方法研究

3.1 相关概念

3.1.1 SOM算法的发展与原理

3.1.2 GHSOM算法基本原理

3.1.3 改进的GHSOM算法设计

3.2 基于GHSOM算法的民航航空法规知识地图构建

3.2.1 民用航空法规集

3.2.2 数据预处理

3.2.3 利用GHSOM算法构建民航法规知识地图

3.3 实验结果及分析

3.3.1 实验环境及参数设定

3.3.2 实验结果及分析

3.3.3 实验结果评估

3.4 本章小结

第四章基于Doc2Vec算法的知识地图更新方法研究

4.1 相关概念

4.2 Doc2Vec深度神经网络算法

4.2.1 中文文本向量化

4.2.2 文本相似度计算

4.3 实验结果及分析

4.3.1 待测文本选择及预处理

4.3.2 段落向量的训练

4.3.3 实验结果及分析

4.4 本章小结

第五章系统实现与应用

5.1 项目背景

5.2 系统开发与运行环境

5.2.1 系统开发环境

5.2.2 系统运行环境

5.2.3 系统关键技术实现

5.3 系统功能流程

5.4 系统运行效果

5.5 本章小结

第六章总结与展望

6.1 总结

6.2 展望

参考文献

致谢

在学期间的研究成果及发表的学术论文

（7）TextRank关键词提取算法与SOM文本聚类模型的优化研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.2.1 关键词提取

1.2.2 文本聚类算法

1.3 本文的主要创新点

1.4 论文的组织结构

第二章文本聚类关键技术

2.1 文本聚类关键技术

2.1.1 中文分词

2.1.2 停用词处理

2.1.3 关键词提取

2.1.4 文本建模

2.1.5 文本聚类算法

2.2 TextRank算法

2.2.1 图模型的建立

2.2.2 关键词的排序

2.2.3 TextRank算法流程

2.3 SOM聚类算法

2.3.1 SOM的网格结构

2.3.2 SOM神经网络学习过程

2.4 本章小结

第三章 TextRank文本关键词提取算法的改进

3.1 TextRank算法模型的分析与优化

3.2 两种改进的TextRank算法

3.2.1 MI-TextRank算法

3.2.2 TFMI-TextRank算法

3.3 实验设计与结果分析

3.3.1 实验环境

3.3.2 实验数据集

3.3.3 实验步骤与结果分析

3.4 本章小结

第四章贝叶斯正则化的SOM文本聚类算法

4.1 贝叶斯正则化SOM提出的背景与思路

4.1.1 改进算法的提出背景

4.1.2 BR-SOM算法思路

4.2 BR-SOM聚类算法

4.2.1 贝叶斯正则化SOM的权值调整公式

4.2.2 贝叶斯正则化算法流程

4.2.3 仿真实验

4.3 基于BR-SOM算法的文本聚类

4.3.1 BR-SOM文本聚类流程

4.3.2 实验结果分析

4.4 本章小结

第五章总结与展望

5.1 本文工作总结

5.2 未来工作展望

参考文献

致谢

攻读硕士学位期间发表的论文

（8）基于改进BBO的Web文本聚类算法（论文提纲范文）

1标准BBO算法

2混合BBO算法IBBO

2. 1基于SOM的栖息地初始化

2. 2基于梯度下降搜索的迁移操作

3基于混合BBO算法的Web文本聚类

3. 1基于SVD的Web文本预处理

3. 2编码方法

3. 3栖息地适应度

3. 4算法描述

4实验

4. 1数据集与评价标准

4. 2实验结果与分析

5总结

（9）一种改进的基于潜在语义索引的文本聚类算法（论文提纲范文）

0 引言

1 相关技术

1.1 潜在语义索引

1.2 自组织映射网络

1)竞争。

2)合作。

3)自适应。

2 改进的基于潜在语义索引的文本聚类算法

2.1 传统SOM算法的局限性

2.2 SOM算法的改进策略

2.3 获取SOM算法聚类类别数目的值

2.4 改进的基于潜在语义索引的文本聚类算法

3 实验结果及分析

3.1 聚类效果评价方法

3.2 测试数据集

3.3 实验结果及分析

4 结束语

（10）SOM聚类算法的改进及其在文本挖掘中的应用研究（论文提纲范文）

摘要

Abstract

图表清单

第一章绪论

1.1 选题背景及意义

1.2 国内外研究现状

1.2.1 文本挖掘研究现状

1.2.2 文本聚类研究现状

1.3 本文的技术路线

1.4 本文的研究内容及结构安排

第二章文本聚类相关基础理论

2.1 文本挖掘

2.1.1 文本挖掘定义

2.1.2 文本挖掘过程

2.1.3 文本挖掘的应用

2.2 文本聚类关键技术

2.2.1 文本聚类的定义及聚类流程

2.2.2 分词

2.2.3 停用词处理

2.2.4 特征选取

2.2.5 文本向量表示

2.2.6 常用的文本聚类算法

2.3 本体

2.3.1 本体的定义及构成

2.3.2 本体的应用

2.4 本章小结

第三章面向国防新闻文本挖掘的SOM 聚类算法改进研究

3.1 国防新闻文本挖掘现状及背景介绍

3.2 国防新闻本体

3.3 自组织映射神经网络SOM 聚类算法

3.3.1 SOM 聚类算法的工作原理

3.3.2 SOM 聚类算法实现的基本流程

3.3.3 SOM 聚类算法的优点及存在的不足

3.4 基于领域本体的文本向量表示模型改进

3.4.1 传统的文本向量表示

3.4.2 基于国防新闻本体的文本主题概念向量表示

3.5 基于部分失真方法的SOM 聚类算法改进

3.5.1 传统的寻找获胜神经元方法——全失真方法

3.5.2 基于部分失真方法的SOM 聚类算法

3.6 本章小结

第四章 SOM 聚类算法的改进方案在国防新闻文本挖掘中的实验验证

4.1 系统总体结构设计

4.2 功能模块

4.2.1 文本预处理模块

4.2.2 聚类分析模块

4.3 实验结果分析与比较

4.3.1 文本聚类判断标准

4.3.2 实验语料简介

4.3.3 文本聚类结果分析比较

4.4 本章小结

第五章总结与展望

5.1 总结

5.2 展望

参考文献

致谢

攻读硕士期间公开发表的学术论文

四、基于SOM算法实现的文本聚类（论文参考文献）

[1]基于Spark的网络舆情分析方法的研究与应用[D]. 李丰男. 中国科学院大学(中国科学院沈阳计算技术研究所), 2020(07)
[2]基于深度学习的软件需求聚类研究[D]. 崔国荣. 云南大学, 2020(08)
[3]PCA-PSO-FCM在短文本聚类中的研究与应用[D]. 陈诚. 南华大学, 2020(01)
[4]K-means和SOM在商品评论中的情感词聚类对比[J]. 赵翠翠,尹春华. 北京信息科技大学学报(自然科学版), 2020(01)
[5]融合自注意力机制和多路金字塔卷积的软件需求聚类算法[J]. 康雁,崔国荣,李浩,杨其越,李晋源,王沛尧. 计算机科学, 2020(03)
[6]基于知识地图的民航航空法规知识管理方法研究及应用[D]. 张浩洋. 南京航空航天大学, 2020(07)
[7]TextRank关键词提取算法与SOM文本聚类模型的优化研究[D]. 陈万振. 广西大学, 2016(02)
[8]基于改进BBO的Web文本聚类算法[J]. 李超雄,黄发良,温肖谦. 福建师范大学学报(自然科学版), 2015(06)
[9]一种改进的基于潜在语义索引的文本聚类算法[J]. 侯泽民,巨筱. 计算机与现代化, 2014(07)
[10]SOM聚类算法的改进及其在文本挖掘中的应用研究[D]. 蔡丽宏. 南京航空航天大学, 2011(11)

标签：聚类论文; 机器学习论文; som论文; 层次聚类方法论文; 模糊聚类分析论文;

基于SOM算法的文本聚类

一、基于SOM算法实现的文本聚类（论文文献综述）

二、基于SOM算法实现的文本聚类（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、基于SOM算法实现的文本聚类（论文提纲范文）

（1）基于Spark的网络舆情分析方法的研究与应用（论文提纲范文）

（2）基于深度学习的软件需求聚类研究（论文提纲范文）

（3）PCA-PSO-FCM在短文本聚类中的研究与应用（论文提纲范文）

（4）K-means和SOM在商品评论中的情感词聚类对比（论文提纲范文）

（5）融合自注意力机制和多路金字塔卷积的软件需求聚类算法（论文提纲范文）

（6）基于知识地图的民航航空法规知识管理方法研究及应用（论文提纲范文）

（7）TextRank关键词提取算法与SOM文本聚类模型的优化研究（论文提纲范文）

（8）基于改进BBO的Web文本聚类算法（论文提纲范文）

（9）一种改进的基于潜在语义索引的文本聚类算法（论文提纲范文）

（10）SOM聚类算法的改进及其在文本挖掘中的应用研究（论文提纲范文）

四、基于SOM算法实现的文本聚类（论文参考文献）

猜你喜欢