一、内存优化工具集合(论文文献综述)
马皓宇[1](2021)在《雅砻江中下游梯级水库多目标精细优化调度及决策方法研究》文中进行了进一步梳理梯级水库作为开发与利用水能资源这一清洁可再生能源的重要工程措施,通过对一段时期内入库径流实施有计划调蓄,梯级水库可实现洪旱灾害的防范抵御、水电企业的效益增长、电网的安全稳定运行、生态环境的保护修复等多方面重大任务。并且近年来我国出台了一系列清洁能源消纳的鼓励政策,水能资源支持的水电行业已成为我国能源结构转变的关键。目前随着乌江、雅砻江、金沙江等十三大水电基地建设的逐步完成,我国各个流域内梯级水库系统的规模不断扩大,水电事业发展的重心由工程建设转至运行管理,而智慧水利这一概念的提出及先行先试工作的开展,更是凸显了强化以梯级水库为代表的水利工程设施的调度管理工作的重要意义。因此亟需开展梯级水库的多目标优化调度及决策方法的研究,以期在复杂的外部环境与工程背景下,编制以最大化梯级水库系统的水资源利用率为目标的调度方案,有效协调梯级系统的防洪、供水、发电、航运等多个目标,满足新形势下各行业部门对水资源的相关诉求。本文充分考虑梯级水库优化调度的理论研究与实际生产这两方面,针对短期单目标与中长期多目标的优化调度问题,重点考虑精细化调度、“维数灾”处理、多目标调度及多属性决策等难题,基于数学规划、概率统计、智能优化、并行加速等方面的理论方法,对短期和中长期优化调度的模型构建、求解算法改进及调度方案决策进行深入研究,取得了如下的主要成果:(1)梯级水电站精细化日发电计划制定。针对传统模式下水电站的优化出力计算不够准确,进而导致调度方案在实际实行中出现偏差的不合理情况,将各时段各电站内投运机组的台数、组合及负荷与流量的优化分配纳入考虑,构建厂间-厂内一体化调度的精细优化调度模型,实现梯级电站间与各个电站内的水能资源优化分配方式的统一;在此基础上,提出求解嵌套优化模型的嵌套多维动态规划算法,并通过雅砻江流域的锦西-锦东梯级系统的实例研究,验证所构建的精细优化模型与求解算法的优越性。(2)基于内存占用缩减和GPU并行加速的求解算法性能优化。针对嵌套动态规划在求解精细优化调度模型中出现的严重“维数灾”—计算任务与内存占用量均呈指数型增长,利用数据压缩与数据库技术实现程序占用内存的有效缩减,通过OpenACC标准下的GPU并行大幅提升算法的计算效率;在此基础上提出针对“维数灾”的改进嵌套动态规划,监测优化策略引入前后的程序运行的内存占用量与计算时长的变化以验证改进策略的效果。(3)构建新型多目标进化算法LMPSO并应用于实际梯调问题。针对多目标降维成单目标这一处理方式的缺陷,以及经典MOEAs在处理大规模高维多目标问题上性能不足的问题,引入算法的性能评价指标—超体积指标作为个体选择标准,采用问题变换策略降低搜索空间维数;由此有效降低多目标优化调度模型的求解难度,并以SMPSO为基础设计LMPSO,将改进后方法运用在雅砻江的三库联合调度,由此验证算法在面对多目标优化调度的高维难题上相比于其它方法的计算优势。(4)对传统区间数灰靶模型进行改进并应用于最佳均衡方案决策。考虑到梯级水库入流过程的预报存在误差,通过区间数表示调度方案的各维指标值更为合理,故选择引入区间数理论的灰靶决策模型进行调度方案决策;在传统区间数灰靶模型的基础上,设计基于集值理论的权重向量确定方式与基于多维度联合抽样的期望贴近度计算策略,并由此提出相应的改进模型;分别利用标准决策模型与改进模型实现雅砻江梯级水库系统的多属性方案决策,通过结果对比验证改进方法对区间数的处理更为合理,能有效避免计算过程中的信息失真。
朱红银[2](2021)在《基于GPU的晶格Boltzmann方法并行算法研究》文中研究表明晶格Boltzmann方法(Lattice Boltzmann method,LBM)是数十年来国际上发展起来的一种流体系统建模和模拟新方法。该方法兼具流体的微观分子动力学模型和宏观连续模型的优点,是介于两者之间的介观模型。由于清晰的物理背景和介观模拟的特性,晶格Boltzmann方法已经在微尺度流动与换热、多孔介质、生物流体、磁流体、晶体生长等传统方法难以有效模拟的领域广泛应用。另外,晶格Boltzmann方法具有天然的并行特性,因此特别适合在多核处理器上运行。NVIDIA GPU围绕可伸缩的多线程流式多处理器阵列构建,通过简单地扩展多处理器的数量和内存容量使GPU体系结构跨越广泛的市场范围。其在2006年推出CUDA(Compute Unified Device Architecture),一个通用并行计算平台和编程模型,解决了如何透明地扩展并行应用程序软件以利用不断增加的处理器核心这个问题。CUDA带有一个软件环境,使得开发人员如传统编程一样通过支持的编程语言如CUDA C、CUDA Python、CUDA Java等对GPU进行编程。已有许多学者探索晶格Boltzmann方法在NVIDIA GPU上的高效实现,然而,这些研究缺乏理论依据和数据支持,大多基于经验判断程序的性能瓶颈。GPU是复杂部件的集合,具有多对多连接的网状结构,优化手段应该综合考量各个单元的工作负载。本文使用NVIDIA GTC2019(GPU Technology Conference)最新提出的性能分析方法结合新一代性能分析工具,从GPU硬件的角度分析算法的性能并作优化。另一方面,多孔介质类模拟的流场具有复杂的几何结构,流体格子通常只占全部格子的很小部分,不参与演化的格子随机分散在流场中,破坏了程序访问的数据局部性。如果仍然采用常规的模拟方法,则会导致内存的大量浪费和极低的运行效率。本文提出适用于复杂几何模拟的高效GPU方案,经过与两种典型方案的比较,本文的方案具有最佳的性能。主要工作如下:(1)本文首先以三维圆柱内的泊肃叶流动举例说明性能分析方法和工具的使用。该算例使用曲线边界条件,每层边界缺少的分布函数由单个线程处理。因此线程被组织为一维线程格和一维线程块,每一线程格内只有一个线程块。根据Nsight Compute性能分析工具和峰值性能百分比分析法,更改线程格内的线程块数量以增加并行度,优化后的性能提升大约71%。之后,我们使用这一套工具和方法分析基于晶格Boltzmann方法的模拟在新的Volta架构上的性能瓶颈。首先是内存布局,我们详细介绍了分布函数的布局方式,实现了AOS、SOA、CSOA三种布局,实验结果证明SOA具有最佳的性能。接着,为了进一步提高内存吞吐量,我们将两个内核函数融合,取消分配给格子宏观属性的内存空间转而使用寄存器代替,优化后的内核函数性能提高了20%。最后,我们比较了碰撞先于流动的Push方案和流动先于碰撞的Pull方案的性能,并对两种方案都使用共享内存优化,结果显示Pull方案性能提升比Push方案高大约10%。(2)对于具有复杂几何结构的流场,我们分析了其在GPU上模拟的问题并实现了两种典型的解决方案。使用基于性能分析方法的GPU综合优化手段对这两种方案进行了优化,例如将常用数据的存储级别从全局内存提升到寄存器、格子宏观属性使用SOA布局方式等,经过优化后的方案性能提升大概8%。指出两种解决方案存在的不足:间接寻址方案重复存储了格子坐标导致了额外的内存负载,半直接寻址启动全矩阵规模的线程降低了运行效率。之后,我们设计用于复杂几何模拟的高效GPU方案,使用具有循环指针结构的寻址方法定位格子的存储位置。基于CUDA统一内存,前向指针用来确定流体格子的内存地址,反向指针用来恢复流体格子在原始流场中的坐标。针对具有多种格子类型的三维人眼前房房水自然对流的模拟,我们仔细的存储各种类型的格子数据以满足GPU合并访问的需要。由于本文的方案减少了内存中的总的读取/写入数量,因此具有最好的性能。综上所述,本文使用NVIDIA最新的性能分析方法和新一代性能分析工具代替经验判断,从GPU硬件的角度帮助我们定位程序的性能瓶颈,为之后的优化提供了数据支持。对于具有复杂几何结构的流场,本文提出的基于循环指针寻址方法的高效GPU方案既大量减少了内存使用,又显着提升了模拟效率。
刘博[3](2020)在《深度学习系统内存管理和通信优化关键技术研究》文中进行了进一步梳理深度学习作为目前人工智能领域的前沿技术,在处理现实世界复杂问题时优势显着。与传统的人工神经网络相比,深度神经网络拥有更多的隐藏层及神经元,同时产生了大量不同种类的中间数据。这些数据对训练与推理任务的执行效果能够起到至关重要的作用,但与此同时,也在系统层面上带来庞大的计算体量、存储开销以及通信负载。目前深度学习系统优化领域存在不少问题,训练运行时效率较为低下,主要问题集中在两方面,其一是高性能加速硬件的内存容量有限,深度学习系统对内存资源的利用率较低,难以完成大规模迭代训练任务;其二是分布式加速硬件集群的互联带宽有限,集群节点间频繁的梯度通信成为性能瓶颈。解决上述多重资源受限的问题主要涉及到神经网络中特征映射、参数等中间数据的内存管理与稀疏通信优化技术等方面的研究。具体来说,针对深度学习系统优化的研究工作分别从以下三个角度开展。针对加速硬件存储资源不足以满足训练运行时内存需求的问题,考虑以神经网络模型层结构为中心的内存空间重用思想,提出一种基于空间复用的特征映射数据内存管理机制Layrub。首先对反向计算的执行序列进行细粒度的重排,然后针对卷积神经网络特征映射数据规模较大的特性,提出神经网络层敏感的内存复用策略,实现高内存利用率的特征映射数据组织方式。通过对数据在加速硬件与主存之间进行合理迁移与放置,使得训练运行时的内存消耗明显减少,能够对深度神经网络的形态设计和进一步研究提供系统级的支撑。实验表明,与原生未优化的深度学习框架Caffe相比,Layrub可以使系统内存使用率平均降低58.2%以上,最高可达98.9%,同时达到适中的时间代价,训练执行时间平均增加24.1%。实验结果还表明,Layrub明显优于一些具备内存优化能力的主流深度学习系统,并且可以执行极限规模的深度学习任务。针对分布式训练中高性能计算节点间梯度交换的通信瓶颈问题,提出了一种基于陈旧补偿的参数梯度稀疏通信优化机制Grad SA。首先提出基于神经网络层结构的梯度稀疏化思想,分析并结合参数梯度数据的特点,减少梯度传输规模,显着降低跨节点通信开销;其次,利用近似梯度进行历史梯度的积累,以此来加快收敛速度。随后,针对历史梯度累积后的稀疏梯度进行高效编码。实验结果表明,即使在通信网络带宽较低的极端环境下,所提出的梯度优化算法也能够获得良好的吞吐量和加速性能。Grad SA能够在保证迭代计算性能不下降的前提下,将参数梯度通信量减少514倍。通过与8-bit量化、Tern Grad和DGC等主流方法进行比较,进一步证明了Grad SA在各种神经网络模型和数据集上的优势。针对分布式训练中计算、内存、通信带宽等资源消耗巨大、协同优化困难的问题,考虑系统内存与通信资源协同优化的思想,提出一种内存高效的分布式稀疏通信机制Lay SA。首先对内存管理策略进行数据对象的增广与重新定义,解决由稀疏通信引起的内存膨胀问题,其次提出镜像参数更新机制,解决参数梯度数据的内存优化与稀疏通信优化难以共存的矛盾,填补分布式深度学习系统在多重资源优化方面存在的空缺,最终实现内存与通信两类优化思路的深度融合、协同执行。实验结果表明,经过系统资源协同优化后,计算节点的内存压力得到有效缓解,在资源利用率及分布式训练效率方面取得了良好效果。与仅采用Layrub和Grad SA的训练系统相比,Lay SA最高能够节约80.5%的系统内存使用量,神经网络模型在单GPU上整体训练时间缩短了12.25%左右,除此之外,Lay SA能够使用更大批量数据进行分布式训练,系统吞吐量整体提升150%以上,明显优于单独使用内存或通信优化机制的训练系统。综上所述,针对深度学习系统优化这个研究命题,从体系结构层面上考虑使用更合理的中间数据存储管理机制,从分析数据结构、系统调优等思路进行,对深度神经网络的训练执行效率进行提升。与此同时,从系统运行时层面上优化增强中间数据(其中包括特征映射数据及参数梯度),从分析中间数据特性、数据体量的思路出发,对深度神经网络的训练质量进行提升。通过上述研究,能够在硬件环境的计算、存储、带宽等资源有限的情况下,尽可能的挖掘大规模深度学习的效率和性能。
彭俊江[4](2020)在《基于Unity3D的轨道车辆虚拟设计系统研究》文中提出随着图像处理技术、仿真技术、人机交互技术、面向对象编程等技术的发展与成熟,虚拟现实技术大量应用在社会各领域中。针对轨道车辆产品设计在实际过程中设计周期长、设计成本高、设计效果无法实时显示、无法实现设计产品跨平台联动等问题,提出了基于Unity3D的轨道车辆虚拟设计系统研究,开发基于Unity3D引擎平台沉浸感、想象性、交互性特点的轨道车辆虚拟设计系统,为用户提供一个低成本、高效率、多样式,且包括轨道车辆总体设计、关键部件设计、虚拟装配、虚拟运行的集成设计系统。第一章阐述了本文的背景及研究意义,详细讲述了虚拟现实技术特征,综述了基于Unity3D技术在轨道车辆方面应用的国内外现状,包括虚拟现实技术在轨道车辆检修、装配、虚拟运行等方面的应用,并介绍了本文在开发过程中的主要研究工作和文章组织结构。第二章根据项目要求分析了轨道车辆虚拟设计系统需求,详细介绍了轨道车辆虚拟设计系统功能模块和系统组织架构、系统开发软硬件环境,包括虚拟引擎平台、3D建模软件,仿真分析软件,系统阐述了轨道车辆虚拟设计系统开发技术路线。第三章研究了轨道车辆虚拟设计系统功能实现的关键技术,提出了UI自适应屏幕与锚点和空间扇形检测方法解决人机交互问题;研究了场景虚拟视角控制数学模型算法,解决了运行场景运行时视角变化不真实,用户眩晕、运行画面切换不稳定等问题;分析了不同实时碰撞算法之间的优缺点,提出使用AABB包围盒算法进行场景模型间的碰撞检测,实现模型间碰撞的快速检测。第四章开发了基于Unity3D的轨道车辆虚拟设计原型系统,介绍了系统3D模型构建、车辆总体设计子模块、关键部件结构设计子模块、虚拟装配设计子模块、虚拟运行子模块主要功能实现的方法方式。第五章分析了轨道车辆虚拟设计系统在相应硬件环境下,对用户需求、模型功能、数据的准确性、运行流畅度等功能效果进行了调试,根据调试结果对系统模型和内存进行了优化,模型优化考虑Mesh合并、控制多边形数量两个方向,内存优化考虑Assert、引擎Native、和临时调用对象三个方向,优化测试结果表明轨道车辆虚拟设计系统运行稳定流畅,功能符合需求,具备可扩展性。第六章总结本文研究内容,对论文研究内容和方向进行了展望。
刘畅[5](2020)在《面向内存计算的Spark性能优化技术研究》文中指出大数据平台Spark近年间已逐渐成为业界热点,其基于内存计算的特性在机器学习和神经网络等迭代式应用场景中可以提供非常快的任务运行速度,现已被应用于百度、美团、腾讯和阿里巴巴等公司的业务中。最大的Spark集群拥有数千节点和TB级内存,支持处理的数据量级高达PB级,然而集群节点之间因为地域差异、配置更新和集群扩展等原因往往存在较高的异构性,如何更好的利用集群中的资源来提高平台性能现已成为当前研究的热门方向。本文针对Spark运行过程中的任务调度与缓存替换两个方面,对其性能优化技术进行深入的研究与改进,主要工作分为两部分,即提出基于改进量子蚁群算法的任务调度机制和提出基于RDD权重和双队列的缓存替换与预加载机制。下面将详细介绍上述两部分的研究工作:1.提出一种基于改进量子蚁群算法的任务调度机制。针对Spark默认任务调度机制导致高性能节点的硬件优势无法被充分利用,从而造成任务分配不均和内存频繁溢出的问题,首先,综合考虑节点的硬件能力、当前状态和网络传输速度,结合内存溢出现象对任务完成时间造成的影响,从而设计一种异构集群中的任务完成时间度量方法。然后在量子蚁群算法的基础上进行改进,通过最大最小量子信息素更新原则来控制量子信息素概率幅的范围以增大搜索空间,结合动态灾变策略避免量子蚁群算法的寻优过程陷入停滞,并采用异构集群中的任务完成时间度量方法衡量个体的适应度,提出一种基于改进量子蚁群算法的任务调度机制。仿真实验结果表明,本文提出的基于改进量子蚁群算法的任务调度机制能够有效提高Spark性能,在任务完成时间上较现有改进算法节约10.9%,并同时减少17.9%的内存溢出次数。2.提出一种基于RDD权重和双队列的缓存替换与预加载机制。针对Spark默认缓存替换机制在内存不足时将重要的RDD驱逐出内存,导致其复用时造成巨大重计算开销的问题,首先在综合考虑RDD自身属性的基础上,加入了对复用时刻集群负载状态的分类作为影响RDD重要性的因素,设计一种基于负载预测的RDD权重模型(Load Prediction based Weight,LPW),从而更全面的衡量RDD权重。然后在LPW模型的基础上结合双队列的思想,提出一种基于RDD权重和双队列的缓存替换与预加载机制(Weight and Dual Queues based Cache Replacement and Preload,WDQCRP),其中包括最小代价替换算法和最大权重预加载算法。最小代价替换算法可以在内存空间不足时根据RDD的生成时间与所在节点的磁盘性能来决定内存中替换出的RDD是否缓存到磁盘,同时最大权重预加载算法可以在内存空间充足时自动将磁盘中的RDD加载到内存中,从而避免复用时再从磁盘读取的等待时间。仿真实验结果表明,本文提出的WDQCRP机制能够有效地提高平台性能,在任务运行时间上较现有改进算法节约8.02%,同时提升9.59%的RDD访问命中率。
刘树珍[6](2020)在《面向Graph500图遍历的存储结构和访存优化研究》文中研究说明信息技术的进步与发展进一步推动了社会生产力的发展。新兴产业得到了很大的发展,每时每刻各个行业数据量都发生着的巨大变化,数据量的快速增长推动了大数据产业和高性能计算领域的快速发展。图计算方法被广泛的应用到大数据问题的处理中,其中广度优先搜索算法(Breadth First Search,BFS)是图计算中的一个经典问题,也是高性能计算机benchmark Graph500基准测试的核心。BFS算法具有访存数据量大,计算复杂度低等特征,这与大数据问题非常相似;除此之外,由于BFS算法自身重复判断的问题也会导致它的访存不规律,空间局部性差,进一步造成计算机的Cache失效率上升,因此无法达到高时效高性能的要求;并且Graph500测试的生成图的规模巨大,经常会因为计算机内存不足而出现数据越界的问题。为了解决这一系列问题,可以从程序的内存和访存两个方面进行优化,在提高Graph500基准测试程序的计算效率的同时减小程序运行过程中对内存空间的消耗。在内存优化方面,采用压缩生成图变量数据类型的方法使得优化后的生成图能更加适合BFS算法的搜索;在访存优化方面,对生成图数据的格式分配程序进行降位处理,使得数据传输时增加了每个Cache line上的有效数据,提高了CPU的寻址能力。本论文研究主要是针对单节点服务器上的Graph500基准测试程序进行优化设计的,分别通过压缩生成图中变量数据类型的长度来减小对内存空间消耗;以及对数据分配程序进行降位处理以提高Cache的利用率,进而提高CPU的寻址能力这两个方面进行的。安装在在宝德服务器上的Graph500的测试结果表明,优化后的程序运行过程中比优化前节约了33.33%的内存空间;并且在标准输入条件下的测试结果表明,omp-csr格式的测试程序的最大遍历速度maxGTEPS提高到优化前的1.8倍,seq-csr格式测试程序的maxGTEPS达到优化前的2.238倍。最后将优化后的程序安装在三种不同的服务器上进行峰值和数据越界测试,进一步验证优化效果。峰值测试的结果显示,Graph500的计算性能受到Cache容量和CPU主频的影响;优化后的Graph500程序的omp-csr格式测试程序的峰值均可达到优化前的3倍左右。
范天文[7](2020)在《Spark平台的性能优化与参数配置策略研究》文中研究表明随着数据时代来临,不同行业对数据信息资源的认知也在不断加深,如何更加快速准确地处理数据信息成为当今每个行业都需要面临的问题,因而出现了分布式大规模数据处理计算框架。但是Spark平台的配置参数指标众多,往往需要根据使用经验在特定的业务场景下进行手动配置修改。因此,使得其在被使用时往往不能达到最佳的平台性能。Spark平台的内存调度方式提供了 FIFO和FAIR这两种解决方案,然而并没考虑一些极端情况下因内存资源分配不当而出现内存溢出异常等问题,这将造成平台性能的下降和集群资源的浪费。针对上述的问题,本文研究分为两个部分:其一,深入研究并分析了 Spark平台的配置参数值对集群性能的影响,通过查阅相关文献并了解到利用黑盒原理配置参数值,通过研究机器学习中的算法模型理论,提出了基于lightGBM的Spark平台配置参数性能模型,该模型根据历史运行数据以及输入数据大小,自动选择对应的配置参数值使得平台性能达到能够适应不同业务场景的需求。深入剖析贝叶斯优化方法,使用贝叶斯优化建立的配置参数性能模型,使得建立的模型更具有高效性以适应更多的业务需求,进而使得模型性能达到最佳状态。对实验数据分析,证明本文建立的模型能够更好地配置参数值,提升集群性能和执行效率。其二,分析Spark平台的内存分配方式并发现当任务数据大小和数据类型不合理时,内存使用会出现溢出异常,提出了基于长短作业的内存优化策略。该策略由计算Task反馈权重、基于反馈权重的内存分配以及任务多级反馈调度方法三部分组成。通过以Task任务读写数据速度与时间分为长短作业,并依据Task在本地调度级别共同计算出Task的反馈权重以及优先级,先以反馈权重分配内存空间,然后使用调度策略执行Task。使用不均匀的长短作业数据证明了本文提出的内存优化策略更大程度上合理分配内存资源。
叶季钶[8](2020)在《MMORPG内存分析与优化》文中指出近年来,随着游戏市场的发展,电子游戏的画质不断提升,玩法日益丰富,随之而来的问题是游戏程序对内存的需求越来越大。即使在硬件设备高速提升的今天,游戏内存管理仍然是一个棘手的问题。大型多人在线角色扮演游戏(Massive Multiplayer Online Role-Playing Game,MMORPG)拥有广大的用户群体,有着场景复杂、玩法多样、建模精美等特点,与其他类型的游戏相比需要处理更为庞大的游戏数据,更频繁地分配释放内存,对其进行内存管理显得尤为重要。本文以《天谕》为载体,在游戏开发过程中建立一套完整的MMORPG内存分析与优化方案,主要完成了以下工作。1.研究游戏运行时对内存性能分析的需求,开发完整的内存检测工具链,利用工具链检测具体问题并提出几个明确的优化需求。2.对游戏引擎的内存分配器进行优化,用新的内存分配函数替换Windows原生内存分配函数,并对游戏运行时的内存分配做统计与检查工作。3.针对Python脚本语言中字典对象占用内存过大的问题进行优化,改写Python原生字典结构,在保证字典操作效率的同时减少内存占用。4.针对因游戏数据量庞大而造成的频繁I/O操作等问题,设计Memory DB方案,该方案采用类Protocol Buffers的序列化算法以及字符串池等设计,优化了游戏数据在内存中的分布。在优化了上述问题后,进行了完整的测试,均取得了比较好的优化效果。本研究成果希望能为类似项目的内存管理提供经验,其中部分模块具有启发和参考意义。
杜奕航[9](2019)在《基于强化学习的认知无线网络跨层设计及优化研究》文中指出随着信息技术的飞速发展,新型无线通信设备呈现爆发式增长,用户对通信质量和服务体验的要求也不断提高。为同时支持更多用户并实现更高的数据传输速率,通信业务对带宽和频谱占用的需求越来越高,由此造成频谱资源匮乏的问题日益严重。认知无线电采用动态频谱接入技术,能够通过时域、空域和频域的多维复用极大地提升频谱利用率,从根本上解决频谱资源的稀缺与不足。为增强系统的鲁棒性与灵活性,认知无线网络一般采用分布式架构,网络层的路由选择与媒体接入控制层的频谱分配联系紧密,为设计高效的动态路由与资源管理方案带来了新的挑战。为克服先验信息缺乏以及无线环境和网络拓扑结构动态变化等问题,本文采用强化学习方法对认知无线网络跨层设计进行了研究,主要包括源节点与中继节点异质、网络中所有节点同构、系统中存在成熟策略节点以及网络中存在恶意干扰节点等不同场景下路由选择与资源管理的联合优化策略。主要研究工作如下:(1)针对网络先验信息缺乏以及传统学习算法在系统状态空间较大时性能不佳等问题,在源节点与中继节点异质的网络场景中将单智能体深度强化学习应用于大规模认知无线网络的跨层路由设计中,提出一种基于内存优化型深度Q学习的联合路由设计与资源管理策略。首先引入路径责任等级的概念,将庞大的动作空间转化为大规模状态空间,并实现端到端延迟与系统能量效率之间的平衡。随后,提出基于内存优化的深度Q网络(PM-DQN),通过周期性擦除记忆库中TD-error值较低的经验元组,在降低平均内存占用的同时实现优先经验回放。最后,针对网络中节点异质的特点设计了一种基于单智能体框架的跨层路由协议,将PM-DQN应用于联合路由设计与资源管理中。仿真结果表明,该方案在不需要先验信息的前提下有效解决了大规模认知无线网络的跨层路由设计,并在降低内存占用的同时取得了较小的路径延迟和较高的能量效率。(2)针对网络中所有节点同构的场景,将多智能体学习策略应用到路由选择与资源管理联合设计中,提出两种基于多智能体强化学习方法的跨层路由协议。首先设计了一种基于策略推测型多智能体Q学习的平面路由协议,通过引入单跳责任等级的概念大幅压缩跨层优化问题的动作空间,并取得单跳延迟与节点能量消耗之间的折衷。随后,将跨层设计问题建模为一个半合作式随机博弈,并提出一种基于等奖励时隙的策略推测型多智能体Q学习算法(ERT-CMAQL)求解该博弈的纳什均衡,算法采用经验回放机制更新推测置信量,打破了更新过程中数据间的强相关性并提高了数据利用效率。仿真结果表明,该方案在学习速率、传输实时性和系统鲁棒性等方面均优于传统学习策略。当网络中节点密度较大时,提出一种基于能耗权重分簇算法的层次路由协议。首先,引入能耗权重的概念,提出基于能耗权重的贪婪式分簇算法以实现簇内通信能量消耗的最小化。随后,应用Double Q学习框架改进了ERT-CMAQL算法,并对簇间通信的路由选择和资源分配进行联合优化。仿真结果显示,该方案的数据包传输延迟和能量消耗远低于平面路由协议。(3)针对时延和能耗敏感型应用,在网络中存在成熟策略节点的场景下,将学徒学习策略应用到跨层路由设计中,提出两种基于学徒学习的路由选择和资源管理联合优化方案。在源节点和中继节点异质的场景中,针对网络中新生成数据源的情况,提出一种基于内存优化型学徒学习的联合路由设计与资源管理方案。首先引入强化型路径责任等级的概念,通过多级跃迁机制提高功率分配效率。随后提出基于专家演示数据的内存优化型深度Q学习(PM-DQf D)算法,周期性擦除经验库中低质量的自主生成数据和过时的专家演示数据,释放内存空间并优化数据结构。最后,构建了一种基于单智能体框架的跨层路由协议,将PM-DQf D算法应用到路由选择与资源管理联合优化中。仿真结果显示,该方法在学习速率、数据传输质量和网络可靠性等方面都优于传统强化学习方案。在网络中所有节点同构的场景下,针对新节点加入网络的情况,提出一种基于多专家演示型学徒学习算法的跨层路由协议。首先,通过引入强化型单跳责任等级提升功率自适应分配效率。随后提出半径自适应型Bregman球模型,保证地理位置偏远的认知用户能够找到合适的专家节点。最后,为避免单一专家经验缺陷造成的策略偏置,设计了一种基于多专家演示数据的深度Q学习算法。仿真结果表明,较传统多智能体强化学习策略,该方案的训练周期、路径延迟和系统能量消耗率都较小。(4)针对认知无线网络协议架构复杂、易受恶意用户攻击的问题,在网络中存在恶意干扰节点的场景下,从网络的整体性能出发提出一种基于端到端性能的多跳认知无线网络抗干扰决策算法。首先,抗干扰策略将路由选择考虑在内,充分发挥分布式网络鲁棒性的优势。随后,将双门限判决机制引入强化型路径责任等级,提升功率分配过程中的稳定性。最后,结合多跳网络中节点受干扰特点,将基于竞争架构的深度Q网络应用到抗干扰决策中。仿真结果表明,该方案无论在常规干扰模式还是智能干扰模式下的端到端性能均优于传统抗干扰算法,且带来网络鲁棒性与可靠性的大幅提升。
葛希[10](2019)在《面向深度学习应用的GPU存储优化研究》文中研究指明由于GPU强大的计算能力,其已经成为训练神经网络的首选设备。随着神经网络变得更宽更深,网络模型的准确性得到提升,但是训练这些神经网络需要的GPU内存空间也越来越大。有限的GPU内存容量成为训练更深更宽神经网络的主要障碍。为了解决GPU内存不足的问题,研究人员提出了交换数据到主存和重计算等方法,这些方法使得在前向传播过程中,GPU内存中只保留部分层的输出结果。然而这些方法对层之间的数据依赖关系缺乏深入分析,且对瓶颈层缺乏训练支持。针对这些问题,提出了充分利用重计算节省GPU内存开销的深度学习系统MEDL,其基于重计算的GPU内存管理器分别对非线性和线性神经网络提供GPU内存优化方法。在非线性网络中,通过空间重用和活跃度分析取消将工具层的前向输出结果作为检查点的必要性,工具层的输出所占的GPU内存空间在前向传播中可以直接被释放,从而大量减少使用重计算方法训练非线性神经网络时的内存需求。在线性网络中,通过细粒度的双缓冲技术减少瓶颈层的内存开销,使更宽的神经网络能够在有限的GPU内存中进行训练。实验结果表明,系统MEDL可以在有限的GPU内存中训练更深更宽的神经网络。在相同的实验环境下,与现有的深度学习系统相比,MEDL的内存消耗平均降低了27.5%,而且具有10.9%的性能提升。当不断增加训练的批次大小以至于传统的系统不能训练时,MEDL仍能正常训练。
二、内存优化工具集合(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、内存优化工具集合(论文提纲范文)
(1)雅砻江中下游梯级水库多目标精细优化调度及决策方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 选题背景及研究意义 |
1.2 国内外研究现状 |
1.2.1 优化调度模型构建 |
1.2.2 优化调度模型求解 |
1.2.3 优化调度方案决策 |
1.3 目前存在的主要问题及发展趋势 |
1.4 本文的主要研究内容 |
第2章 梯级水电站日发电计划精细化编制 |
2.1 引言 |
2.2 厂间-厂内嵌套优化调度模型 |
2.2.1 传统优化调度模型 |
2.2.2 精细优化调度模型 |
2.3 嵌套优化调度模型求解 |
2.3.1 单层多维动态规划 |
2.3.2 嵌套多维动态规划 |
2.4 实例计算 |
2.4.1 雅砻江流域概况及电站基础资料 |
2.4.2 模型及算法参数设置 |
2.4.3 计算结果分析 |
2.5 本章小结 |
第3章 基于内存优化和并行设计的嵌套多维动态规划 |
3.1 引言 |
3.2 嵌套动态规划算法性能分析 |
3.2.1 算法时间复杂度 |
3.2.2 算法空间复杂度 |
3.3 “维数灾”问题的处理策略 |
3.3.1 基于数据压缩与数据库技术的内存占用缩减 |
3.3.2 基于OpenACC的GPU并行加速 |
3.4 优化策略应用研究 |
3.4.1 并行方案设置及计算条件 |
3.4.2 结果分析 |
3.5 本章小结 |
第4章 LMPSO算法及其在梯级水库多目标优化调度中的应用 |
4.1 引言 |
4.2 雅砻江中下游梯级水库多目标优化调度模型 |
4.2.1 目标函数 |
4.2.2 约束条件 |
4.2.3 测试函数 |
4.3 基于超体积指标与问题变换的多目标粒子群算法 |
4.3.1 基于超体积指标处理高维目标空间 |
4.3.2 基于问题变换处理高维决策空间 |
4.3.3 LMPSO算法计算流程 |
4.4 实例计算 |
4.4.1 梯级水库基础资料及参数设置 |
4.4.2 计算结果分析 |
4.5 本章小结 |
第5章 改进区间数灰靶模型及其在梯级水库多属性决策中的应用 |
5.1 引言 |
5.2 传统区间数灰靶决策模型 |
5.2.1 区间数的基本概念 |
5.2.2 基于区间数的灰靶决策方法 |
5.3 改进区间数灰靶决策模型 |
5.3.1 基于集值统计的权重向量计算 |
5.3.2 基于R-vine copula的多维度联合抽样 |
5.3.3 改进模型的计算流程 |
5.4 改进决策模型应用研究 |
5.4.1 调度方案设置 |
5.4.2 结果分析 |
5.5 本章小结 |
第6章 结论与展望 |
6.1 结论 |
6.2 创新点 |
6.3 展望 |
参考文献 |
攻读博士学位期间发表的论文 |
攻读博士学位期间参加的科研工作 |
致谢 |
作者简介 |
(2)基于GPU的晶格Boltzmann方法并行算法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文的主要内容 |
1.4 论文的组织结构 |
第2章 晶格Boltzmann方法与CUDA |
2.1 晶格Boltzmann方法简介 |
2.2 通用图形处理器及CUDA |
2.2.1 通用图形处理器背景 |
2.2.2 CUDA设计模型 |
2.2.3 CUDA编程模型 |
2.2.4 性能优化 |
2.3 小结 |
第3章 基于峰值性能百分比分析法的GPU并行优化 |
3.1 背景 |
3.2 工具、方法与策略 |
3.2.1 Nsight Family性能分析工具 |
3.2.2 峰值性能百分比分析法 |
3.2.3 基本优化原则及策略 |
3.3 性能分析与程序优化 |
3.3.1 内存布局优化 |
3.3.2 内核融合优化 |
3.3.3 共享内存优化 |
3.4 小结 |
第4章 复杂几何模拟的高效GPU并行方案 |
4.1 背景 |
4.1.1 双分布函数的晶格Boltzmann模型 |
4.1.2 眼前节流场的三维建模 |
4.2 实现 |
4.2.1 典型方案 |
4.2.2 循环指针寻址方案 |
4.3 结果 |
4.4 小结 |
第5章 总结与展望 |
5.1 全文总结 |
5.2 研究展望 |
参考文献 |
攻读硕士学位期间的研究成果 |
致谢 |
(3)深度学习系统内存管理和通信优化关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 研究内容和主要贡献 |
1.4 论文组织结构 |
2 深度学习系统运行时内存管理机制 |
2.1 研究动机 |
2.2 基于空间复用的数据放置机制 |
2.3 Layrub原型系统设计与实现 |
2.4 实验评估与分析 |
2.5 本章小结 |
3 深度学习系统运行时稀疏通信优化机制 |
3.1 研究动机 |
3.2 分层稀疏筛选机制 |
3.3 基于误差反馈的近似梯度累加机制 |
3.4 高效的稀疏编码压缩机制 |
3.5 有效性评价与分析 |
3.6 本章小结 |
4 深度学习系统运行时内存与通信协同优化机制 |
4.1 研究动机 |
4.2 内存高效的参数稀疏通信机制 |
4.3 LaySA原型系统设计与实现 |
4.4 有效性评价与分析 |
4.5 本章小结 |
5 总结与展望 |
致谢 |
参考文献 |
附录1 攻读博士学位期间发表的主要论文 |
附录2 攻读博士学位期间申请发明专利 |
附录3 攻读博士学位期间参与的主要科研项目 |
(4)基于Unity3D的轨道车辆虚拟设计系统研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题研究背景及意义 |
1.1.1 课题来源 |
1.1.2 课题研究背景及意义 |
1.2 虚拟现实技术介绍 |
1.2.1 虚拟现实技术特征 |
1.2.2 虚拟现实技术的系统类型 |
1.2.3 虚拟现实技术的应用 |
1.3 虚拟现实技术在轨道车辆中的应用现状 |
1.3.1 国内的应用发展现状 |
1.3.2 国外的应用发展现状 |
1.4 论文的主要研究工作及组织结构 |
1.4.1 论文主要研究工作 |
1.4.2 论文组织结构 |
第二章 轨道车辆虚拟设计系统方案设计 |
2.1 轨道车辆虚拟设计系统需求分析 |
2.1.1 安全管理模块 |
2.1.2 功能实现模块 |
2.1.3 数据库管理模块 |
2.1.4 帮助文档模块 |
2.2 系统架构与功能模块设计 |
2.2.1 系统架构 |
2.2.2 功能模块 |
2.3 系统开发软件选择 |
2.3.1 虚拟引擎软件 |
2.3.2 3D建模软件 |
2.3.3 仿真分析软件 |
2.4 系统开发技术路线 |
2.5 本章小结 |
第三章 系统关键技术与方法 |
3.1 人机交互技术 |
3.1.1 UI自适应屏幕与锚点 |
3.1.2 空间扇形检测 |
3.2 虚拟视角控制算法 |
3.2.1 数学模型 |
3.2.2 仿真分析 |
3.3 实时碰撞检测 |
3.3.1 层次碰撞算法类型 |
3.3.2 AABB碰撞检测算法 |
3.4 Maya 建模关键技术 |
3.5 本章小结 |
第四章 轨道车辆虚拟设计系统具体实现 |
4.1 系统3D模型构建 |
4.1.1 模型分类 |
4.1.2 纹理贴图 |
4.2 车辆总体方案设计子模块实现 |
4.2.1 可视化属性设计 |
4.2.2 Unity3D内部XML读写 |
4.2.3 SQLServer与 Unity3D数据交互 |
4.3 关键部件结构设计子模块实现 |
4.3.1 PDF显示面板 |
4.3.2 Ansys动态链接 |
4.4 虚拟装配设计子模块实现 |
4.4.1 装配关系 |
4.4.2 装配顺序与路径规划 |
4.4.3 虚拟装配中的零件定位 |
4.5 虚拟运行环境子模块实现 |
4.5.1 Particle system |
4.5.2 虚拟运行环境模拟 |
4.5.3 LOD模型显示 |
4.6 本章小结 |
第五章 系统调试优化与发布 |
5.1 系统调试 |
5.1.1 调试环境 |
5.1.2 调试内容 |
5.1.3 集成测试 |
5.2 系统优化 |
5.2.1 模型优化 |
5.2.2 内存优化 |
5.3 系统发布 |
5.4 测试总结 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.1.1 结论 |
6.1.2 创新点 |
6.2 展望 |
参考文献 |
个人简历 在读期间发表的学术论文 |
致谢 |
(5)面向内存计算的Spark性能优化技术研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 任务调度优化 |
1.2.2 内存优化 |
1.3 主要研究工作 |
1.4 论文组织架构 |
第2章 技术基础 |
2.1 Spark平台概述 |
2.2 Spark工作流程 |
2.3 Spark资源管理器 |
2.4 Spark内存管理机制与RDD |
2.4.1 Spark内存管理机制 |
2.4.2 Spark RDD |
2.5 性能优化技术 |
2.5.1 任务调度优化技术 |
2.5.2 内存优化技术 |
2.6 本章小结 |
第3章 基于量子蚁群算法的任务调度机制 |
3.1 Spark任务调度机制分析 |
3.2 异构集群中的任务完成时间度量 |
3.2.1 节点能力定义 |
3.2.2 内存溢出标记 |
3.2.3 任务调度方案完成时间 |
3.3 基于改进量子蚁群算法的任务调度机制 |
3.3.1 问题分析与模块设计 |
3.3.2 改进量子蚁群算法 |
3.3.3 改进量子蚁群算法流程 |
3.3.4 时间复杂度分析 |
3.4 仿真实验结果与分析 |
3.4.1 实验方法 |
3.4.2 结果与分析 |
3.5 本章小结 |
第4章 基于RDD权重和双队列的缓存替换与预加载机制 |
4.1 Spark缓存替换机制分析 |
4.1.1 Spark Block Manager |
4.1.2 Spark缓存替换机制 |
4.1.3 存在的关键问题 |
4.2 基于负载预测的RDD权重模型 |
4.2.1 RDD复用次数 |
4.2.2 RDD分区大小 |
4.2.3 RDD分区计算代价 |
4.2.4 RDD期望生存周期 |
4.2.5 RDD复用时刻集群负载状态分类 |
4.2.6 权重计算方式 |
4.3 基于双队列的缓存替换与预加载方法 |
4.3.1 最小代价替换算法 |
4.3.2 最大权重预加载算法 |
4.4 仿真实验结果与分析 |
4.4.1 仿真实验方法 |
4.4.2 结果与分析 |
4.5 实现与分析 |
4.6 本章小结 |
第5章 全文总结与展望 |
5.1 总结 |
5.2 未来工作 |
参考文献 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(6)面向Graph500图遍历的存储结构和访存优化研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言与研究背景 |
1.1 研究背景及意义 |
1.2 研究现状 |
1.2.1 高性能计算机的发展历程 |
1.2.2 两种测试基准的排名比较 |
1.2.3 BFS算法及Graph500测试基准的发展 |
1.3 本文主要研究内容 |
1.4 本文结构安排 |
第2章 Graph500基准测试程序分析 |
2.1 Graph500测试基准问题和测试 |
2.2 Graph500测试基准的设计原理 |
2.3 核心程序BFS算法分析 |
2.4 本章小结 |
第3章 基于单节点服务器的程序优化 |
3.1 实验目的及机器介绍 |
3.2 内存优化 |
3.2.1 优化方法 |
3.2.2 优化结果分析 |
3.3 基于单节点的访存优化 |
3.3.1 优化方法 |
3.3.2 优化结果分析 |
3.4 本章小结 |
第4章 结果与分析 |
4.1 测试实验环境 |
4.2 优化前后程序越界数的比较 |
4.3 标准输入条件下计算性能测试 |
4.4 计算性能峰值测试比较 |
4.4.1 宝德高性能计算服务器集群峰值测试比较 |
4.4.2 Intel-2 路8180服务器峰值测试比较 |
4.4.3 曙光高性能服务器测试峰值比较 |
4.5 讨论与分析 |
4.6 本章小结 |
第5章 结束语 |
5.1 研究工作总结 |
5.2 研究工作中的创新点 |
5.3 工作中的不足 |
5.4 下一步研究方向 |
参考文献 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
致谢 |
(7)Spark平台的性能优化与参数配置策略研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 配置参数优化 |
1.2.2 调度优化 |
1.2.3 内存优化 |
1.2.4 Shuffle过程优化 |
1.3 论文工作及组织结构 |
1.3.1 论文的主要工作 |
1.3.2 论文的组织结构 |
第2章 Spark平台相关技术研究 |
2.1 Spark平台概述 |
2.1.1 Spark核心组件 |
2.1.2 Spark通用运行机制 |
2.2 Spark任务调度机制 |
2.2.1 Spark任务提交流程 |
2.2.2 Stage级调度机制 |
2.2.3 Task级调度机制 |
2.2.4 调度策略 |
2.3 Spark框架内存管理 |
2.3.1 堆内堆外内存规划 |
2.3.2 内存空间分配 |
2.3.3 执行内存管理 |
2.4 配置参数概述 |
2.5 本章小结 |
第3章 并行化的Spark平台配置参数自适应方法研究 |
3.1 机器学习算法 |
3.1.1 决策树理论介绍 |
3.1.2 GBDT算法 |
3.1.3 lightGBM算法理论分析 |
3.2 基于lightGBM的参数自动化配置模型 |
3.2.1 平台参数自动化配置模型的优化目标 |
3.2.2 参数自动化配置建模 |
3.2.3 评估参数自动化配置模型 |
3.3 优化参数自动化配置模型 |
3.3.1 训练模型的优化方法 |
3.3.2 基于贝叶斯算法的模型优化策略 |
3.4 实验结果分析 |
3.4.1 实验环境及方法 |
3.4.2 实验结果与分析 |
3.5 本章小结 |
第4章 基于长短作业的内存优化策略研究 |
4.1 Spark作业调度策略 |
4.1.1 跨Spark应用调度 |
4.1.2 Spark应用内调度 |
4.2 执行内存优化策略 |
4.2.1 问题描述 |
4.2.2 基于长短作业的内存优化策略描述 |
4.3 仿真实验结果分析 |
4.3.1 实验环境及方法 |
4.3.2 实验结果分析 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(8)MMORPG内存分析与优化(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景 |
1.2 本文的工作和贡献 |
1.3 论文组织结构 |
第2章 相关技术介绍 |
2.1 Windows内存管理机制与动态内存分配 |
2.1.1 虚拟内存与局部性原则 |
2.1.2 Windows的虚拟内存系统 |
2.1.3 Windows内存管理机制 |
2.1.4 Windows动态内存分配/释放 |
2.2 游戏内动态内存分配优化 |
2.2.1 常见的游戏定制分配器 |
2.2.2 通用动态内存分配器 |
2.3 Pyhton原生字典结构剖析 |
2.3.1 PyDictObject对象介绍 |
2.3.2 字典对象的插入 |
2.3.3 字典对象的扩容 |
2.4 Protocol Buffers简介 |
2.5 本章小结 |
第3章 内存检测与分析 |
3.1 操作系统内存分配、释放问题 |
3.2 引擎内存情况分析 |
3.3 脚本层内存情况分析 |
3.4 本章小结 |
第4章 操作系统内存分配、释放优化 |
4.1 基于TCMalloc的多线程内存分配优化 |
4.1.1 多线程内存分配的优化 |
4.1.2 内存碎片的优化 |
4.2 在Windows程序中集成内存分配器 |
4.2.1 静态链接 |
4.2.2 动态链接 |
4.3 内存分配器优化效果 |
4.4 本章小结 |
第5章 Python字典结构优化 |
5.1 字典结构介绍 |
5.2 字典的数据插入 |
5.3 新字典的扩容操作 |
5.4 新字典结构的优缺点分析 |
5.5 优化结果与分析 |
5.5.1 实验环境与目的 |
5.5.2 字典操作性能分析 |
5.5.3 字典内存优化分析 |
5.6 本章总结 |
第6章 游戏数据的内存优化技术 |
6.1 基于Berkeley DB的内存优化 |
6.2 Memory DB的设计与实现 |
6.2.1 mdb文件的数据存储格式 |
6.2.2 基于Protocol Buffers的游戏数据序列化机制 |
6.2.3 相关数据结构 |
6.2.4 数据的热更新 |
6.2.5 获取数据流程 |
6.2.6 Memory DB框架总结 |
6.3 优化结果与分析 |
6.3.1 内存占用优化分析 |
6.3.2 数据操作性能分析 |
6.4 本章小结 |
第7章 总结与展望 |
7.1 研究工作总结 |
7.2 未来展望 |
参考文献 |
攻读硕士学位期间主要的研究成果 |
致谢 |
(9)基于强化学习的认知无线网络跨层设计及优化研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究的背景及意义 |
1.2 认知无线电的概念与潜在应用 |
1.2.1 认知无线电的概念 |
1.2.2 认知无线电的潜在应用 |
1.2.2.1 在民用领域的应用 |
1.2.2.2 在军事领域的应用 |
1.3 基于强化学习的认知无线网络跨层优化研究现状 |
1.3.1 基于单智能体架构的学习方法 |
1.3.2 基于松耦合多智能体系统的学习方法 |
1.3.3 基于博弈论的多智能体学习方法 |
1.4 论文主要工作及创新点 |
1.4.1 论文主要工作 |
1.4.2 论文创新点 |
1.5 论文结构安排 |
第二章 强化学习与跨层设计 |
2.1 引言 |
2.2 强化学习理论 |
2.2.1 强化学习问题定义 |
2.2.2 强化学习基本框架 |
2.2.2.1 动态规划 |
2.2.2.2 基于模型的强化学习 |
2.2.2.3 免模型强化学习 |
2.2.3 强化学习中的重要算法 |
2.2.3.1 深度Q网络 |
2.2.3.2 多智能体Q学习算法 |
2.3 跨层设计及优化 |
2.3.1 跨层设计的概念及意义 |
2.3.2 跨层设计的架构及应用 |
2.3.2.1 跨层设计实施架构 |
2.3.2.2 跨层设计在认知无线网络中的应用 |
2.3.3 跨层设计面临的挑战 |
2.4 本章小结 |
第三章 基于单智能体学习框架的跨层优化研究 |
3.1 引言 |
3.2 源节点与中继节点异质场景下的系统模型 |
3.2.1 网络模型 |
3.2.2 帧结构模型 |
3.3 跨层优化问题建模 |
3.3.1 路径责任等级 |
3.3.2 问题模型 |
3.3.2.1 马尔科夫决策过程 |
3.3.2.2 路径责任等级的收敛性分析 |
3.4 基于PM-DQN算法的路由协议与资源管理联合设计方案 |
3.4.1 基于内存优化的深度Q网络 |
3.4.2 基于PM-DQN算法的联合路由设计与资源管理方案 |
3.5 仿真实验与结果分析 |
3.5.1 仿真环境设置 |
3.5.2 跨层设计方案整体性能 |
3.5.3 算法有效性评估 |
3.5.4 算法鲁棒性评估 |
3.5.5 学习率和Q值的作用效果 |
3.5.6 算法复杂度分析 |
3.6 本章小结 |
第四章 基于多智能体学习策略的跨层路由设计 |
4.1 引言 |
4.2 基于半合作式多智能体Q学习的平面路由协议 |
4.2.1 同构网络场景下平面路由的系统模型 |
4.2.2 跨层优化问题建模 |
4.2.2.1 综合效用函数 |
4.2.2.2 单跳责任等级 |
4.2.2.3 问题建模 |
4.2.3 基于策略推测型多智能体Q学习算法的跨层路由设计 |
4.2.3.1 基于等奖励时隙的策略推测式多智能体Q学习算法 |
4.2.3.2 算法收敛性分析 |
4.2.4 仿真实验及结果分析 |
4.3 基于能耗权重分簇的层次路由协议 |
4.3.1 同构网络中层次路由的系统模型 |
4.3.2 基于能耗权重的分簇算法 |
4.3.2.1 能耗权重 |
4.3.2.2 基于能耗权重的启发式分簇算法 |
4.3.3 簇间通信跨层路由协议设计 |
4.3.3.1 簇间通信问题建模 |
4.3.3.2 基于ERT-CMADQL算法的簇间跨层路由协议 |
4.3.4 仿真实验及结果分析 |
4.4 本章小结 |
第五章 基于学徒学习的路由协议和资源管理研究 |
5.1 引言 |
5.2 基于专家演示数据的深度Q学习算法 |
5.3 基于PM-DQf D算法的联合路由设计与资源管理方案 |
5.3.1 单智能体学徒学习方案的系统模型 |
5.3.2 学习框架构建 |
5.3.2.1 强化型路径责任等级 |
5.3.2.2 问题建模 |
5.3.3 基于PM-DQf D算法的联合路由设计与资源管理方案 |
5.3.3.1 基于专家演示数据的内存优化型深度Q学习算法 |
5.3.3.2 基于PM-DQf D算法的联合路由设计与资源管理方案 |
5.3.4 仿真实验及结果分析 |
5.3.4.1 仿真环境设置 |
5.3.4.2 仿真结果 |
5.3.4.3 算法时间复杂度分析 |
5.3.4.4 应用场景讨论 |
5.4 基于多专家演示型学徒学习算法的跨层路由协议 |
5.4.1 多智能体学徒学习方案的系统模型 |
5.4.2 联合优化问题建模 |
5.4.2.1 强化型单跳责任等级 |
5.4.2.2 问题建模 |
5.4.3 半径自适应型 Bregman球模型 |
5.4.4 基于多专家演示型深度Q学习算法的跨层路由协议 |
5.4.5 仿真实验及结果分析 |
5.4.5.1 仿真环境设置 |
5.4.5.2 仿真结果分析 |
5.5 本章小结 |
第六章 基于端到端性能的抗干扰决策算法 |
6.1 引言 |
6.2 多跳网络抗干扰模型 |
6.2.1 系统模型 |
6.2.2 双门限路径责任等级 |
6.3 基于端到端性能的认知无线网络抗干扰决策算法 |
6.3.1 基于竞争架构的深度Q网络 |
6.3.2 基于端到端性能的抗干扰决策算法 |
6.4 仿真结果分析 |
6.4.1 仿真环境设置 |
6.4.2 仿真结果分析 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 论文工作总结 |
7.2 研究展望 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
(10)面向深度学习应用的GPU存储优化研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 课题背景 |
1.2 课题研究动机 |
1.3 国内外研究现状 |
1.4 论文研究内容 |
1.5 文章框架结构 |
2 基于重计算的GPU内存优化设计 |
2.1 重计算方法中检查点的设计 |
2.2 面向非线性神经网络的GPU内存优化设计 |
2.3 面向线性神经网络的GPU内存优化设计 |
2.4 本章小结 |
3 基于重计算的GPU内存管理器的实现 |
3.1 GPU内存管理器的关键技术 |
3.2 基于重计算的GPU内存优化策略 |
3.3 本章小结 |
4 系统测试与结果分析 |
4.1 测试环境 |
4.2 结果分析 |
4.3 本章小结 |
5 总结与展望 |
5.1 工作总结 |
5.2 未来展望 |
致谢 |
参考文献 |
附录1 攻读学位期间被录用的会议论文 |
附录2 攻读学位期间申请的国家发明专利 |
四、内存优化工具集合(论文参考文献)
- [1]雅砻江中下游梯级水库多目标精细优化调度及决策方法研究[D]. 马皓宇. 华北电力大学(北京), 2021(01)
- [2]基于GPU的晶格Boltzmann方法并行算法研究[D]. 朱红银. 广西师范大学, 2021(09)
- [3]深度学习系统内存管理和通信优化关键技术研究[D]. 刘博. 华中科技大学, 2020
- [4]基于Unity3D的轨道车辆虚拟设计系统研究[D]. 彭俊江. 华东交通大学, 2020(03)
- [5]面向内存计算的Spark性能优化技术研究[D]. 刘畅. 重庆邮电大学, 2020(02)
- [6]面向Graph500图遍历的存储结构和访存优化研究[D]. 刘树珍. 中国科学院大学(中国科学院深圳先进技术研究院), 2020(07)
- [7]Spark平台的性能优化与参数配置策略研究[D]. 范天文. 重庆邮电大学, 2020(02)
- [8]MMORPG内存分析与优化[D]. 叶季钶. 浙江大学, 2020(08)
- [9]基于强化学习的认知无线网络跨层设计及优化研究[D]. 杜奕航. 国防科技大学, 2019(01)
- [10]面向深度学习应用的GPU存储优化研究[D]. 葛希. 华中科技大学, 2019(03)