针对 SMP 集群的 BSP 库

一、Targeting BSP Library for SMP Cluster（论文文献综述）

徐杰^[1]（2017）在《宽窄带雷达信号处理在GPGPU上的实现》文中研究指明由于“硬件可重组、软件可重构、功能可定制”的开发需求,雷达研制工作逐步由专用封闭转向通用开放。本文分析了基于GPGPU（General-Purpose GPU）的异构并行通用计算平台在雷达实时信号处理领域的应用及其软件化体系架构的设计方案。首先对异构计算体系和并发多任务编程模型进行总结,确定了采用GPU加速的异构计算平台和MPI（Message Passing Interface）、OpenMP（Open Multi-Processing）模型以及CUDA（Compute Unified Device Architecture）架构的混合编程模型,充分发挥异构并行平台的多层次存储和不同粒度并行的优势,以获得最高的计算性能。其次在分析GPU并行编程和优化技术的基础上,对两种典型宽窄带雷达信号处理过程进行并行化设计。在窄带脉冲多普勒雷达信号处理的并行化设计中,重点对脉冲压缩和恒虚警算法进行数据级并行获得了700多倍的加速效果;在宽带逆合成孔径雷达信号处理的并行化设计中,对关键的包络对齐和自聚焦提出了对数步长的递归包络对齐方法,获得了4倍的加速效果。在与传统嵌入式平台的性能对比实验中验证了并行算法时间复杂度和计算复杂度随数据量变化的稳定性;在替换传统嵌入式平台的实验中验证了并行算法运算结果的正确性和通用计算平台的实时性。最后在总结四种并行多处理编程模型和对两种典型雷达信号处理过程的并行化设计的基础上,结合对国外软件化雷达体系架构的调研,为本文基于GPU的异构并行通用开发平台设计了软件化体系架构,并对涉及的两项关键技术作出简要分析。通过软件架构的五层划分（硬件层、硬件抽象层、中间件、核心框架、组件化应用层）实现雷达信息处理系统开发的四个层次（硬件系统、软件平台、算法组件、雷达系统）充分解耦,实现了更专业的任务分工和更通用的产品研发,为雷达研发体系的开放化和满足用户关于多功能可重组的需求奠定了基础。

刘超^[2]（2017）在《通用多核集群并行编程与优化技术的研究》文中研究说明随着多核处理器体系结构的出现以及对称多处理机和集群体系结构的逐渐推广,出现了新型多核集群体系架构,因其性价比较高和可扩展性较好,而成为高性能计算领域的研究重点。多核处理器结构和高速互联网络的持续高速发展,多核集群结构也在不断改进之中,开发人员也将面对更加复杂的编程环境。本文以多核集群为平台,针对其特有的体系结构,研究相应的编程模型、映射机制、实现机制、编程方法以及优化策略。论文首先介绍了课题的研究背景、并行计算的发展概况。其次介绍了并行计算机的主要体系结构,对它们的主要特点进行了分析并给出系统结构的抽象图。再次对并行编程的三种编程模型进行了介绍,分析了它们各自的特点。最后介绍了多核并行编程环境下的两种主要并行编程模型:共享存储编程模型OpenMP与消息传递编程模型MPI,针对这两种编程模型特点进行了深入分析,包括它们的执行模式、编程的优缺点,并提出了相应的优化策略。论文对多核集群下的混合编程着重进行了研究,引入混合OpenMP/MPI编程模型并分析了混合编程的优势,针对多核集群的体系架构,提出了混合编程模型与多核集群架构的映射机制对集群性能的影响,并给出了混合模型程序设计的实现机制和优化策略,提出了混合编程过程中需要注意的问题。论文在实验环节介绍了曙光TC5000集群的软硬件环境,重点研究了共轭梯度算法求解线性方程组在多核集群上混合并行实现并进行相关实验,通过对实验数据的比较分析得出在多核集群上混合编程模型相对于单一并行编程模型更能直观的匹配其独有的体系架构并具有更好的性能,混合模型中进程的数量显着减少,并且等价于节点数量而不是MPI模型中的处理器总数,而最有效的加速求解线程数量等于节点内处理器数。此外,通过研究分析多核集群上影响MPI/OpenMP编程模型性能的因素,提出改进性能的优化策略和方法。论文最后对上述研究内容进行了总结,并对下一步的工作进行了展望。

黄靖媛^[3]（2016）在《基于三维场景的电力大数据快速可视化分析模型研究》文中指出可视化方法一直是用于展现和分析数据的重要手段。研究表明,人类从外界获取的信息有80%以上来自于视觉系统。当数据以直观的图形形式展现时,用户能够立刻知悉图形所表达的数据背后隐藏的信息,并迅速转化为知识。在大数据时代,由于数据量激增、数据维度增大,传统可视化方法已经不再直观。鉴于传统二维可视化方法事实上是N维数据的二维投影,对于大数据而言,传统的维度扁平化可视化方法会使得过多维度压缩到平面上,丢失了维度自身的空间信息,无法有效地体现数据特征。电力大数据不同于其它类别大数据之处在于其具有典型的空间拓扑结构,离散化的数据一般均可对应到三维空间的电力设备上去。本文由此提出一种新概念:基于三维虚拟现实场景的电力大数据可视化分析,以三维场景为基础进行数据的分析与可视化工作。在以三维虚拟现实场景为基础的环境下,数据的空间特性、数据之间的空间相关性能够得到直观展现,有利于实现快速人机交互。基于这种整合电力大数据分析与可视化的思想,本文首先提出了基于三维场景的电力大数据快速可视化分析模型,设计若干层次以实现业务、引擎、计算、控制、存储的抽象,将以往分离的电力数据存储、数据挖掘与分析、数据可视化整合到同一平台中;其次,针对模型中的大规模三维场景的实时渲染问题,分别设计了高效可见性剔除方法和多分辨率快速渲染方法,用以实现大数据环境下电力系统三维虚拟现实场景的快速构建与渲染。其中,可见性剔除方法针对场景组织问题,对大规模场景采用八叉树组织场景图结构实现快速实时的遮挡剔除,高效减少进入渲染管线的数据量;多分辨率快速渲染方法针对模型复杂度问题,基于细节层次思想提出权重函数算法,对组成模型的基本元素计算综合权重确定简化顺序,从而实现渐进的、动态的、可无损重建的模型简化方法,用以完成三维虚拟现实场景中模型复杂度的有效约减;最后,通过某变电站的变压器油色谱数据可视化分析实例验证本文提出的模型和方法有效。实例验证表明,本文设计的以三维场景为中心的电力大数据快速可视化分析模型符合电力企业大数据应用的业务需求,符合用户视觉对于加强理解数据的交互需求,增强了人机交互效率、提高了可视化分析工作的效率。其中,快速可见性剔除方法在处理大数据环境下的电力系统大规模三维虚拟现实场景时达到较高的效率,多分辨率快速渲染方法较好地保持电力设备模型外观不产生较大形变。

王晗^[4]（2014）在《基于多核环境下的多线程并行程序设计方法研究》文中研究指明在过去十年里，随着众多领域并行计算需求的迅速增长而硬件又受到摩尔定律的严重制约，多核CPU现在被越来越多的应用于并行计算机中，于是基于多核处理器的并行程序设计技术也就成为了一种必然的发展趋势。此外，过去专用于图形处理的GPU也不再专用，因其具有大量的并行计算单元，使它在处理并行计算方面具有突出优势，正是其强大的并行计算能力引起了计算机科学家们的广泛关注，现在它几乎已不成文的成了重量级计算引擎的代名词。在经历了单核、多核的技术革新之后，异构计算正在成为当今打破并行计算程序性能瓶颈的又一突破技术，不同类型体系结构的设备都能被它有效地联系起来，实现协同工作，相互利用，一起完成程序计算。CUDA和OpenCL都是基于CPU+GPU模式的GPGPU异构计算，CUDA是NVIDIA提出的一种适用于通用并行计算的计算架构，而OpenCL则是一个专门为由CPU，GPU或其他体系结构类型的处理器组成的异构平台编写程序的框架。本文首先介绍了并行计算机体系结构，对并行计算机的结构、访存和设计模型进行了叙述与分析。接着对基于分布式存储和共享存储的并行编程模型的异同进行了对比。通过自己搭建的Linux机群，着重实现了在基于Linux系统平台上的MPI+OpenMP混合编程，证实了由节点间的消息传递和节点内的共享存储混合编程相对于单一编程模式有更好的加速比。最后利用OpenCL实现了矩阵相乘算法实践，完成了异构编程实验。

盛艳秀^[5]（2013）在《多核异构环境下通用并行计算框架关键技术研究》文中指出随着科技的发展，尤其是计算机技术的发展，各个行业中的数据量都开始呈指数型增长，传统的串行计算能力，已经远远不能满足日益增长的数据处理需求。在这种背景下，并行计算技术应运而生，其主要目的是快速解决大型且复杂的计算问题。并行计算不仅和国家的科技和经济发展密切相关,而且直接影响到国防能力和国家安全，如核爆炸模拟，复杂系统精确解算、基因研究和国家机要通信的加密与解密等等。并行计算能力是衡量国家实力的重要标志。虽然并行计算已发展多年，在一些具体问题的解决上也已经有了较为实用的方案，总结了相当多的经验，但还远远不及串行算法那样丰富，因此这门学科研究尚不成熟。并行算法与串行算法的最大不同之处在于，不仅需要考虑问题本身的解决方法，还需要考虑问题所适用的并行模型，若要达到效率最大化，还需要考虑处理器架构、网络连接等因素，这必然会增加并行算法的设计和实现难度。本论文在分析了并行计算中的各种难题以及国内外研究现状的基础上，针对并行计算模型的种种难题，提出了一种新的满足多核处理器机群计算需求的分层异构并行的通用计算模型，并对其中的关键技术做了初步研究,具体内容如下:（1）提出了一种新的满足多核处理器机群计算需求的分层异构并行的通用计算模型，该模型将目标问题的开发划分为程序模型算法设计、并行程序设计、并行程序执行三个阶段。程序模型算法设计阶段，开发人员面对参数化的并行机设计程序模型算法；并行程序设计阶段，开发人员利用并行开发平台开发具体的并行程序，实现并行任务；并行程序执行阶段，并行程序运行在相应的软硬件架构下，通过解释系统优化的计算参数优化指令执行效率。（2）对模型框架进行细化和实现，针对分层异构模型的分层，在不同的层次设计相应的方法库、参数库、程序复用库等工具对模型功能以匹配，分层实现并行算法设计与实现的过程，最终实现并行计算模型的动态性、自适应性、可重构性与通用性。（3）在不同的层次之间，提出了语言解释系统和编译系统，实现层次之间的链接，保证了系统模型的框架的完整性和可实现性。（4）利用该异构并行通用计算模型，实现了叠前偏移程序并行算法的设计。叠前偏移程序算法是石油探测中经典算法之一，该算法的串行程序已经较为完善，但其并行算法一直是个较为复杂的问题。应用该模型很好地解决了其并行性。该通用并行计算框架对应用开发人员提供简单易用的设计语言，实现并行计算程序设计的高效性、正确性、普适性。因而具有广泛的应用前景和显着的社会效益。分层异构并行的通用计算模型为应用开发人员提供独立于硬件的可扩展的编程接口，为具有普遍性的问题建立方法库，为程序运行平台建立参数库，综合管理不同的计算资源，合理分配计算任务，减轻程序的开发难度以及应用开发人员的工作量。

王堃^[6]（2012）在《基于多核的并行程序设计及优化》文中研究指明随着并行计算机技术的快速发展,特别是多核技术的不断进步,程序员都将会面对并行程序的设计。共享存储编程模型OpenMP因其简单易用的特点成为共享存储结构编程的标准。论文首先介绍了并行计算的体系结构以及访存模型,比较了当前流行的几种并行编程模型。随后重点研究共享存储的OpenMP编程模型,分析了OpenMP并行编程设计的fork-join模式和SPMD模式。在研究OpenMP开销模型以及影响并行算法性能的因素基础上,提出了一些OpenMP并行程序的优化方法。然后使用OpenMP编程模型对蚁群算法求解TSP问题中大量的循环进行并行化,通过实验证明了改进后的并行算法能明显缩短求解的时间,提高了执行效率。接着,在集群系统使用MPI+OpenMP混合并行编程模型,实现了节点间和节点内的两级并行机制,并进一步研究了混合编程过程中需要注意的一些问题,提出了一些优化方法。通过矩阵乘法实验测试了MPI+OpenMP氵昆合并行编程的效率,证明这种混合并行编程模型能很好的发挥多核处理器的优势,提高了加速比。最后,论文介绍了合成孔径雷达的基本原理,将雷达成像算法与子孔径成像技术相结合,给出了NCS成像算法的并行流程。根据需求分析设计了以FPGA和DSP为主要处理器件的实时成像处理系统,并通过分析运算速度,存储性能以及通信带宽,从理论上证明了NCS实时成像处理系统可以满足实时性的需求。

杨鑫^[7]（2012）在《面向高性能图形绘制的加速结构设计》文中提出随着图形硬件的飞速发展和虚拟现实系统、电影游戏制作等领域对高真实感图片的需求增加,关于高性能图形绘制技术的研究变得更加重要和迫切。高性能的图形绘制要求在保证绘制质量的前提下,提高绘制的速度。使用光线跟踪技术来生成高质量的图片需要进行大量的可见性计算,借助有效的加速结构可以明显减少计算量,降低场景绘制的复杂性,缩短绘制的过程。高性能的图形绘制对加速结构的质量、构造和访问速度都提出了更高的要求,加大了加速结构的设计难度。本文主要从两个角度深入研究面向高性能图形绘制的加速结构的有效设计方法：一方面,研究高质量加速结构的快速并行构造方法和高效遍历方法,尤其是解决如何在GPU （Graphics Process Unit）并行计算架构上有效地处理算法的非相似性计算问题和不规则动态计算问题。另一方面,改进现有的图形绘制算法,对一些高级真实感图形效果的绘制,根据它们的结构特点以及对加速结构的影响,设计专门的加速结构,降低计算的复杂度,以进行更加有效的绘制。具体而言,本文从高质量加速结构的并行构造与高效遍历方法、对动态场景的支持、对二级光线追踪效果的支持以及对运动模糊效果的支持四个方面深入研究加速结构的设计方法,主要贡献包括：·提出了一个新的加速结构MKD （Multi-KD）树,从构造速度和访问速度两方面解决了现有层次结构在GPU架构上执行所存在的问题。设计了多维度SAH （surface area heuristic）并行构造方法,快速构造高质量的MKD树。设计了MKD树的快速遍历算法,通过一种渐进式有序组合的方法,实现高效的有序访问,并通过光线包的自适应组织方法,动态调整数据处理的方式,维持计算的相似性。另外,设计了有效的队列通信机制,实现计算任务在各个处理核之间的均衡分配。·提出了对层次包围盒BVH （bounding volume hierarchies）小规则数据结构的分阶段快速并行构造方法,实现对动态场景的快速光线跟踪计算。设计了基于GPU并行架构的特点,使用不同的并行计算粒度,分别在构造初期、构造中期及构造后期进行快速而有效的并行构造的方法。·提出了面向二级光线的加速结构遍历方法,有效减轻了二级光线在遍历过程中可能出现的动态不规则执行行为对计算和访存效率的影响。设计了以数据驱动的方式来合理调度线程的执行方法和动态的结点访问策略,结合GPU架构的存储层次结构特点,从减少访存次数以及维持光线之间相似性的角度出发,对数据进行重新组织,挖掘潜在的并行性,优化带宽的使用。·提出了一种新的加速结构MBBVH以及相应的遍历方法,用来加速含有大量不规则运动行为面片的场景中运动模糊效果的绘制。提出了面向运动模糊效果绘制的运动行为分类方法,将场景中面片的运动行为根据移动向量的特点分为规则运动和不规则运动两类。并基于此,在构造过程中追踪具有不规则运动行为的面片,在遍历过程中,进行动态的调整计算,从而维持加速结构的高效性。为了控制调整计算的开销,设计了基于时间维度的分割花费模型,可以进行基于时间特征的结点构造与遍历；以及两种评估策略,可以自适应地在遍历过程中实现线性插值与调整计算两种处理方式的自动切换。另外,还对场景中可能存在的形状较大或者较长的不规则面片进行了特别的处理,减少结点包围盒的重叠区域。

李鸿健^[8]（2012）在《并行算法在激光化学反应模拟中的应用研究》文中指出随着超短激光脉冲技术的不断发展，激光化学反应的研究已经深入到核运动的微观世界。许多化学反应实验采用常规方法无法实现，但在超快激光脉冲的照射下能够实现。激光化学反应模拟是利用计算机手段模拟分子在不同激光照射下发生的化学反应现象，计算机模拟能够得到激光化学反应全过程，研究瞬间反应的具体细节，为实际化学反应提供理论指导。目前应用最为广泛的激光化学反应模拟方法是半经典分子动力学方法，由于当模拟规模增加时，其计算量迅速增大，因此，研究高效率并行算法并应用于半经典动力学模拟具有重要意义。本文全面系统地研究激光化学反应模拟并行算法，在此基础上设计了一系列并行算法。本文的主要内容及创新点如下：1．本文基于半经典分子动力学模型实现激光化学反应模拟。该模型由Fortran语言实现，并在大型计算机上构建模拟平台。该平台基于半经典的计算机模拟激光化学反应模型，能够真实反映化学反应的实际过程。通过实际的激光化学反应的模拟测试，实验结果证明该平台能够有效研究激光脉冲性质对化学反应的影响，为研究激光化学反应提供了科学可靠方法。2．本文提出了半经典分子动力学特殊矩阵计算的优化方法和并行计算方法。通过对半经典分子动力学模拟计算的串行算法进行了测试分析，寻求耗时最大的程序模块，即大型特殊矩阵乘法计算。基于计算矩阵特征对特殊矩阵乘法进行优化，大幅降低该模块计算时间。采用Wingrad算法降低矩阵计算时间复杂度，并基于OpenMP实现矩阵乘的Winograd并行算法，有效提高计算效率。3．本文提出了一种半经典分子动力学混合并行算法。在半经典分子动力学模拟中引入混合并行技术和双层并行算法设计。基于MPI+OpenMP混合模型和激光化学反应计算特征，设计并实现激光化学反应模拟双层并行算法，上层并行采用动态原子分割算法，下层并行采用力矩阵并行分解算法。该算法在多核集群中能够有效提高半经典分子动力学并行计算效率。4．基于反馈机制设计动态负载均衡算法，该算法通过负载信息反馈动态调整任务分配，并将该算法应用与半经典分子动力学模拟中，在变化负载系统中，该算法具有较好的适应性。为了进一步适应复杂的频繁变化的负载系统，设计了可变周期反馈的负载均衡算法，根据实时负载调整反馈周期，从而增强算法的可适应性，负载变化较多时能缩短反馈周期，负载稳定时能延长周期，从而提高系统并行效率。针对半经典分子动力学模拟计算特征，设计了周期时间预测算法和优化原子分配方案，在多核集群中测试，采用随机运行的干扰程序动态改变系统负载，在负载动态变化环境中，该负载均衡算法具有优越的自适应性和可扩展性，能够有效提高系统整体性能。

赵坤^[9]（2011）在《基于多核SMP集群环境的光线追踪模拟卫星成像并行研究与实现》文中进行了进一步梳理在卫星发射之前通过对卫星成像效果的模拟可以为参数设定以及地面系统搭建提供重要的参考。为了精确模拟卫星的成像效果,本课题分析了用于卫星模拟的各种方法,并选择利用光线追踪原理来进行实现,同时根据搭载三线阵CCD相机的卫星的特有成像原理,通过使用时间积分、空间积分、TDI积分等方法对进行了模拟,得到了精确的模拟图像。在使用光线追踪原理模拟卫星成像时,通过将串行程序进行并行化改写与实现,可以有效地减少计算时间,提升计算的效率。本课题深入研究了目前高性能计算领域应用最为广泛的多核SMP集群架构,分析了其体系结构的特征,比较了现有的可用于SMP集群的并行编程模型,并结合本课题的实际算法采用了将消息传递模型与共享变量模型混合,节点间通过MPI进行通信,而节点内使用OpenMP并行实现的编程方法。在进行卫星成像模拟时,地面场景信息有DEM与DSM两种格式,这两种格式的分辨率与复杂度各不相同,应针对其特点采用不同的并行方法进行实现。本课题根据DEM规则网格点的形式,使用均匀栅格结构对地面场景进行组织,并结合计算过程中数据的局部性特征对串行方法进行了加速。在此基础上,通过面向控制的任务划分方法将计算任务进行分割,使用MPI实现集群中多台节点的并行来完成加速,达到了比较理想的加速效果;同时针对MPI方法在多核SMP集群上的一些缺点,通过将细粒度的OpenMP并行与MPI并行相结合的方法进行了改进,实验结果显示混合编程模型在多节点的情况下有更好的可扩展性。针对DSM复杂三角面片网的结构特征,使用基于SAH规则的KD树结构对场景进行优化组织,并在此基础上探究了其并行化实现的方法。

郑启龙,汪睿,周寰^[10]（2011）在《KD60集群消息传递接口群集通信算法优化》文中指出大规模集群已经发展到多核的时代,多核架构对并行计算提出了新的要求。消息传递接口（MPI）是最常用的并行编程模型,而群集通信又是MPI中的重要组成部分。研究高效的群集通信算法对并行计算效率的提升有着重要的作用。KD60平台是采用首款国产多核芯片——龙芯3号搭建的国产万亿次多核集群。首先分析了KD60平台多核集群的体系特征以及多核架构下通信具有的层次性特征;然后分析原有群集通信算法实现原理及其不足;最后以广播为例,在原有算法基础上,采用一种基于片上多核（CMP）架构改进算法,改变原有算法通信模式,同时结合实验平台KD60体系特征,对算法做了体系相关优化。实验结果表明,改进算法能够很好地利用多核结构的特点,提高了群集通信广播算法的性能。

二、Targeting BSP Library for SMP Cluster（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、Targeting BSP Library for SMP Cluster（论文提纲范文）

（1）宽窄带雷达信号处理在GPGPU上的实现（论文提纲范文）

摘要

ABSTRACT

符号对照表

缩略语对照表

第一章绪论

1.1 研究背景和意义

1.2 国内外研究现状和发展趋势

1.2.1 雷达信号实时处理平台研制技术

1.2.2 软件化雷达处理平台的发展

1.2.3 GPU设备的演进

1.2.4 GPU在通用计算领域的推广

1.3 论文主要工作和结构安排

第二章异构并行雷达信号实时处理平台

2.1 并行计算体系结构

2.1.1 SISD（单指令单数据）

2.1.2 SIMD（单指令多数据）

2.1.3 MISD（多指令单数据）

2.1.4 MIMD（多指令多数据）

2.2 并发多任务开发模型

2.2.1 消息传递模型（MPI）

2.2.2 共享内存模型（OpenMP）

2.2.3 流模型（Streaming）

2.2.4 异构混合编程模型（MOC）

2.3 GPGPU并行计算及CUDA架构

2.3.1 GPGPU编程模型

2.3.2 统一计算设备架构CUDA

2.4 基于GPGPU的异构并行计算平台

2.5 异构平台并行编程及优化技术

2.5.1 并行运算量影响加速性能

2.5.2 高精度处理影响加速效果

2.5.3 微批处理造成延迟

2.5.4 优化总结

2.6 本章小结

第三章脉冲多普勒雷达的并行实时信号处理

3.1 脉冲多普勒检测理论

3.1.1 雷达的回波模型

3.1.2 线性调频信号

3.1.3 脉冲压缩处理

3.1.4 动目标检测原理

3.1.5 恒虚警检测原理

3.2 关键算法的并行设计

3.2.1 脉冲压缩的并行设计

3.2.2 恒虚警检测的并行设计

3.3 在异构并行平台上的部署

3.3.1 系统需求分析

3.3.2 部署方案设计

3.4 并行实现的性能分析

3.4.1 并行算法性能分析

3.4.2 与嵌入式平台的对比试验

3.5 本章小结

第四章逆合成孔径雷达的并行实时信号处理

4.1 逆合成孔径成像理论

4.1.1 包络对齐

4.1.2 初相校正

4.2 关键算法的并行设计

4.2.1 对数步长递归的并行相邻相关算法

4.2.2 并行化相位梯度自聚焦法

4.3 在异构并行平台上的部署

4.3.1 系统需求分析

4.3.2 部署方案设计

4.4 并行实现的性能分析

4.4.1 并行算法性能分析

4.4.2 与嵌入式系统的对比实验

4.5 本章小结

第五章并行雷达信号处理子系统的软件化体系

5.1 软件化雷达综合处理子系统

5.2 软件体系架构

5.2.1 统一物理设备架构

5.2.2 硬件抽象层

5.2.3 核心框架

5.2.4 软件中间件

5.2.5 组件化应用层

5.3 软件化体系中的关键技术

5.3.1 基于RDMA的实时DDS实现技术

5.3.2 多异构平台上的协作并行多处理技术

5.4 本章小结

第六章总结与展望

6.1 总结

6.2 展望

参考文献

致谢

作者简介

（2）通用多核集群并行编程与优化技术的研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 课题的研究背景和意义

1.2 国内外研究现状

1.3 本文研究的主要内容

1.4 本文组织结构

第2章并行计算概述

2.1 并行计算机体系结构

2.1.1 对称多处理机

2.1.2 大规模并行处理机

2.1.3 分布式共享存储处理机

2.1.4 集群系统

2.2 并行编程设计模型

2.2.1 共享变量模型

2.2.2 消息传递模型

2.2.3 数据并行模型

2.3 并行程序设计策略

2.4 本章小结

第3章多核并行编程环境

3.1 共享存储编程

3.1.1 Fork-Join执行模式

3.1.2 SPMD执行模式

3.1.3 OpenMP编程的优缺点

3.1.4 OpenMP程序优化策略

3.2 消息传递编程

3.2.1 对等模式

3.2.2 主从模式

3.2.3 MPI编程的优缺点

3.2.4 MPI程序优化策略

3.3 本章小结

第4章多核集群混合并行编程与优化

4.1 多核集群体系架构

4.2 多核集群混合编程模型

4.2.1 混合编程模型的优势

4.2.2 多核集群的映射机制

4.2.3 混合编程的实现机制

4.2.4 混合程序的优化策略

4.3 混合编程注意事项

4.4 本章小结

第5章多核集群平台应用的实现与分析

5.1 实验环境

5.1.1 曙光TC5000集群硬件架构

5.1.2 曙光TC5000集群并行环境及配置

5.2 具体应用与分析

5.2.1 问题描述

5.2.2 CG串行算法

5.2.3 MPCG并行实现

5.2.4 MTHCG并行实现

5.2.5 MPCG优化

5.2.6 MTHCG优化

5.3 本章小结

第6章总结与展望

参考文献

在读期间发表的学术论文及研究成果

致谢

（3）基于三维场景的电力大数据快速可视化分析模型研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 课题背景及研究的目的与意义

1.2 电力大数据可视化分析研究现状

1.3 本课题主要研究内容

1.4 论文组织结构与章节安排

第2章大数据可视化分析原理与技术概述

2.1 可视化基本原理与技术

2.1.1 GPU架构与图形渲染管线

2.1.2 图形数据约减方法

2.1.3 通用图形接口OpenGL

2.2 并行计算基本原理与技术

2.2.1 超级计算

2.2.2 大数据基本原理与技术

2.3 本章小结

第3章电力大数据快速可视化分析模型设计

3.1 可视化分析任务处理流程

3.2 层次化的大数据可视化分析架构

3.3 并行计算策略设计

3.4 快速可视化引擎设计

3.4.1 大规模三维场景高效遮挡剔除方法

3.4.2 大规模三维场景快速模型约减方法

3.5 本章小结

第4章大规模三维场景高效遮挡剔除方法

4.1 场景管理与可见性剔除方法概述

4.1.1 场景图数据结构

4.1.2 可见性剔除问题

4.2 基于松散八叉树的场景图数据结构

4.3 基于Halton序列的随机射线遮挡剔除算法

4.3.1 Halton序列

4.3.2 随机射线生成与查询算法

4.4 实验结果与分析

4.4.1 松散八叉树场景图结构均衡性

4.4.2 基于Halton序列的随机射线遮挡剔除算法效率

4.5 本章小结

第5章大规模三维场景模型快速约减方法

5.1 LOD方法概述

5.2 基于LOD权重函数的模型简化算法

5.2.1 权重函数方法简介

5.2.2 本文LOD算法设计

5.3 模型渐进简化与重建算法

5.3.1 边收缩策略

5.3.2 渐进简化与重建

5.4 实验结果与分析

5.5 本章小结

第6章变压器油色谱数据可视化实例分析

6.1 可视化分析任务处理流程

6.2 数据挖掘与分析

6.3 结果集可视化

6.4 三维虚拟现实场景与数据集成

6.5 本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其它成果

致谢

（4）基于多核环境下的多线程并行程序设计方法研究（论文提纲范文）

摘要

Abstract

1. 引言

1.1 研究背景

1.2 国内外研究现状

1.3 本文研究内容与结构

2. 并行计算机体系结构

2.1 并行计算机结构模型

2.1.1 弗林(Flynn)分类法

2.1.2 单指令流多数据流机(SIMD)

2.1.3 并行向量处理机(PVP)

2.1.4 对称多处理机(SMP)

2.1.5 大规模并行处理机(MPP)

2.1.6 分布共享存储处理机(DSM)

2.1.7 工作站机群 (COW)

2.2 并行计算机访存模型

2.2.1 均匀存储访问(UMA)

2.2.2 非均匀存储访问(NUMA)

2.2.3 全高速缓存存储结构(COMA)

2.2.4 CC-NUMA 多处理机

2.2.5 非远程存储访问(NORMA)

2.3 并行计算模型

2.3.1 同步 PRAM 模型

2.3.2 异步 PRAM 模型

2.3.3 BSP 模型

2.3.4 Logp 模型

2.4 本章小结

3. 并行编程模型

3.1 分布式存储编程模型

3.2 共享存储编程模型

3.2.1 OpenMP

3.2.2 Pthreads

3.3 异构编程模型

3.3.1 CUDA

3.3.2 OpenCL

3.4 本章小结

4. 实验环境搭建与并行性能分析

4.1 实验环境搭建

4.4.1 单节点配置

4.4.2 配置 MPI

4.4.3 程序的执行命令

4.4.4 ubuntu 环境下 C 程序的编译和执行

4.4.5 ubuntu 环境下 MPI 程序的编译和执行

4.2 并行程序的性能分析

4.2.1 加速比(speedup)

4.2.2 加速比定律

4.2.3 并行粒度

4.3 本章小结

5. 混合编程研究

5.1 MPI+OpenMP 混合编程模型

5.2 MPI+OpenMP 矩阵相乘实现

5.2.1 矩阵相乘串行算法

5.2.2 基于 MPI 的矩阵相乘

5.2.3 MPI+OpenMP 的矩阵相乘混合编程

5.3 基于 OpenCL 的异构编程

5.3.1 OpenCL 程序流程

5.3.2 基于 OpenCL 矩阵相乘实现

5.4 本章小结

6. 总结与展望

6.1 总结

6.2 展望

参考文献

附录：攻读学位期间发表的学术论文及参与项目

致谢

（5）多核异构环境下通用并行计算框架关键技术研究（论文提纲范文）

摘要

Abstract

1.绪论

1.1 课题研究背景

1.2 国内外研究现状

1.2.1 并行计算机的发展历程

1.2.2 异构并行的发展

1.2.3 分层并行的发展

1.3 研究内容与思路

2.分层异构并行计算的相关理论

2.1 并行计算机体系结构

2.1.1 计算机系统的分类

2.1.2 共享存储处理系统

2.1.3 消息传递系统

2.2 并行算法与程序设计

2.2.1 并行算法设计

2.2.2 并行程序设计

2.3 主流并行工具介绍

2.3.1 集群层

2.3.2 多核 CPU 层

2.3.3 多核 GPU 层

2.4 本章小结

3.分层异构通用并行计算模型框架设计

3.1 程序模型算法设计阶段

3.1.1 问题的描述与任务的划分

3.1.2 各类并行库

3.2 并行程序设计阶段

3.3 并行程序执行阶段

3.4 并行模型执行流程

3.5 分层异构通用并行框架特点

3.6 本章小结

4 通用并行计算模型框架的关键技术研究

4.1 模型算法语言

4.1.1 模型算法语言的建立

4.1.2 模型算法语言的构成

4.1.3 模型算法语言功能设计

4.1.4 模型算法语言的设计

4.2 语言解释系统

4.2.1 词法分析

4.2.2 语言解释系统的设计

4.3 编译系统

4.3.1 编译

4.3.2 并行编译器

4.4 并行方法库

4.4.1 并行方法库及分类

4.4.2 方法库的设计

4.5 并行参数库

4.5.1 参数库

4.5.2 参数库的设计

4.6 程序复用库

4.6.1 程序复用库的提出

4.6.2 专用程序复用库

4.6.3 通用程序复用库

4.7 本章小结

5 基于模型框架的叠前偏移成像研究与应用

5.1 分层异构模型的实现

5.1.1 模型系统化实现

5.1.2 类设计关系图

5.1.3 模型框架实现工作量

5.2 程序示例

5.2.1 Hello World 程序

5.2.2 缝合预处理方法库

5.3 叠前偏移处理

5.3.1 叠前偏移成像

5.3.2 叠前时间偏移

5.4 本章小结

6 总结与展望

6.1 本文总结

6.2 未来展望

参考文献

致谢

个人简历、在学期间发表的学术论文与研究成果

（6）基于多核的并行程序设计及优化（论文提纲范文）

摘要

ABSTRACT

图目录

第一章引言

1.1 研究工作背景

1.1.1 并行计算技术的发展

1.1.2 多核处理器的发展

1.1.3 国内外研究现状

1.2 论文主要内容与结构

第二章并行计算概述

2.1 并行计算机体系结构

2.2 并行计算机的访存模型

2.3 并行计算模型

2.4 并行编程模型

2.4.1 共享变量模型

2.4.2 消息传递模型

2.4.3 数据并行模型

2.5 并行程序设计方法

2.6 并行算法性能分析

2.7 本章小结

第三章 OpenMP编程模型与优化方法

3.1 OpenMP编程模型

3.2 OpenMP并行程序的编程模式

3.2.1 Fork-join模式

3.2.2 SPMD模式

3.3 OpenMP性能分析

3.3.1 OpenMP开销模型

3.3.2 影响OpenMP并行程序性能的因素

3.4 OpenMP并行程序优化方法

3.5 蚁群算法并行化

3.5.1 蚁群算法原理

3.5.2 蚁群算法的并行化

3.5.3 实验结果与分析

3.6 本章小结

第四章 MPI与OpenMP混合编程模型

4.1 MPI简介

4.2 基于MPI与OpenMP的混合编程模型

4.3 混合程序的优化及需要注意的问题

4.4 实验结果与分析

4.5 本章小结

第五章 NCS实时成像系统设计

5.1 NCS算法简介

5.2 NCS并行算法流程

5.3 实时成像硬件设计

5.3.1 FPGA芯片的选型

5.3.2 DSP芯片的选型

5.3.3 NCS实时处理板构成

5.4 本章小结

第六章总结与展望

6.1 总结

6.2 展望

参考文献

致谢

（7）面向高性能图形绘制的加速结构设计（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 引言

1.2 问题提出

1.3 研究意义

1.4 本文内容

1.5 本文结构

第2章相关研究工作介绍

2.1 引言

2.2 光线跟踪

2.2.1 实时光线跟踪

2.2.2 二级光线跟踪

2.3 加速结构

2.3.1 加速结构的比较与分析

2.3.2 加速结构的构造方法

2.3.2.1 基于动态场景的构造方法

2.3.2.2 基于多核架构的构造方法

2.4 并行计算架构

2.4.1 并行计算相关技术介绍

2.4.2 并行计算所存在的问题

2.4.3 光线跟踪的并行计算

2.5 运动模糊绘制技术

2.6 小结

第3章基于GPU的高质量加速结构设计

3.1 研究动机

3.2 算法描述

3.2.1 多维度SAH并行构造方法

3.2.2 面向并行的数据调度与任务处理方法

3.2.2.1 基于bucket的原始数据分配

3.2.2.2 基于队列的并行构建过程与通信机制

3.2.3 MKD树快速遍历方法

3.2.3.1 渐进式有序遍历方法

3.2.3.2 大光线包的自适应遍历与相交方法

3.3 实验结果与讨论

3.4 小结

第4章面向动态场景的加速结构设计

4.1 研究动机

4.2 加速结构的选择

4.3 算法描述

4.3.1 BVH构造初期

4.3.2 BVH构造中期

4.3.3 BVH构造末期

4.4 实验结果与讨论

4.5 小结

第5章面向二级光线的加速结构遍历方法

5.1 研究动机

5.2 算法描述

5.2.1 有效的数据管理方法设计

5.2.1.1 准备工作

5.2.1.2 数据管理

5.2.2 基于数据驱动的任务管理方法

5.2.2.1 自适应的动态遍历方法

5.2.2.2 面向Cache的结点动态访问策略

5.3 实验结果与讨论

5.4 小结

第6章面向运动模糊的加速结构设计

6.1 研究动机

6.2 算法描述

6.2.1 MBBVH结构构造方法

6.2.2 基于遍历的MBBVH结构动态调整方法

6.2.3 基于时间特征的MB结点构造与遍历方法

6.2.4 自适应的调整计算方法

6.2.5 不规则形状大小的面片处理方法

6.3 实验结果与讨论

6.4 小结

附图

第7章总结与展望

7.1 本文工作总结

7.2 未来工作展望

参考文献

攻读博士学位期间的主要研究成果

致谢

（8）并行算法在激光化学反应模拟中的应用研究（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究背景

1.2 国内外的研究现状

1.2.1 分子动力学与激光化学反应模拟

1.2.2 分子动力学并行算法

1.2.3 负载均衡算法

1.3 论文主要工作

第二章并行计算与分子动力学基础

2.1 并行计算基础

2.1.1 并行计算机分类

2.1.2 并行计算模型

2.1.3 并行编程技术

2.1.4 负载均衡基础

2.1.5 并行性能衡量

2.2 分子动力学概述

2.3 半经典分子动力学

2.3.1 电子波函数

2.3.2 哈密顿矩阵元

2.3.3 基于密度泛函的紧束缚方法

2.3.4 运动方程的求解

2.3.5 激光脉冲与电子耦合

2.4 本章小结

第三章半经典分子动力学模型构建与并行设计

3.1 提出背景

3.2 激光诱导的光化学反应计算模型

3.2.1 激光诱导的光化学反应模拟流程

3.2.2 半经典分子动力学模拟功能模块设计

3.2.3 激光化学反应模拟程序可靠性验证

3.3 半经典的分子动力学模拟矩阵计算优化

3.3.1 半经典分子动力学计算特征分析

3.3.2 核运动力 F 的计算分析

3.3.3 特殊矩阵乘法优化

3.3.4 Winograd 矩阵乘法优化

3.4 并行设计与性能测试

3.4.1 测试环境

3.4.2 测试与分析

3.5 本章小结

第四章半经典分子动力学混合并行算法

4.1 理论背景

4.2 混合并行可行性分析

4.3 混合并行算法设计与分析

4.3.1 算法设计

4.3.2 算法分析

4.4 基于 MPI+OpenMP 混合的并行算法实现

4.4.1 基于 MPI 的原子分割并行算法

4.4.2 基于 MPI+OpenMP 的混合并行算法

4.5 测试及分析

4.5.1 测试环境

4.5.2 内层并行测试与分析

4.5.3 外层并行测试与分析

4.5.4 通信开销对计算性能的影响

4.5.5 粒度划分对效率的影响

4.6 本章小结

第五章半经典分子动力学动态负载均衡算法

5.1 提出背景

5.2 反馈的负载均衡模型

5.2.1 模型描述

5.2.2 模型分析

5.3 半经典分子动力学动态负载均衡设计

5.3.1 半经典分子动力学模拟计算特征

5.3.2 基于反馈的负载均衡算法设计

5.3.3 可变周期反馈的负载均衡算法设计

5.4 测试与分析

5.4.1 测试环境

5.4.2 基于反馈的负载均衡算法测试

5.4.3 负载均衡度分布情况比较

5.5 本章小结

第六章全文总结

6.1 工作总结

6.2 进一步工作设想

致谢

参考文献

攻博期间取得的研究成果

（9）基于多核SMP集群环境的光线追踪模拟卫星成像并行研究与实现（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 本论文研究的目的和意义

1.2 遥感卫星模拟成像的研究现状及发展趋势

1.3 光线追踪的基本原理与研究进展

1.3.1 经典光线追踪算法的原理

1.3.2 光线追踪的算法的加速及并行实现

1.4 多核SMP 集群的体系结构及特性

1.4.1 SMP 集群

1.4.2 多核SMP 集群体系结构及其特性

1.5 本文的研究内容以及组织结构

第2章光线追踪算法模拟卫星成像的实现方法

2.1 卫星成像的原理与模拟实现方式

2.1.1 卫星成像的原理与模式

2.1.2 按光线追踪原理对卫星成像的模拟方法

2.1.3 对卫星特殊成像模式的模拟方法

2.1.4 为防止像元颜色失真的模拟方法

2.1.5 地面场景信息

2.2 针对地面场景信息特点选择加速策略

2.2.1 常用的场景组织数据结构

2.2.2 各种加速结构的性能比较分析

2.3 光线追踪模拟卫星成像流程及并行化分析

第3章基于多核 SMP 集群混合编程模型

3.1 SMP 集群下的编程模型

3.1.1 多核SMP 集群体系结构对并行模型的特殊要求

3.1.2 消息传递编程模型

3.1.3 共享变量编程模型

3.1.4 混合编程模型

3.2 MPI+OpenMP 混合编程模型

3.2.1 MPI 消息传递编程模型

3.2.2 OpenMP 共享变量编程模型

3.2.3 MPI+OpenMP 混合并行编程模型

第4章 DEM 场景中细粒度 MPI+OpenMP 并行实现

4.1 面向控制的任务划分方法

4.1.1 利用均匀栅格结构实现对DEM 场景的组织

4.1.2 利用数据的局部性进行加速

4.1.3 任务划分方法

4.1.4 此并行方法的额外开销分析

4.2 进程间的组织结构与并行流程

4.2.1 使用主从结构组织计算进程

4.2.2 采用任务池模式分配任务

4.2.3 主从结构的性能及瓶颈分析

4.2.4 主从结构在任务分配及处理过程中的具体流程

4.2.5 单纯使用MPI 模型的缺点

4.3 细粒度OpenMP 并行实现

4.3.1 进程内部细粒度并行可行性分析

4.3.2 OpenMP 并行循环区域分析

4.3.3 OpenMP 循环调度策略分析与设定

4.3.4 改进任务分配策略以扩大并行区域

4.4 加速效果及性能分析

4.4.1 实验运行环境

4.4.2 并行化后对成像精度的影响

4.4.3 子任务计算大小对计算时间的影响

4.4.4 单节点上MPI 与OpenMP 加速情况对比

4.4.5 多节点集群中MPI 与OpenMP 并行加速情况对比

第5章 DSM 场景中粗粒度 MPI+OpenMP 探究

5.1 使用KD 树组织DSM 场景

5.1.1 KD 树简介

5.1.2 KD 树的具体构建方法

5.1.3 KD 树的遍历方法

5.2 粗粒度的MPI+OpenMP 并行实现探究

5.2.1 进程间的任务分配方法

5.2.2 粗粒度MPI+OpenMP 并行实现

总结与展望

参考文献

攻读学位期间发表论文与研究成果清单

致谢

（10）KD60集群消息传递接口群集通信算法优化（论文提纲范文）

0 引言

1 相关工作

2 多核架构下的通信

2.1 多核集群及其通信特征

2.2 通信性能指标

2.3 多核体系下的通信模型

3 算法及其分析

4 KD60体系相关的优化

4.1 利用128位访存指令改进memcpy效率

4.2 利用数据分片技术解决Cache冲突

5 实验结果及分析

5.1 结合KD60平台相关优化后节点内通信性能对比分析

5.2 采用优化算法和体系结构相关优化的实验结果及分析

6 结语

四、Targeting BSP Library for SMP Cluster（论文参考文献）

[1]宽窄带雷达信号处理在GPGPU上的实现[D]. 徐杰. 西安电子科技大学, 2017(04)
[2]通用多核集群并行编程与优化技术的研究[D]. 刘超. 曲阜师范大学, 2017(02)
[3]基于三维场景的电力大数据快速可视化分析模型研究[D]. 黄靖媛. 东北电力大学, 2016(08)
[4]基于多核环境下的多线程并行程序设计方法研究[D]. 王晗. 中原工学院, 2014(04)
[5]多核异构环境下通用并行计算框架关键技术研究[D]. 盛艳秀. 中国海洋大学, 2013(11)
[6]基于多核的并行程序设计及优化[D]. 王堃. 南京大学, 2012(10)
[7]面向高性能图形绘制的加速结构设计[D]. 杨鑫. 浙江大学, 2012(12)
[8]并行算法在激光化学反应模拟中的应用研究[D]. 李鸿健. 电子科技大学, 2012(12)
[9]基于多核SMP集群环境的光线追踪模拟卫星成像并行研究与实现[D]. 赵坤. 北京理工大学, 2011(07)
[10]KD60集群消息传递接口群集通信算法优化[J]. 郑启龙,汪睿,周寰. 计算机应用, 2011(06)

标签：并行计算论文; openmp论文; 大数据论文; 数据可视化论文; 异构计算论文;

针对 SMP 集群的 BSP 库

一、Targeting BSP Library for SMP Cluster（论文文献综述）

二、Targeting BSP Library for SMP Cluster（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、Targeting BSP Library for SMP Cluster（论文提纲范文）

（1）宽窄带雷达信号处理在GPGPU上的实现（论文提纲范文）

（2）通用多核集群并行编程与优化技术的研究（论文提纲范文）

（3）基于三维场景的电力大数据快速可视化分析模型研究（论文提纲范文）

（4）基于多核环境下的多线程并行程序设计方法研究（论文提纲范文）

（5）多核异构环境下通用并行计算框架关键技术研究（论文提纲范文）

（6）基于多核的并行程序设计及优化（论文提纲范文）

（7）面向高性能图形绘制的加速结构设计（论文提纲范文）

（8）并行算法在激光化学反应模拟中的应用研究（论文提纲范文）

（9）基于多核SMP集群环境的光线追踪模拟卫星成像并行研究与实现（论文提纲范文）

（10）KD60集群消息传递接口群集通信算法优化（论文提纲范文）

四、Targeting BSP Library for SMP Cluster（论文参考文献）

猜你喜欢