一种数据驱动的可重构计算统一编程模型--慧智精品网

第ｌｌ期２００７年１１月

电

充电桩品牌排行榜子学报

Ａ（ＸＡ

ＥＬＥＣＩＲＯＮＩＣＡ

ＳＩＮＩＣＡ

ｖ０１．３５

Ｎｏ．１１

ＮＯＶ．卿

一种数据驱动的可重构计算统一编程模型

周学海，罗

赛，王峰，齐骥

（中国科学技术大学计算机科学技术系，安徽合肥２３００２７）

摘要：可重构计算以其优异的性能和高度的灵活性，在国际国内研究领域逐渐引起广泛的关注．然而，在研的可重构计算系统架构多种多样，编程模型多与体系结构相关，使用和移植都非常困难．本文为解决编程通用性问题，从可重构计算的基本特征出发，提出数据驱动的，支持异构任务并行计算的统一编程模型，并讨论其实现方法．该模型基于生产者．消费者通讯机制，支持多种类型的计算结点和通讯网络，具有高度的抽象性．实验结果显示，使用统一编程模型进行应用设计，在不同的架构上能够使用同样的用户程序，并且获得比纯硬件加速方式更高的加速比．

关键词：

可重构计算；编程模型；生产者．消费者通讯模型

中图分类号：ＴＰ３６８．１文献标识码：

Ａ

文章编号：０３７２．２１１２（２００７）１１．２１２３．０６

ＡＤａｔａ－ＤｒｉｖｅｎＵｎ．ｆＯｒｍＰｒＯｇｒａｍｍｉｎｇＭｏｄｅｌｆｏｒＲｅｃｏｎｆｉｇｕｒａｂｌｅＣｏｍｐｕｔｉｎｇ

ＺＨＯＵＸｕｅ－ｈａｉ，ＬＵＯ

Ｓａｉ，ＷＡＮ（；Ｆｅｎｇ，ＱＩｊｉ

（压册删ｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ

ａｎｄ

Ｔｅｄｍｏｌｏｇｙ，ＵｎｉｖｅｒｓｉｔｙｏｆＳｃ／ｅｎｃｅａｎｄＴｅｃｈｎｄｏｇｙｏｆＯｄｎａ，Ｈｑ＇ｅ／，Ａｎｈｄ２３００２７，Ｏｈ／ｈａ）

Ａｂｓｔｒａｃｔ：Ｄｕｅ

达成铁路ｔｏ

ｔｈｅｅｘｃｅｌｌｅｎｔ

ｐｅｒｆｏｍｍｃｅ

ａｎｄｆｌｅｘｉｂｉｌｉｔｙ．ｒｅｃｏｎｆｉｇｕｒａｂｌｅｃｏｍｐｕｔｉｎｇｈａｓｇａｉｎｅｄ

ｎｘ肥ａｎｄｎ】（鹏ａｔｔｅｎｔｉｏｎ

ｔｈｒｏｕｇｈｏｕｔｔｈｅｗｏｒｌｄ．Ｂｕｔｃｕｒｒｅｎｔｌｙｔｈｅｒｅ’ｒｅｓｏ

ｍａｎｙｄｉｆｆｅｒｅｎｔｐｌａｔｆｏｒｍｓａｎｄｐｒｏｇｒａｍｍｉｎｇｆｒａｍｅｗｏｒｋｓｗｈｉｃｈｔａｋｅｙｏｕｉｎｔｏｔｈｅｄｅ—

ｔａｉｌｓｏｆｔｈｅ

ｓｐｅｃ疵ｈａｒｄｗａｒｅ，ａｎｄｐｒｅｖｅｎｔｔｈｅｉｒｐｒａｃｔｉｃａｌｕｓａｇｅ．Ｉｎｔｈｉｓ

ｐａｐｅｒ，ａｆｔｅｒｄｅｅｐｓｔｕｄｙｏｆｔｈｅ

ｒｅｃｏｍｆｉｇｕｒａｔｉｏｕ

ｃｈａｒａｃｔｅｄｓｔｉｃ，ａ

ｎｏｖｅｌｄａｔａ－ｄｒｉｖｅｎＵｌｆｉｆｏｌａｌｌｐｒｏｇｒ蛐ｍｏｄｅｌ

ＲＥＣＵＰＭｉｓｐｒｏｐｏｓｅｄ，ａｎｄｉｔｓ

ｉｍｐｌ蚴ｔａｔｉｏｎ

ｉｓｄｉｓｃｕｓｓｅｄ．Ｔｈｅ

ｍｏｄｅｌｓｕｐｐｏｒｔｓｐａｒ－

ａｌｌｅｌｈｙｂｒｉｄ－ｔａｓｋｃｏｍｐｕｔｉｎｇ．Ｉｔ’Ｓｂａｓｅｄ

ｏｎ口ｏ（懈ｃ０幡嘲ｃｏｍｍｕｎｉｃａｔｉｏｎ

ｐａｒａｄｉｇｍａｎｄ

ｃａｎｂｅａｄａｐｔｅｄｏｎｔｏ

ｄｉｆｆｅｒｅｎｔｔｙｐｅｓ

ｏｆ

ｎｅｔｗｏｒｋｓ

ａｎｄｎｏｄｇｓ．ＥｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔａｐｐｌｉｃａｔｉｏｎｓｆｅａｔｕｒｉｎｇＲＦＬ＇ＵＰＭ

ｒｅｕｓｅｔｈｅｓａｍｅ

ｓｏｕｒｃｅ

ｃｏｄｅｓ

０１１

ｄｉｆｆｅｒｅｎｔａｒｃｈｉｔｅｃｔｕｒｅｓ，

ａｎｄｏｕｔｐｅｒｆｏｒｍｔｈｅｐｕｒｅｈａｉ＇ｄｗａｒｅａｃｃｅｌｅｒａｔｉｏｎｄｅｓｉｇｎ．

Ｋｅｙ

ｗｏｒｄｓ：，似ｘ，ｎｆｉｇｕｒａｂｌｅ

ｃｏｍｐｕｔｉｎｇ；ｐｒｏｎｇ

ｍｏｄｅｌ；ｐｒｏｄｔｌｃｅｒ－ｏｏｎｓｕｍｅｒ

ｃｏｒｍｎｕｎｉｃａｔｉｏｕ

ｍｏｄｅｌ

１引言

可重构计算（ＲｅｅｏｎｆｉｇｕｒａｂｌｅＣｏｍｐｕｔｉｎｇ）是一种时空域上的计算模式ｕＪ．可重构计算系统通常含有大量的可编程逻辑资源和互联资源．用户根据需要自由定制硬件的功能，具有较高的灵活性；同时，数据运算直接在硬件上完成，可获得很高的性能．相对而言，专用集成电路（ＡＳＩＣ）通过在芯片上设计出专用的电路以执行专用的算法，性能高但功能单一．通用处理器（ＧＰＰ）通过编程组合不同的指令以实现不同的算法．指令的串行执行性以及指令集的有限性使得ＣＰＰ的性能并不理想．定制指令集处理器（ＡｓＩＰ）继承了ＣＰＰ易编程性的优点，同时通过增加特殊指令和专用加速单元，提高了对特定应用的处理能力，如媒体处理器、网络处理器等．但其应用范围仍旧受限．四种计算模式的比较如图１所示．

收稿日期：２００６－０４－０６；修回日期：２００７４３６－２８

基金项目：高等学校博士学科点专项科研基金（№．２００５０３５８０４０）

Ｖａｌｉａｎｔ指出，编程模型是软

件和硬件之间的桥梁［引．可重构篚

计算同时由软件和硬件任务组

成，那么可以说，编程模型是用

户设计与系统硬件之间的桥梁．誓警毳薯篱箸器霁图・…算蕊

言能够有效地编译到该模型，并’。

…。…。。‘’。

有效的实现到硬件上．然而当前可重构计算并没有一个公认较好的编程模型，主要原因足由于系统架构的多样性旧Ｊ．从计算粒度考虑，有位级的细粒度单元（如ＦＰ．ＧＡ）、字级的粗粒度单元（如ＲＡＰＩＤ、Ｍｏｒｐｈｏｓｙｓ等），和层次性的混合粒度单元（如ＲＡＷ、ＰｉｐｅＲｅｎｃｈ等）．从网络拓扑结构考虑，有一维线性式、二维网孑Ｌ式，或交叉开关等．这些系统使用专用的、与体系结构相关的编程模型，要求用户具有很高的专业知识并了解硬件结构细节．这

２１２４电子学报２００７钷

虽然有利于充分挖掘系统的计算能力，但不利于可重构计算的普及应用．尤其是近年来高性能ＦＰＧＡ迅速发展，更迫切需要一种通用的跨平台编程模型．Ｔａｎｉｇａｗａ［４ｌ在这方面做出了有益的尝试，提出了理想并行结构模型Ｉ．ＰＡＲＳ，但只关注硬件结构特征而未考虑多任务的调度和通讯等动态信息．Ｊｉｄｉｎ［５Ｊ提出了一种多线程编程模型，着重研究任务同步问题，但其性能优势依赖于ＣＰＵ和ＦＰＧＡ紧耦合的通讯架构．Ｖｕｌｅｔｉｃ［６’７Ｊ提出了软硬件虚拟抽象层，讨论硬件模块的虚拟存储管理机制．但其管理器实现开销较大，并且需要软硬件共享存储，只适合总线通讯网络．与本文工作最接近的是周博旧Ｊ提出的基于ＵＣＯＳ的可重构计算实时操作系统．实现了任务预配置算法和硬件接口，并讨论了可重构资源管理、硬件任务管理机制，但未考虑到任务间通讯和动态任务调度与配置．

本文将通讯与计算分离，提出了一种数据驱动的可重构计算统一编程模型（ＵｎｉｆｏｒｍＰｒｏｇｒａｍｍｉｎｇＭｏｄｅｌｆｏｒ

ＲＥｃｏｎｆｉｇｕｒａｂｌｅＣｏｍｐｕｔｉｎｇ，ＲＥＣＵＰＭ），解决系统中的任务配置、调度和通讯等问题．它具有如下的几个特点：（１）

它是针对可重构计算的特征而提出的一种通用的编程

模型，能够适合各种通讯网络拓扑和计算结点架构．

u盘写保护无法格式化（２）基于模块化设计原则，能够方便的重用模块ｍ库，

提高了模型的易用性．（３）通讯与计算分离．数据驱动

的生产者．消费者通讯机制，使得用户在模块设计时不

需考虑任务间通讯等问题，只需在末期整合阶段设置

接口的各项属性，不同的设置能够产生出具有不同的

逻辑通讯拓扑关系的系统．（４）末期整合阶段可根据用

户设置做出优化，进一步提高系统性能和资源利用率．２可重构计算系统组成结构

可重构计算系统本质上是一种异构并行的计算环境，至少需要支持任务配置、调度运行和通讯等操作．一般而言，可重构计算系统由可重构器件和通用处理器组成．可重构器件（ＲｅｃｏｎｆｉｇｕｒａｂｌｅＨａｒｄｗａｒｅＤｅｖｉｃｅ，Ｒ皿）是一种支持硬件配置以改变自身功能的器件．基本重构单元（ＢａｓｉｃＲｅｃｏｎｆｉｇｕｒａｂｌｅＵｎｉｔ，ＢＲＵ）是ＲＨＤ配置的最小粒

度单元．重构ＲＨＤ功能时至少需改变一个ＢＲＵ．全片覆写型ＦＰＧＡ的ＢＲＵ等于ＲＨＤ．部分覆写型ＦＰＧＡ可只改变一部分，因而一个ＲＩ－ＩＤ就包含多个ＢＲＵ．如Ｘｉｉｎｘ的Ｖｉｒｔｅｘ系列，ＢＲＵ就是它的一列．・可重构计算系统的基本组成结构可以描述为图２，包括异构的计算结点和通讯网络．ＲＨＤ完成空域上数据运算操作，同时可根据需要动态改换配置加载新的计算任务．ＧＰＰ（或ＡＳＩＰ）处理那些通常不便映射到硬件上的算法，例如随机内存访问、控制流和文件系统等．各处理单元之间并行执行．ＧＰＰ和ＡＳＩＰ的执行方式相同，下文为简便起见两者统称为ＧＰＰ．

甲甲…・

＜＝］匝《＞

由卤…．

图２可重构计算系统组成结构

处理器和ＲＨＤ间通过通讯网络连接．我们未规定这些网络的具体形式．可以是低速Ｉｏ级的以太网、ＣＡＮ总线等，可以是局部总线比如ＰＣＩ、内存总线，也可以是高速专用总线如协处理器总线等．另外ＲＨＤ侧可根据需要组建可重构网络．

３统一编程模型

根据前一节对可重构计算系统的分析，我们提出了一种支持异构任务并行执行的可重构计算统一编程模型ＲＥＣＵＰＭ．本模型描述了通用可重构计算系统所必需的硬件资源管理、任务管理和通讯等机制，以及这些机制提供的操作原语，并以统一编程接口的形式实现这些操作原语．该接口屏蔽了各种可重构系统中底层硬件和通讯的差异，为用户提供了统一的编程界面．在ＲＥＣＵＰＭ模型中，配置和运行的实体是任务（Ｔａｓｋ）．任务可单独运行互不影响，是最小的调度单位．在ＧＰＰ上执行的由处理器指令构成的任务称为软件任务（ＳｏｆｔｗａｒｅＴａｓｋ，ＳＴ），在ＲＨＤ上执行的由硬件配置信息构成的任务称为硬件任务（ＨａｒｄｗａｒｅＴａｓｋ，Ⅲ’）．ＳＴ在单ＣＰＵ上串行执行，ｓＴ之间共享ＣＰＵ的执行资源（如寄存器、ＡＬｕ），其执行能力来自ＣＰＵ对取指、译码和执行的周期性驱动．ＨＴ独享ＲＨＤ的一部分芯片资源，多个ＨＴ之间并行执行，其执行能力来自时钟驱动的硬件电路．３．１资源管理

ＲＥＣＵＰＭ需要管理可重构硬件资源．它使用一个ＮｅＲＯ＊Ｊ７、ｒＢＲＵ大小的二维数组ＢＲＵ—ＲＥＳＯＵＲＣＥＳ，ＮＲＨＤ表示ＲＨＤ芯片的个数，

ＮＢＲＵ表示每个ＲＨＤ上

ＢＲＵ的数目．该数组保

存了ＢＲＵ的状态，参见

图３．状态初始为空

ＥＭＰＩＴ．当加载并运行

ＨＴ之后，转变为ＡＣ．

１．ＩｖＥ活动状态．如果结

束（ＴＥＲＭＩＮＡＴＥ）ＨＴ，则

图３ＢＲＵ状态转换图

冻结它所占据的区域并进入ＰＡＳＳＩＶＥ被动状态．如果需要再次加载该ＨＴ，则立即激活进入ＡＣＴＩＶＥ状态，节省了重复加载的时间．如果本区域需要加载其它的ｍ’，

第１ｌ期周学海：一种数据驱动的可重构计算统一编程模型２１２５

则经由ＥＭｔｒＩ＇ｙ并在配置完成后激活．

３．２任务管理

任务是ＲＥＣＵＰＭ的最小调度单位．系统整合阶段对每个任务都生成相应的任务描述符，用于描述该任务的映像文件、使用的硬件资源以及通讯ｍ等．它包含这些成员．ｓｔ—ｅｘｅ—ｆｉｌｅ表示软件可执行文件．胁一瞻一触是硬件配置文件．ｂｒｕ一彬和ｂｒｕ—ｈ表示ＨＴ占据ＢＲＵ的宽度和高度．ｐｏｓ一并、ｐｏｓ—Ｙ和ｓｔ—ｐｏｓ表示任务的静态调度位置，若为．１则表示该任务可调度到任意的地方．ｃｏｍｒｌｚ—ｉｉｄ表示通讯ＩＤ（ｆｉｌｔｅｒ／ｍａｓｋ对），可以有多组，用于通讯分析和性能优化等．ｓｔａｔｅ表示任务状态．ｐｏｓ一髫一瞻、ｐｏｘ—Ｙ一瞻和ｓｔ—ｐｏｓ一瞻表示实际的调度位置．

ＲＥＣＵＰＭ模型提供任务创建、结束和配置操作原语．

ＣＲＥＡＴＥ原语根据任务描述，从硬件资源表中寻可调度的位置，将硬件映像文件配置到该位置上．如果资源不够或者是软件任务，则在ＣＰＵ上启动该任务．其调度算法如下：

（１）判断胁一瞻一ｒｉｔｅ是否为空．不空表示是｝ｒｒ，转下一步；否则是ＳＴ，转到（９）．

（２）笋ｌＪ断任务是否处于ＰＡＳＳＩＶＥ状态．如果是，则立即激活该任务，并跳转至（８）．

（３）根据／ｍｓ一菇和／ｍｓ—ｒ判断用户是否明确指定了加载位置．是则跳转到（６）．

（４）在ＢＲＵ—ＲＥＳＯＵＲＣＥＳ中寻宽度ｂｒｕ一似，高度ｂｒｕ—ｈ，状态为ＥＭＰＴＹ

的ＢＲＵ矩形区域．如果到，则转至（７）．

（５）在ＢＲＵ—ＲＥＳＯＵＲＣＥＳ中寻宽度ｂｒｕ一彬，高度ｂｒｕ—ｈ，状态为ＥＭＰＴＹ或ＰＡＳＳＩＶＥ的ＢＲＵ矩形区域．如果到，则转至（７）．否则跳转至（９），尝试软件加载．（６）查看目标矩形区域内是否有活动的任务存在．如果有则表示静态加载位置冲突，失败返回．

（７）调用ＣＯＮＦＩＧ—ＨＴ配置硬件任务，并检查配置结果．如果失败则返回．

（８）更新任务状态和位置信息，更新ＢＲＵ—ＲＥ．ＳＯＵＲＣＥＳ资源表．成功返回．

（９）检查ｓｔ—ｅ．ｑｇｅ一．触是否为空．空则失败退出．

（１０）调用操作系统的任务创建函数，加载软件任务，更新任务状态，返回．

ＴＥＲＭＩＮＡＴＥ原语结束任务，更新任务状态和系统资源表．

ＣＯＮＦＩＧ—ＨＴ原语通过向ＲＨＤ配置器发送命令，将硬件任务映像文件加载到ＲＨＤ的目标区域．本原语仅供系统设计者使用．创建硬件任务时会自动调用本原语．

３．３任务间通讯

为了将计算与通讯分割开来，降低任务之间的耦合度，我们提出了基于生产者．消费者（Ｐｒｏｄｕｃｅｒ－Ｃｏｎ．ｓａｎｅｒ，Ｐ－Ｃ）的通讯模型．任务模块将需要的数据从产品池中读取进来（“消费”），经过一系列的加工处理，然后贴上标签发布出去（“生产”）．编写任务模块的时候，只用关心它所面对的数据，这使得任务具有更好的独立性．而在通常的通讯模型中（如ＭＰＩ），数据发送方必须知道接收方的地址（如ＩＰ地址、进程编号等），增大了模块间的关联度，并且不易实现多播（一对多通讯）的功能．而Ｐ－Ｃ则是一种天然的多播模型，每个任务都可以提取自己需要的数据．

从数据与计算的角度分析，Ｐ－Ｃ模型以数据为中心，模块听令于网络（ＭｏｄｕｌｅＳｅｒｖｅｓＮｅｔｗｏｒｋ，ＭＳＮ）的通讯架构旧Ｊ．应用需求处于优先考虑的位置．模块设计完成后，通过在网络（产品池）上放入不同的数据，就可以驱动模块完成相应的功能．网络上数据产品的不同形态将产生出具有不同功能的应用，这暗合了可重构计算的基本思想．同时不活动的模块可以切换出去以节省硬件资源．反之，通常通讯模型是网络听令于模块（Ｎｅｔ．ｗｏｒｋＳｅｒｖｅｓＭｏｄｕｌｅ，ＮＳＭ）的架构．网络是事先存在的，处于优先的位置．模块设计不仅要考虑到它自身的功能需求，还必须额外考虑底层网络的结构和通讯手段．通过向网络发送特定的命令，来实现数据通讯．

Ｐ－Ｃ通讯模型中，每个产品都要附带标签，用于表明该产品的作用，称为用途编号（ＩｎｔｅｎｔｉｏｎＩＤ）．在生产者一方，数据被分割为多个报文发送出去，报文头部包含了ＩＩＤ．消费者根

据ＩＩＤ抽取其感兴趣的报文，做进一步的处理；并丢弃掉不感兴趣的报文．任务管理命令也通过通讯网络传播。我们为管理通道赋予了特定的编号ＩＩＤ—ＳＹＳ胝Ｍ．

本模型提供ＰＲＯＤＵＣＥ和ＣＯＮＳＵＭＥ操作原语．Ｐ－Ｃ模型本质上是一种共享总线式的通讯模型，所有消费者必须连接到全局产品池才能够访问到所需的数据，这样就限制了系统的规模．为此，我们划分了多个较小的产品池．对于跨池传输的产品，同时打上目标产品池的标签（ＰｏｏｌＩＤ，ＰＩＤ），由专门的转发器负责跨池传输．生产该类产品的操作称为ＰＲＯＤＵＣＥ—ＥＸＰＬＩＣＩＴ．基于数据驱动的Ｐ－Ｃ模型隐藏了多任务之间的同步操作，因此不需要显式的任务同步原语．

３．４模型接口

操作原语以编程接口的形式提供给用户．ＲＥＣＵＰＭ模型为软件任务和硬件任务提供了统一的视图．但ｓＴ和ｍ＇通常由不同的语言编写（如ｃ和Ｖｅｒｉｌｏｇ），并使用不同的设计流程和工具链．为了支持二者的差异，我们

２１２６电子学报２００７年

提供两套编程接Ｅｌ，分别为统一软件接１３（ＵｎｉｆｏｒｍＳｏｆｔ．ｗａｒｅＩｎｔｅｒｆａ

ｃｅ，ＵＳＩ）和统一硬件接口（ＵｎｉｆｏｒｍＨａｒｄｗａｒｅＩｎ．ｔｅｒｒａｃｅ，ＵＨＩ）．

ＵＳＩ比较简单．最小ＵＳＩ实现中包含函数ｕｓｉ—ｃｒｅａｔｅ创建任务、ｕｓｉ—ｔｅｒｍｉｎａｔｅ结束任务、ｕｓｉ—ｒｅｇｉｓｔｅｒ—ｉｉｄ注册感兴趣的数据ⅡＤ、ｕｓｉ—ｕｍ℃ｇｉｓｔｅｒ—ｉｉｄ注销ｌｉＤ、ｕｓｉ—ｐｒｏ．ｄｕｃｅ生产数据、ｕｓｉ—ｐｒｏｄｕｃｅ—ｅｘｐｌｉｃｉｔ生产跨网数据和ｕｓｉ—ｃｏｎｓｕｍｅ消费数据．ＵＳＩ不包含ＣＯＮＦＩＧ—ＨＴ原语实现，用户不应直接使用它．注意接口与原语的区别，原语是ＲＥＣＵＰＭ对可重构计算逻辑功能的支持，接口是对用户编程的支持，二者并不完全一一对应．如ＣＯＮ．ＳＵＭＥ原语由ｕｓｉ—ｒｅｇｉｓｔｅｒ—ｉｉｄ和ｕｓｉ—ｃｏｎｓｕｎｌｅ共同实现，通讯管理模块经注册后，仅仅提取任务感兴趣的数据，减轻了ＣＰＵ的负担．

ＵＨＩ的接口信号如图４所示．本接口共分为２部分，消费者接ＥｌＵＨＩｅ和生产者接１３ＵＨＩｐ．ＵＨＩｃ监听网络并过滤（Ｆｉｌｔｅｒ）出需要的报文．如果是普通数据，则存放到ＦＩＦＯｅ中．如果是命令，则生成管理信号ｒａｔ和ｔｅｒｍ．任务调度器在创建（ＣＲＥＡＴＥ）－－个新Ｉ－ＩＴ后，将发送激活命令．ＵＨＩｃ解释该命令，产生复位信号（ｒａｔ）脉冲，使得ＨＴ内部复位并开始工作．类似的，需要结束（ＴＥＲＭＩＮＡＴＥ）Ｉ－ＩＴ时，ＵＨＩｃ发送ｔｅｒｍ信号，终止ＨＴ的运行．缓冲区ＦＩＦＯｃ有３类信号，ｅｍｐｔｙ指示ＦＩＦＯ为空，ｒｄ读数据，

ＤＢ为数据总线．

ｉｉｄ，ｍａｓｋ

通讯网络

图４统一硬件接口ＵＩ－ＩＩ

在生产者ＵＨＩｐ一侧，ＨＴ可以一直写（ＷＩ＂）ｒＩＦＯｐ，直到缓冲区满（ｆｕｌｌ）为止．数据ｉｉｄ／ｐｉｄ号通过ｓｅｌ来选择．这些数据由Ａｒｂｉｔｅｒ发送到通讯网络上．Ａｒｂｉｔｅｒ分主、从２种类型．主Ａｒｂｉｔｅｒ能够主动与其它Ａｒｂｉｔｅｒ协商并传输数据，需要底层网络具备多主仲裁通讯功能．从Ａｒｂｉｔｅｒ则被动的听从主设备的访问命令．

ＣＲＥＡＴＥ和ＴＥＲＭＩＮＡＴＥ原语通过使用ｌｉＤ—ＳＹＳＴＥＭ标号向ＵＨＩｐ中写入相应命令来实现．任务通讯原语通过选择合适的标号并访问数据缓冲区来实现．

ＵＨＩ是一种平台无关的接口．为了能够更好的匹配目标系统，ＵＨＩ提供了灵活的可配置参数，如图中虚箭头所示．ＮＦＩＦＯ可调节兀Ｆｏ的尺寸．ＳＹＮＣ表示兀Ｆｏ读写时钟是否同步．如果同步那么ＦＩＦＯｅ在（！柚ｌｌｒｄ）的时候可写，即即使满的时候读写也可同步进行（ＦＩＦＯｃ的ｆｕｌｌ信号供Ｆｉｌｔｅｒ使用，隐藏在ＵＨＩｃ中）．这非常适合高效的全速流水线操作，此

时ＦＩＦＯ充当流水线问寄存器的角．ｉｉｄ和ｍａｓｋ用来设置过滤器，可以有多组．即当（ｄａｔａ—ｉｉｄ＆ｍａｓｋｌ）＝＝ｉｉｄｌＩ（ｄａｔａ—ｉｉｄ＆ｍａｓｋ２）＝＝ｉｉｄ２｜．．・Ｉｄａｔａ—ｉｉｄ＝＝ｌｉＤ—ＳＹＳＴＥＭ时数据通过过滤器．根据这些参数我们可以更好的优化系统．

对于基于ＦＰＧＡ的平台，ＵＨＩ与ｔｉＴ编译在一起并同时配置到ＲＨＤ上，至少占据一个ＲＢＵ．我们期望未来的ＲＨＤ器件能够提供ＵＨＩ硬核或类似的接口，以及与之相连的充足的片内全局通讯总线．

为了使设计具有更好的通用性和灵活性，我们提出了末期系统整合与优化的概念．当用户完成各任务模块之后，即在设计的最后阶段，用户可以自由确定软硬件任务间的通讯关系．通过设置各任务生产和消费的数据ｌｉＤ号，形成不同的通讯拓扑关系．可设置参数有：ＵＨＩｃ的ｉｉｄ／ｍａｓｋ、ＵＨＩｐ的ｉｉｄ／ｐｉｄ，以及软件任务通讯ｌｉＤ表中的ｆｉｌｔｅｒ／ｍａｓｋ对．这是一种灵活的设计方法．如果有充足的符合ＵＳＩ／ＵＨＩ接口的模块库，系统设计简单到只需设置几组通讯参数，用户甚至不必编写一句代码．

４实验测试

我们在２种不同的实验平台上实现ＲＥＣＵＰＭ模型，并测试应用程序的性能．这２个平台具有不同

的处理器结构和通讯架构．在不改变应用程序代码的前提下，通过整合不同的ＵＳＩ／ＵＨＩ实现，将应用程序平滑移植到不同的架构下，从而验证ＲＥＣＵＰＭ模型的通用性．

４．１实验平台

我们使用ＲＥＡＲＭ一１和ＸＵＰＶ２Ｐ作为实验平台．ＲＥＡＲＭ．１中ＧＰＰ和ＲＩ－ＩＤ的通讯链路位于内存总线级，ＸＵＰＶ２Ｐ位于协处理器级，它们分别代表了两种典型的通讯耦合方式［１０Ｊ．

图５的ＲＥＡＲＭ—

Ｉ是我们自主研发的

动态可重构实验平

台ｕ１｜，主要包括通用

处理器ＡＲＭＣＰＵ和

可重构逻辑器件ＦＰ．

ＧＡ两个部分，ＦＰＧＡ

挂接到ＡＲＭ的内存

总线上进行通讯．图５ＲＥＡＲＡ－１可重构实验平台ＡＲＭ选用ＣｉｒｒｕｓＬｏｇｉｃ公司的ＥＰ７３１２，支持ＭＭＵ和Ｃａｃｈｅ，主频７４ＭＨｚ．ＦＰＧＡ使用Ｘｉｌｉｎｘ公司的Ｖｉｒｔｅｘ．ＩＩ

监耋｜｜－

．

第ｌｌ期周学海：一种数据驱动的可重构计算统一编程模型２１２７

ＸＣ２Ｖ１０００，总容量等效１００万逻辑门，内嵌硬件乘法器

和专用ＲＡＭ，工作频率２７０ＭＨｚ，支持运行时部分重构．

ＦＰＧＡ最高配置速度为５０ＭＢ／ｓ，全片配置需９．４ｍｓ，单列

（折合一个ＢＲＵ）配置约需０．２５ｍｓ．

ＸＵＰＶ２Ｐ是Ｘｉｌｉｎｘ大学计划开放平台．ＦＰＧＡ选用

Ｖｉｒｔｅｘ．ＩＩＰｒｏＸＣ２Ｖ３０，内含一个ＰｏｗｅｒＰＣ４０５硬核ＣＰＵ和

可重构逻辑单元，之间使用处理器局部总线（ＰＬＢ）通

讯，类似协处理器的耦合方式．ＰｏｗｅｒＰＣ核最高频率

４００ＭＨｚ，支持ＭＭＵ和Ｃａｃｈｅ．可重构资源包含逻辑块、

专用乘法器和ＲＡＭ等，逻辑密度约是ＶＣ２Ｖ１０００的２到

３倍．

实验中我们编写了启动代码和硬件驱动代码，不

需要操作系统，所有软件程序直接运行在处理器上，硬

件任务由ＦＰＧＡ启动时自动加载，或由软件动态加载．

在ＲＥＡＲＭ．１平台采用ＡＤＳ编泽器和ＩＳＥ集成开发环

境，ＸＵＰＶ２Ｐ平台采用ｇｃｃ．ｐｐｃ编译器和ＥＤＫ嵌入开发

包．

４．２结果及分析

ＵＳＩ／ＵＨＩ有多种不同的实现方式．根据缓冲区存储

区域的不同，我们在这２个平台上分别实现了３类共６

种ＵＨＩ接口，即ＵＨＩ—Ｂ、ＵＨＩ．Ｄ和ＵＨＩ．Ｌ．ＵＨＩ，Ｂ的ｎＦｏ

缓冲区使用ＦＰＧＡ内部的专用的ＲＡＭ块，ＵＨＩ．Ｄ使用分

散在各个ＣＬＢ中的查表ＲＡＭ单元，ＵＨＩ．Ｌ使用ＦＰＧＡ

外部的ＳＲＡＭ．

实验中ＵＨＩ的参数设置为：字宽１６位、读写同步、

只过滤一套ｉｉｄ／ｍａｓｋ．我们分析ＵＨＩ的性能和资源使用

量随ＮＦＩＦＯ的变化关系，以及不同类型ＵＨＩ的区别．结

果如图６所示．因为ＵＨＩ．Ｌ的ＦＩＦＯ使用外部ＲＡＭ，测试

结果几乎与ＮＦＩＦＯ无关，故未画入图中．从图６（ａ）可

知，ＸＵＰＶ２Ｐ平台两类ＵＨＩ的性能均比ＲＥＡＲＭ平台高，

是因为使用了速度等级更高的芯片．但由于ＦＰＧＡ的架

构相同，二者的ＵＨＩ性能曲线的相对关系基本一致．考

虑缓冲区的尺寸，在缓冲区较小时ＵＨＩ．Ｄ的性能优于

有关民风民俗的作文ＵＨＩ．Ｂ，较大时ＵＨＩ．Ｂ优．因为ＵＨＩ．Ｄ在尺寸小时只使用

少量的存储单元，译码、读写逻辑简单且速度快；而

ＵＨＩ．Ｂ至少使用一个专用ＲＡＭ块，该ＲＡＭ块容量较大

（１８Ｋｂ），其优势只有在尺寸大时才能体现出来．图６（ｂ）

统计了ＵＨＩ使用的Ｓｌｉｃｅ和ＬＵＴ资源，纵轴为对数坐标．

ｔ，ｌ

５００

蠢４００

墅３００

删

墨２００

ＦＩＦＯ大小／字

（旬ＵＨＩ性能《皇１一足１崖量嘲旺趔翳鳆

图６ＵＨＩ实验结果

ＦＩＦＯ大小／字

（６）ＵＨＩ资源使用量

由图中可知ＵＨＩ．Ｄ的资源使用量随ＮＦＩＦＯ急剧增加，

而ＵＨＩ—Ｂ增加很缓慢．是因为ＵＨＩ．Ｄ的缓冲区就是靠基

本逻辑块来实现的，其资源用量至少与ＮＦＩＦＯ成正比；

同时，当ＮＦＩＦＯ较大时，布线通道略显不足，将占用一

部分逻辑资源，因此资源用量与ＮＦＩＦＯ呈超线性关系．

ＵＨＩ．Ｂ由于使用了专门ＲＡＭ块，其逻辑资源仅用于译

码、读写控制等，增长较缓慢．

根据结果分析可知，缓冲区小时宜使用速度较快

的ＵＨＩ．Ｄ，大时宜使用资源较少的ＵＨＩ．Ｂ．

同时我们测试ＲＥＣＵＰＭ所提供的软硬件并行运行

机制及不同的ＵＨＩ实现方式，对系统性能的影响．共实

现５组应用程序．程序ｘａｄｄ计算数据前后依赖的异或

和加法操作．ｅｎｃｒｙｐｔ是加密和消息摘要的程序，使用

Ａｎｕｂｉｓ加密算法¨２｜．ｅｎｃｒｙｐｔ２改换使用速度更快的ＵＨＩ．

Ｌ接口．ｆｉｒｌ０和ｆｉｒ２０是信号处理程序，分别对输入信号

做１０阶和２０阶低通滤波，并计算信号的有效值．

我们提供４种运行模式，并比较各种模式下的性

能．模式ＳＴ－ＯＮＬＹ只有软件任务，所有的工作都由软件

完成；ＵＨＩ．１ｅｓｓ是普通的硬件加速方式，不使用ＵＨＩ接

口，软件直接通过物理端Ｅｌ控制可重构资源；ＵＨＩ．ｆｕｌ和

ＵＨＩ．ＵＳＩ均使用了ＲＥＣＵＰＭ模型编程，前者中ＳＴ和ＨＴ

串行执行，后者同时调度ＳＴ和ＨＴ，二者并行执行．

通过测量各种模式下各个应用程序的运行时间，

得出两个平台不同模式下对纯软件模式的加速比，如

图７所示．需要注意的是，ＵＨＩ．ｆｕｌ和ＵＨＩ．ＵＳＩ模式由于

使用了ＲＥＣＵＰＭ模型编程，两个平台可以使用相同的

程序代码，这大大方便了应用程序移植过程．

应用程序应用程序

（ａ）ＲＥＡＲＭ－１平台应用程序测试（６）ｘｕＰＶ２Ｐ平台应用程序测试

图７应用程序实验结果

由图７可知，可重构计算普遍能够获得几十到几百

倍的性能提升，具体视软硬件运算速度的差异度和通

讯带宽而定．ＸＵＰＶ２Ｐ平台的加速较ＲＥＡＲＭ平台偏低，

是因为该平台的ＰｏｗｅｒＰＣ处理能力本身已很高，从软件

到硬件实现的性能提升空间较小．

ＲＥＣＵＰＭ模型为速度提升做出贡献．四个模式的速

度依次升高．从ＳＴ－ＯＮＬＹ到ＵＨＩ—ｌｅｓｓ速度增幅最大，这

海洋污染通常是指

主要得益于硬件加速．虽然配置ＨＴ的时间开销会对性

能造成负面影响，但实验程序中ＨＴ的运行时间都比较

长，这种负面影响相对较小．ＵＨＩ．１ｅｓｓ需要用户程序管

理通讯细节，而ＵＨＩ．ｆｕｌ通过ＵＨＩ提供的缓冲能力隐藏

了通讯时间，性能更优．ＵＨＩ．ＵＳＩ模式同时调度ＳＴ和ｍ．简短谢师语10字

慧智精品网

一种数据驱动的可重构计算统一编程模型

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

汉唐时期的历史研究与考古探析

汉代河西邮驿的设置作用

中国汉代的宇宙观四个字

汉代婚礼礼仪知识有哪些

汉代选官制度的名称及其弊端

汉代风云人物易中天

简述汉代的文学成就

汉赋的历史背景与社会意义

汉代的文化特征

中国古代史阶段特征汇总

《汉古学概说》赏析

汉朝儒学思想演变

中国文化的汉唐时期

评价汉代的援礼入法

汉书读后感了解中国历史上汉代的经济文化等各方面发展和变革情况_百 ...

汉朝的文化特点

中国舞蹈史第3讲汉代舞蹈的发展

汉代宫廷文化和制度框架

哈佛中国史1早期中华帝国秦与汉

古代中国的秦汉文化发展

最新文章

【中国历史十五讲】读书说明与指导(吴树国)

红星照耀中国汉代青铜读后感

中国历史文化常识大全(最新整理200题)

《鸿门宴》背景、情节与教案探析

汉代文人诗的艺术成就

汉代刘向的作品

标签列表