# 并发追踪数据流的多缓存选址算法

# 高建良,李 欣,王建新

(中南大学信息科学与工程学院,湖南长沙 410083)

摘 要: 为了验证多核芯片的正确性,通常需要同时观测不同芯核上的多组信号.如何实时处理并发追踪中多 组数据流已经成为多核芯片硅后功能验证所面临的关键挑战之一.本文提出了一种基于映射的自调节缓存选址(Map-Based Self-Regulation Location Selection, MSLS)算法,该算法通过优化多缓存选址,在片上网络通信带宽限制下保证了并 发追踪数据流能够实时存储,同时降低了追踪数据流传输能耗.实验结果表明了该方法的有效性.

关键词: 多核芯片;硅后调试;并发追踪;多缓存选址;片上网络
 中图分类号: TN911.23 文献标识码: A 文章编号: 0372-2112 (2014)11-2310-04
 电子学报 URL: http://www.ejournal.org.cn DOI: 10.3969/j.issn.0372-2112.2014.11.028

## Multi-Buffer Location Selection Algorithm for Concurrent Trace Data Flows

GAO Jian-liang, LI Xin, WANG Jian-xin

(School of Information Science and Engineering, Central South University, Changsha, Hunan 410083, China)

Abstract: With the development of multi-core processors, it becomes a key problem to transmit concurrent trace data simultaneously to on-chip buffer under bandwidth constraint. To deal with the problem, we propose a Map-based Self-regulation Location Selection (MSLS) algorithm. This algorithm locates multiple trace buffers in interconnection fabrics under the bandwidth constraint, and reduces the average distance between trace sources and trace buffers. Experimental results show our algorithm can achieve high efficiency for post-silicon debug.

Key words: multi-core chip; post-silicon debug; concurrent trace; multi-buffer location selection; network-on-chip

# 1 引言

基于追踪的调试技术可以在芯片功能运行的同时 将追踪数据保存到片上缓存中,然后根据这些数据离线 分析芯片内部状态<sup>[1]</sup>.当前一种面积开销较小的实时保 存数据流的机制是复用片上网络(Network-on-Chip, NoC) 传输追踪数据<sup>[2]</sup>.而通常由于预留给并发数据流的 NoC 带宽有限,共享链路上的追踪数据会因带宽不足而丢 失<sup>[3]</sup>.因此,如何在有限的通信带宽的约束下提供满足 调试需要的追踪信息,成为提高多核并发追踪调试效率 的关键问题<sup>[4]</sup>.

针对追踪调试的研究,已有相关工作主要从追踪信号选择<sup>[5-7]</sup>和追踪数据处理<sup>[8,9]</sup>两个方面展开.在追踪信号选择方面,围绕着 H F Ko 等人提出的状态恢复率理论<sup>[5]</sup>,研究人员针对门级恢复提出了一系列信号选择算法<sup>[6,7]</sup>.在追踪数据处理方面,研究人员多采用字典压缩<sup>[8]</sup>或有损压缩<sup>[9]</sup>的方法,利用了指令序列的连续性来对冗余信号进行压缩.但是,优选或压缩追踪数据的

方法无法从根本上突破带宽的瓶颈,在应用中灵活性不 足.最近文献[10]提出了一种基于追踪源分簇的多缓存 追踪数据传输框架,该框架将网络中的数据流量约束在 簇内部,减轻了全局链路传输压力.而针对多缓存的安 置,作者采用了基于簇合并思想的贪心算法.该算法适 用于被调试芯核数目较少时,而当被调试芯核数较多 时,该算法无法将簇的数量合并至较小数量.而且,同一 芯片常常需要多次反复调试不同的芯核组(即对同一芯 片存在多组追踪源),当时文献[10]没有考虑传输功耗 的问题,同时选址数也存在进一步优化的空间.

针对以上不足,本文提出了一种基于多组源点映射 的自调节缓存选址(Map-based Self-regulation Location Selection, MSLS)算法,该算法采用映射机制将多组追踪源 的信息投射到自定义的映射加权图中.而在簇扩张的过 程中,该算法能动态调节节点的簇归属,从而在减小缓 存选址个数的同时平衡传输路径长度(以此来降低传输 能耗).

收稿日期:2014-01-10;修回日期:2014-06-05;责任编辑:马兰英 基金项目:国家自然科学基金(No.61106036)

## 2 选址和能耗模型

### 2.1 多缓存选址模型与问题定义

在多缓存选址问题中,片上网络 NoC 拓扑 G(V, E)是一个有向图,其中  $v_i \in V$  表示一个 NoC 中的路由器,  $e_{u,v} \in E$  表示节点 u 到节点 v 的链路.

定义1 定义集合  $C\{c_i\}$ 是一组需要被调试的芯核 (即追踪源),  $\varphi(c_i)$ 的值为的追踪源  $c_i$  要发送的追踪数 据量.由具体调试参数决定.

定义2 定义集合  $T{t_i}$ 是一组接收数据的追踪缓存,且每一个  $t_i \in T$  对应一个节点簇  $Clust_i$ ,  $Clust_i$  至少 包含一个追踪源点 c.

定义3 定义数据流  $flow_{u,v}$ . 对  $u, v \in V$ , 若有向链路  $e_{u,v} \in E$ ,则  $flow_{u,v}$ 表示追踪数据从源点集  $C\{c_i\}$ 传输 至终点集  $T\{t_i\}$ 时, 有向链路  $e_{u,v}$ 中的最大数据流量.

根据以上定义,多核并发调试中多缓存安置问题 可以表示如下:

**给定** NoC 拓扑 *G*(*V*, *E*),多组并发源点 *S*{*C<sub>i</sub>*}, *i*=1,2,…,*n*,链路带宽阈值 *Th*,路由算法 *f*.

目标 求 min(|T|)以及  $T \{ t_i \}$ 对应的  $Clust_i$ ,并满 足:  $\forall u, v \in V, flow_{u,v} \leq Th. |T| 表示 T \{ t_i \}$ 中的缓存个 数.该问题可规约至集合覆盖问题(NP-hard)<sup>[11]</sup>,本文将 在第3节详述

#### 2.2 能耗计算模型

芯片的能耗与可靠性密切相关.本文的能耗计算 模型参考了文献[12]:定义单比特的追踪数据从追踪源 点 v 传输至追踪缓存 t 的能耗为:

 $E_{\text{bit}}^{v,t} = (hop + 1) \times (E_{\text{in}} + E_{\text{out}}) + hop \times E_{\text{link}}$  (1) 其中 hop 表示追踪源点 v 至缓存放置节点 t 经过的路 由器数.  $E_{\text{in}}, E_{\text{out}}$ 和  $E_{\text{link}}$ 分别表示单比特数据在出入路 由器,以及一跳链路上所消耗的能量. 而整个追踪调试 过程的总能量消耗为:

$$E_{\text{all}} = \sum_{i=1}^{n} \sum_{j=1}^{|V|} \left( E_{\text{bit}}^{v,t} \times \varphi(v_{i,j}) \right)$$
(2)

其中, n 为需要独立观测的追踪源的组数, |V|表示 NoC 中路由器的个数,  $\varphi(v_{i,j})$ 表示第 i 组追踪源的第 j 个节 点要发送的追踪数据量. 公式(1)中  $E_{in}$ ,  $E_{out}$ 和  $E_{link}$ 是常 系数,所以能耗的大小与 hop 成正比. 因此,可以将追踪 源点到追踪缓存的跳数 hop 作为数据传输的能耗指 标.

## 3 基于映射的多缓存选址及节点成簇

#### 3.1 多源点组的映射

对于一款实际的多核芯片而言,通常需要进行多次调试,每次需要观测不同的被调试芯核,因而存在多 组追踪源.为了对相互独立的多组追踪源进行多缓存 的统一选址,我们采用映射的方法,由多组源点  $S \{C_i\}$ 和有向图 G(V, E)构造一个用于分簇算法的映射加权 图(Map Weighted Graph, MWG).

定义映射加权图 MWG(R, L, D),其中 R 为 NoC 路 由器节点的集合, L 为 NoC 中链路的集合, D 为 NoC 中 路由器节点加权值集合.我们假设有 n 组追踪源,并定 义  $v_{i,j}$ 为第 $i(1 \le i \le n)$ 组追踪源映射到 NoC 中的第j 个 路由器.进一步,  $d_j$ ,  $(d_j \in D)$ 为第j 个路由器即节点j 的 权值,计算公式为

$$d_{j} = \sum_{i=1}^{n} \frac{\varphi(v_{i,j}) + M(v_{i,j})}{\sum_{k=1}^{|V|} \varphi(v_{i,k})}, (j = 1 \dots |V|) \quad (3)$$

其中  $\varphi(v_{i,j})$ 表示第 *i* 组追踪源的第*j* 个节点要发送的 追踪数据量.函数  $M(v_{i,j})$ 为链路上数据流密集度,表示 如下:

$$M(v_{i,j}) = \frac{1}{l} \times \left(\sum_{u \in \operatorname{neig}(v_{i,j}, f)} \varphi(u)\right)$$
(4)

其中 l 是节点 $v_{i,j}$ 的入度(即相邻的双向链路的条数). 函数 neig(v, f)表示节点 v 以路由算法f 得到的路由上一跳节点集合.

#### 3.2 缓存选址及节点成簇

在得到图 MWG(R, L, D)后, MSLS 算法在该图上进 行节点的分簇和缓存的定位.首先我们定义集合  $N\{v\}$ 为已分簇节点, 对于  $v \in N$ , 函数 head(v)计算节点 v 所 归属的簇头节点(即缓存放置节点). 在初始阶段, MWG 图中的集合 R 为全体未分簇节点. 定义函数 dist(v, u) 为节点 v 和节点 u 的距离, 该距离根据路由算法 f 和 MWG 图得到.

缓存选址及节点成簇主要由三个部分组成.

(1)簇头定位,即缓存选址.在开始阶段,或者已存 在的簇都因为链路负载饱和而无法继续扩张时,从集 合 D 中选择 d<sub>v</sub> 值最大的节点 v ∈ R,并以节点 v 作为簇 头构造新的簇,然后将该节点存入 N { v } 中.

(2)簇扩张.对于一个簇  $clust_i$ ,根据路由算法 f 与 MWG 图计算出簇边界节点的上一跳节点组  $Q\{v\}$ .对  $v \in Q$ ,若  $v \in N$ ,进入第(3)步.否则,若 v 加入  $clust_i$  后,  $clust_i$  内部链路负载依然没有饱和, v 则被加入  $clust_i$  中. 否则跳过.

(3) 簇平衡. 对  $v \in Q$ , 若  $v \in N$ , 取当前扩张簇的簇 头  $v_{new}$ ,并由函数 head(v)得到 v 已经分配的簇的头节 点  $v_{old}$ , 然后比较 dist( $v, v_{new}$ )和 dist( $v, v_{old}$ )的大小. 最后 将 v 分配入距簇头较近的簇. 这样, 簇的大小得到了平 衡.

算法的三个子过程循环进行,一直进行到所有的 簇都扩张完毕为止.

#### 2312

### 4 实验

#### 4.1 实验设置

本部分对 MSLS 算法进行模拟. 在实验中, NoC 选取 8×8Mesh 结构和维序路由方式. 在能耗计算中,本文采 用文献[13]中描述的 65nm TSMC 的 NoC 架构来进行能 耗的计算. 具体参数如表 1 所示.

表1 能耗计算参数设定

| 参数               | 设定值 |
|------------------|-----|
| 出端口能耗(nW/Mb/s)   | 204 |
| 入端口能耗(nW/Mb/s)   | 94  |
| 链路能耗(nW/Mb/s/mm) | 89  |
| 路由器间链路长度(mm)     | 2.5 |
| 路由器工作频率(MHz)     | 333 |

在实验中链路阈值 Th 设置为 20 位宽,观测时间 为 1s.为了考察在不同数据流量下算法的选址数和传 输能耗.我们设计了两组实验: A 组,数据流量 1 至 Th/ 2 随机,即任意两个追踪源可以共享一条空闲链路. B 组,数据流量 Th/2 至 Th 随机,即一条空闲链路被一个 数据流独占.

为了考察算法在一次和多次调试情况下的表现. 我们分别选取在1组和8组追踪源下进行实验.被调试 核的数目 *k* 由公式(5)确定:

$$k = \lfloor \mid V \mid \times p \rfloor \tag{5}$$

其中,↓」为向下取整函数,1VI为路由器的总数量,在本 文中即核的数量;p为调试核所占比例,本文实验中 p 依次为5%、10%、15%、20%.实验数据结果取运行100



次的平均值.

## 4.2 实验结果与分析

#### 4.2.1 选址结果

由图 1 可以看到,与文献[10]的算法相比,在不考 虑多组追踪源变换的情况下(即 1 组并发源),在数据量 相对较小的实验 A 中,MSLS 算法的选址数目可以减少 24%~49%;而在数据量相对较大的实验 B 中,MSLS 算 法的选址数目可以减少 54%~57%.当考虑了多组追 踪源变换的情况下(8 组追踪源),MSLS 算法的选址结 果分别降低了 31%~42%和 20%~34%.可见实验结 果与算法的设计目标一致.在实验涉及的所有情况下, MSLS 都可以达到至少 24% 的选址数优化.

#### 4.2.2 能耗结果

根据选址结果测定各待测核与接收缓存之间的距离,用公式(1)、(2)来计算能量消耗.图2给出了传输能耗的结果比较.在实验涉及的各种情况下,MSLS都可以比之前的算法减小30~50%的传输能耗.



## 5 总结

本文提出了一种多缓存选址 MSLS 算法,通过映射 来实现多组并发源条件下节点的优化,并提出自调节 的簇扩张策略来实现选址节点及其簇覆盖范围的平 衡.通过本文提出的算法,减少了追踪缓存选址数量, 同时降低了传输能耗.实验的结果验证了该方法的有 效性.

## 参考文献

- Keshava J, Hakim N, Prudvi C. Post-silicon validation challenges; how EDA and academia can help[A]. Proceedings of the 47th Design Automation Conference[C]. Anaheim, CA: IEEE/ACM Press, 2010.3 7.
- [2] Tang S, Xu Q. A multi-core debug platform for NoC-based systems[A]. Proceedings of Design, Automation and Test in Europe[C]. Nice, France: IEEE/ACM Press, 2007.870 – 875.
- [3] Xu Q, Liu X. On signal tracing in post-silicon validation [A]. Proceedings of the 5th Asia and South Pacific Design Automation Conference [C]. Taipei: IEEE Press, 2010.262 – 267.
- [4] Hopkins A B T, McDonald-Maier K D. Debug support for complex systems on-chip: a review[J]. IEE Proceedings-Computers and Digital Techniques, 2006, 153(4):197 – 207.
- [5] Ko H F, Nicolici N. Automated trace signals identification and state restoration for improving observability in post-silicon validation[A]. Proceedings of Design, Automation and Test in Europe[C]. Germany: IEEE/ACM Press, 2008. 1298 – 1303.
- [6] Liu X, Xu Q. On signal selection for visibility enhancement in trace-based post-silicon validation [J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2012,31(8):1263 – 1274.
- [7] Basu K, Mishra P. Efficient trace signal selection for post silicon validation and debug[A]. Proceedings of the 24th International Conference on VLSI Design [C]. India: IEEE Press, 2011.352 – 357.
- [8] Lai C H, Yang F C, Huang J. A trace-capable instruction cache for cost-efficient real-time program trace compression in SoC
   [J]. IEEE Transactions on Computers, 2011, 60(12): 1665 – 1677.
- [9] Yuan F, Liu X, Xu Q. X-tracer: a reconfigurable X-tolerant trace compressor for silicon debug[A]. Proceedings of the 49th Design Automation Conference [C]. America: IEEE/ACM Press, 2012.555 – 560.

- [10] Gao J, Wang J, Han Y, Zhang L, X. Li. A clustering-based scheme for concurrent trace in debugging NoC-based multicore systems[A]. Proceedings of Design, Automation and Test in Europe[C]. Germany: IEEE/ACM, 2012.27 – 32.
- [11] Parnas M, Ron D. Approximating the minimum vertex cover in sublinear time and a connection to distributed algorithms[J]. Theoretical Computer Science, 2007, 381(1):183 – 196.
- [12] 杨盛光,李丽,高明伦,等.面向能耗和延时的 NoC 映射 方法[J].电子学报,2008,36(5):937 - 942.
  Yang S G,Li L, Gao M L, et al. An energy and delay aware mapping method of NoC[J]. Acta Electronica Sinica, 2008,36 (5):937 - 942.(in Chinese)
- [13] Leary G, Srinivasan K, Mehta K, et al. Design of network-onchip architectures with a genetic algorithm-based technique
   [J]. IEEE Transactions on Very Large Scale Integration Systems, 2009, 17(5):674 – 687.

#### 作者简介



**高建良** 男,1979年出生于湖南省,博士, 副教授,硕士生导师.主要研究方向为计算机系 统结构、大规模数据处理等.

E-mail:gjlpaper@gmail.com

**李** 欣 男,1988年出生于安徽省蚌埠市,硕士.主要研究方向 为多核芯片调试技术. E-mail:leexin47@163.com

**王建新(通信作者)** 男,1969 出生于湖南省,博士,教授,博士生导师.主要研究方向为网络优化理论,参数算法等. E-mail:jxwang@mail.csu.edu.cn