基于Xilinx Virtex-II FPGA的硬件哈希算法的研究分析

时间:2025-06-11  作者:Diven  阅读:0

1、 引言

基于Xilinx Virtex-II FPGA的硬件哈希算法的研究分析

信息检索是自动识别和分类文字信息的过程,目的是从文档中提取出与用户请求相关的信息 。文档的基本单位是词,词在文档里出现的次数(以下称之为频率)是衡量词本身重要性的一个指标 。而词在一条语句里的出现次数(以下称之为密度)则决定了这条语句的重要性。所以说语句的重要性由构成语句的词的出现频率以及该词在语句里的密度这两个因素决定。基于这种逻辑我们可以使用关键词的频率和密度来标示文档里的重要语句,从而将文档内容进行分类,避免语言学里复杂的语法和句法分析,同时还能得到相对准确的结果。在实际操作中,出现频率极高和极低的词将被忽略,因为这些词往往与文档的内容关系不大。通过去除一些预定义的高频词和同义词将显著降低信息检索的工作量,之后得到的关键词列表则可以用来识别重要的语句。这些语句很有可能包含了和文档内容最密切相关的信息,所以这些语句将被用来与用户输入的请求作比较,作为检索结果返回给用户。这种信息检索方法的核心是计算每个关键词在文档里的出现次数,并根据各个词的重要性对词列表进行排序。本文第二部分将介绍硬件哈希算法来加速关键词的计数工作,而排序则将作为后续工作进行研究。

2 、方法描述

在计算关键词在文档里出现次数的过程中,需要存储结构来存储相关信息,这种存储结构必须易于执行查找、插入及删除操作。哈希是以常数平均时间执行查找、插入和删除操作的算法。在计算关键词在文档里的出现次数时应用哈希算法可以大大降低查找次数 。理想的哈希表数据结构是一个包含有关键字的具有固定大小的数组。一般情况下一个关键字就是带有相关值(关键词及其在文档里的出现次数)的字符串。假设哈希表的大小为TableSize,则每个关键字被映射到从0到TableSize-1这个范围内的某个数,并且被存放到对应的存储空间。这个映射称之为哈希函数,理想情况下哈希函数应该计算简单并且应该保证两个不同的关键字映射到不同的单元,不过由于单元的数目是有限的,而关键字一般情况下是远远大于单元数目的,所以两个关键字有可能哈希到同一个单元,这种情况称之为冲突。因此我们需要寻找一个哈希函数,该函数要在单元之间均匀的分配关键字,尽可能的将冲突发生的概率降到最低。

图1 硬件哈希结构

如图1(a)所示,首先将文档转换为一个关键词的列表,之后这个列表将通过哈希函数映射到哈希表数据结构中。每个关键词都将通过哈希函数映射到哈希表中的一个单元,如果该单元已经有内容,则比较该内容与输入的关键词是否相同,相同则“出现次数”增加一次;不同则为冲突,冲突解决方案将在后面介绍;如果该单元没有内容则说明输入的关键词是第一次出现,则将该关键词存储在这个单元,“出现次数”计为一次。哈希函数通过FPGA硬件来实现,为了有效利用FPGA的硬件资源,选用按位异或并与素数相乘的哈希算法。在实际操作中这个算法将被用来作为第一级的哈希函数,产生初始哈希表地址,因为关键词是一个可变长度的字符串,不能直接存储在哈希表里,取而代之的是一个指针(如图1(b)所示)。这个指针指向存储器堆里的一块存储区,关键词及其出现次数存储在这块存储区内。为了标示指针指向的存储区是否有内容,哈希表中除了存储指针之外还需要存储指针指向的存储区的状态。这些工作由一个硬件堆存储控制器来管理 。输入的关键词首先通过第一级哈希函数映射到哈希表中的状态指示和指针,如果状态指示为有内容,则通过指针得到其指向的存储内容,与输入关键词比较,相同则“出现次数”增加一次,不同则通过冲突解决方案处理;如果状态指示为无内容,则说明输入的关键词是第一次出现,该关键词将被存储到这块存储区,“出现次数”计为一次。为了将比较运算的时间降到最小,数据宽度需要尽可能宽一些,从而允许多个字符的比较并行完成。

冲突解决方案的实质是将发生冲突的数据存储在一个保留区域。通常的冲突解决方案分为两种:链表法和开放寻址法。链表法将所有映射到同一地址的关键字放在一个动态分配的链表里。由于给链表里新的关键字分配空间需要时间,从而导致这种方案的速度相对较慢,而且算法实际上还需要实现另数据结构(链表),因此并不适合在信息检索里使用。本文采用的是开放寻址法来解决冲突。开放寻址法的数据和保留区域在一个表里,使用伪随机探测法,允许每个循环产生一个新的探测地址。开放寻址法的一个缺点在于当哈希表里的条目增加的时候冲突的次数和搜索路径的长度也随着增加,从而导致平均检索时间的增加。性能由表密度而不是列表长度决定,而表的大小则依赖于应用数据和期望的性能。

3、 硬件实现及实验结果

本文的硬件结构基于Xilinx Virtex-II FPGA,其最高频率为127.47MHz,FPGA资源利用率为392/5120 = 7.6%。文档存储使用1片128M x 72位的SDRAM,哈希表存储使用2片1M x 36位的ZBT(零总线翻转)SRAM。本文第二部分描述的算法通过一个5级流水线 来实现,如图2所示。每级需要的时钟周期的数目在图2(a)中给出,其中N为搜索关键字的字符数,括号内为至少需要的时钟周期数目。为了最优化性能,3个主流水线是重叠的,如图2(b)所示。

图2 处理过程流水线

将这种结构的性能与软件实现做一下比较,比较结果见表1,使用的测试数据集是一样的。

4、

本文描述了基于FPGA的硬件哈希算法,该算法用来加速信息检索过程中的关键词计数工作,实验结果表明,使用FPGA硬件哈希算法在提高信息检索速度方面明显优于高主频处理器上的软件实现。

本文作者创新点:本文通过使用关键词出现的频率和密度来标示文档里的重要语句,从而将文档内容进行分类,避免了语言学里复杂的语法和句法分析。同时利用FPGA技术提高了信息检索的速度,得到了比较满意的结果。

猜您喜欢

光敏电阻作为重要的光电元件,应用于光控开关、光线检测、自动调光等领域。合美电机(HERMEI)作为国内知名的电子元器件品牌,其光敏电阻产品因性能稳定、质量可靠而...
2024-09-06 06:29:12

贴片电阻1206,因其尺寸为1.2mm x 0.6mm而得名,是电子电路中常见的电子元件。它体积小巧,性能稳定,广泛应用于各种电子产品,从智能手机到家用电器,都...
2024-11-26 11:30:00

现代电子设备中,连接器起着非常重要的作用。CONN_8.1X4.35MM_SM是一种高性能的连接器,广泛应用于各种电子产品中。本文将对该连接器进行详细分析,探讨...
2025-03-05 02:22:45

独石电容是电子电路中重要器件。功能多种多样,应用也非常。本文将深入探讨独石电容在电路中的作用。储能功能独石电容主要是储存电能。电能在电路中可以随时使用。能够迅速...
2025-04-13 01:31:08

在数字系统设计中,我们传统上都认为,应该对所有的触发器设置一个主复位,这样将大大方便后续的测试工作。所以,在所有的程序中,我往往都在端口定义中使用同一个rese...
2022-10-13 09:30:00

对电阻器的功率和稳定性要求也日益增加。ROYALOHM(厚生)作为知名的电阻品牌,其升功率电阻凭借很好的性能和可靠的品质,应用于各类电子设备中。本文将详细介绍R...
2016-05-25 03:12:46

随着现代自动化工业的不断进步和创新需求的提升,对传感器的小型化、精准化要求日益提高。在精细的自动化检测过程中,如何实现对微小距离内物体的稳定检测成为一大技术难题...
2023-12-18 15:56:00

二极管作为重要的半导体元件,在电子电路中发挥着非常重要的作用。雪崩现象是二极管工作中的一个重要特性,特别是在高电压和高频率的应用场景中。本文将对“二极管雪崩测试...
2025-04-07 05:00:35

FPGA上电(Master)fpga 上电时,默认是从 flash 的 0x00 地址开始读数据。如 UG470 文档 page144 描述fpga 会从 ...
2022-07-15 09:03:00

在科学实验中,选择合适的实验仪器和设备非常重要。不同类型的实验仪器和设备具有各自独特的参数,这些参数直接影响实验结果的准确性和可靠性。精准度是一个重要参数,指仪...
2020-04-12 00:00:00