亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

支持標(biāo)向量協(xié)同工作的向量simd運(yùn)算結(jié)構(gòu)的制作方法_3

文檔序號:9616102閱讀:來源:國知局
元。同一周期三者不能同時開始執(zhí)行或?qū)懟兀?但可由軟件流水調(diào)度并行。
[0066]IEU部件是由位處理單元(BitProcess,BP)和定點(diǎn)算術(shù)邏輯運(yùn)算單元 (ArithmeticLogicUnit,ALU)構(gòu)成。兩者是具有相同數(shù)據(jù)通路的獨(dú)立單元,同一周期兩 者不能同時開始執(zhí)行或?qū)懟?,可由軟件流水調(diào)度實(shí)現(xiàn)并行。
[0067] 本發(fā)明的GPDSP標(biāo)量執(zhí)行單元SPU和向量執(zhí)行單元VPU之間存在廣播機(jī)制,最大 支持兩個雙字廣播操作,加速向量數(shù)據(jù)的填充速度。數(shù)據(jù)從標(biāo)量執(zhí)行單元廣播到向量執(zhí)行 單元,執(zhí)行過程只需要對VRF進(jìn)行一次寫操作,可以完成128*NVPE或256*NVPE位數(shù)據(jù)的傳輸。
[0068] 數(shù)據(jù)從SPE傳輸?shù)絅VPE個VPE中,使用本發(fā)明中所具有的標(biāo)向量廣播功能,僅需要 4拍時間,而且傳輸過程是完全流水方式進(jìn)行。而使用SVR完成這一過程則需要20拍才可 完成,且通過SVR進(jìn)行SPE與VPE的數(shù)據(jù)交互是串行執(zhí)行。按照這樣計(jì)算,標(biāo)向量廣播功能 的應(yīng)用使數(shù)據(jù)的填充速度達(dá)到了使用SVR的20倍左右,可以極大程度的提高數(shù)據(jù)填充速 度;同時,采用標(biāo)向量廣播還能實(shí)現(xiàn)數(shù)據(jù)復(fù)用,降低存儲帶寬需求,提升了整體性能。
[0069] 在許多科學(xué)和工程應(yīng)用中都會涉及到矩陣類運(yùn)算,而矩陣類運(yùn)算具有較好的數(shù)據(jù) 并行性,能夠通過本發(fā)明的基于SMD和VLIW并行方法來開發(fā)這類運(yùn)算中的指令級并行性。 下面以NVPE= 16和NVMAe= 3為例,來說明本發(fā)明的并行結(jié)構(gòu)對矩陣乘法和FFT應(yīng)用的支持。
[0070] 通過大規(guī)模的功能單元并行方式提高計(jì)算性能的同時,也給存儲帶寬需求也帶來 巨大挑戰(zhàn)。本發(fā)明根據(jù)矩陣類運(yùn)算還具有較好的數(shù)據(jù)重用性,設(shè)計(jì)的標(biāo)向量廣播操作,可以 在執(zhí)行一次寫操作時完成2048位或4096位的數(shù)據(jù)傳輸。這可以有效開發(fā)應(yīng)用中的數(shù)據(jù)重 用,降低存儲帶寬需求,提高向量計(jì)算單元利用率??梢詷O大程度的提高矩陣乘法的運(yùn)算效 率,降低資源的占用,提高整體的性能。
[0071] 如圖4所示,以矩陣類運(yùn)算中最基本的操作一一矩陣向量乘法一一為例說明標(biāo)向 量廣播操作對計(jì)算性能和存儲需求。矩陣向量乘法y=AXx,其中A為n*m的矩陣、X為m 的向量、y為η的向量。在本發(fā)明的GPDSP運(yùn)算結(jié)構(gòu)上,將數(shù)據(jù)矩陣A存儲到向量存儲器AM 中,X存儲在標(biāo)量數(shù)據(jù)存儲器SM中,16個VPE通過S頂D并行方式執(zhí)行Z^輪計(jì)算,VPE[i] vPE[i]計(jì)算出結(jié)果.){i6'/+/>Zr=i(4i(P/+/_P]M々]),其中1彡j彡t。從圖4可以 看出,結(jié)果向量y中的每個元素都需要復(fù)用向量X。在本發(fā)明的GPDSP上,只需要讀取一次 向量X,然后每輪計(jì)算都通過標(biāo)向量廣播操作將向量X中的元素依次廣播到16個VPE的向 量寄存器中,同時從AM中依次讀出對應(yīng)的16行矩陣A的數(shù)據(jù),16個VPE中48個MAC單元 以流水方式并行執(zhí)行。
[0072] 對于應(yīng)用極為廣泛的矩陣類運(yùn)算來說,本發(fā)明的意義重大。眾多的科學(xué)計(jì)算任務(wù) 中都需要用到矩陣類運(yùn)算,如矩陣乘法,標(biāo)向量廣播功能在運(yùn)算效率上高于傳統(tǒng)的標(biāo)向量 共享寄存器SVR。標(biāo)向量廣播功能可以通過一次寫操作完成2048位或4096位的數(shù)據(jù)傳輸, 能達(dá)到如此的性能優(yōu)勢,依托于本發(fā)明的GPDSP運(yùn)算結(jié)構(gòu)的支撐。標(biāo)量處理單元SPU,包含 有16個同構(gòu)的向量運(yùn)算單元VPE的向量處理單元VPU,這些單元共同作用實(shí)現(xiàn)了標(biāo)向量廣 播功能,可以大幅度提升矩陣乘法的運(yùn)算性能,應(yīng)用前景廣闊。
[0073] 本發(fā)明的GPDSP運(yùn)算結(jié)構(gòu)同樣能高效地應(yīng)用于信號處理領(lǐng)域,以該領(lǐng)域中最基本 的算法一一雙精度浮點(diǎn)FFT算法一一為例進(jìn)行說明。由于FFT計(jì)算過程中需要以不同的間 隔對數(shù)據(jù)進(jìn)行訪問,本發(fā)明的基于混洗網(wǎng)絡(luò)的向量SMD運(yùn)算結(jié)構(gòu)能夠?qū)崿F(xiàn)VPE之間的數(shù)據(jù) 快速交互,從而滿足不同間隔數(shù)據(jù)訪問要求。
[0074] 如圖5和6所示,采用Cooley-Tukey算法將任意規(guī)模FFT分解為多個規(guī)模不超過 128點(diǎn)的小規(guī)模FFT。對于規(guī)模為128點(diǎn)的FFT,可以將初始數(shù)據(jù)、旋轉(zhuǎn)因子和計(jì)算結(jié)果完成 存儲于向量運(yùn)算部件的寄存器文件中,每個VPE存儲8個點(diǎn)的數(shù)據(jù),每個點(diǎn)為一個雙精度復(fù) 數(shù)。如圖5所示,數(shù)據(jù)順序存放于每個VPE中,128點(diǎn)的基2FFT算法分為7級蝶形運(yùn)算,在 第1級、第2級和第3級蝶形運(yùn)算中,每個VPE均對各自寄存器文件的數(shù)據(jù)進(jìn)行運(yùn)算,結(jié)果 存儲于自身寄存器文件中;第3級結(jié)束后,需對各個VPE之間的數(shù)據(jù)進(jìn)行交換,本專利通過 流水執(zhí)行7條混洗指令來完成,然后,對混洗后的數(shù)據(jù)進(jìn)行第4、5、6級蝶形運(yùn)算;第6級蝶 形運(yùn)算結(jié)束后,通過執(zhí)行1條混洗指令完成VPE之間數(shù)據(jù)交互,再執(zhí)行第7級蝶形運(yùn)算。對 于每級蝶形運(yùn)算中,每個VPE完成4個蝶形操作,如圖6中(A)所示,每個蝶形運(yùn)算均由4 個雙精度浮點(diǎn)乘法和6個雙精度浮點(diǎn)加/減法組成,如圖6中(B)所示,因此,每級蝶形運(yùn) 算每個VPE共完成16個浮點(diǎn)乘法和24個浮點(diǎn)加法操作(共40個浮點(diǎn)操作),這40個浮點(diǎn) 操作在本發(fā)明的3個MAC指令槽中的分布如圖6中(C)所示。從上述分析可知128點(diǎn)FFT 運(yùn)算在本發(fā)明的VPU結(jié)構(gòu)共需要106個時鐘周期(14*7+8)。
[0075] 以上僅是本發(fā)明的優(yōu)選實(shí)施方式,本發(fā)明的保護(hù)范圍并不僅局限于上述實(shí)施例, 凡屬于本發(fā)明思路下的技術(shù)方案均屬于本發(fā)明的保護(hù)范圍。應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的 普通技術(shù)人員來說,在不脫離本發(fā)明原理前提下的若干改進(jìn)和潤飾,應(yīng)視為本發(fā)明的保護(hù) 范圍。
【主權(quán)項(xiàng)】
1. 一種支持標(biāo)向量協(xié)同工作的向量SIMD運(yùn)算結(jié)構(gòu),其特征在于,包括: 統(tǒng)一取指和指令派發(fā)部件,用來同時為標(biāo)量處理單元SPU、向量處理單元VPU和向量陣 列存儲器AM派發(fā)指令; 標(biāo)量處理單元SPU,用來負(fù)責(zé)串行任務(wù)的處理,以及對向量處理單元VPU執(zhí)行的控制; 向量處理單元VPU,用來負(fù)責(zé)計(jì)算密集的并行任務(wù)處理; 向量陣列存儲器AM,用來為并行與多寬度的向量運(yùn)算提供數(shù)據(jù)及搬移支持; DMA單元,用來為標(biāo)量處理單元SPU、向量處理單元VPU提供指令和數(shù)據(jù)。2. 根據(jù)權(quán)利要求1所述的支持標(biāo)向量協(xié)同工作的向量SIMD運(yùn)算結(jié)構(gòu),其特征在于,所 述統(tǒng)一取指和指令派發(fā)部件在執(zhí)行過程中采用可變長的NSI+NVI發(fā)射VLIW指令結(jié)構(gòu),同時取 指和派發(fā)NSI條標(biāo)量指令和NVI條向量指令,這NSI+NVI條指令同時支持條件執(zhí)行、中斷和異 常處理。3. 根據(jù)權(quán)利要求1所述的支持標(biāo)向量協(xié)同工作的向量SIMD運(yùn)算結(jié)構(gòu),其特征在于,所 述標(biāo)量處理單元SPE由隊(duì)^個MAC單元和N51[;1]個定點(diǎn)執(zhí)行單元IEU組成,這NSI條流水線并 行執(zhí)行VLIW指令包中的NSI條標(biāo)量指令,執(zhí)行科學(xué)應(yīng)用中的串行運(yùn)算,其中NSI =NSMM+NSIEU。4. 根據(jù)權(quán)利要求1所述的支持標(biāo)向量協(xié)同工作的向量SIMD運(yùn)算結(jié)構(gòu),其特征在于,所 述向量處理單元VPU由NVPE個同構(gòu)向量運(yùn)算單元VPE構(gòu)成,在統(tǒng)一的指令流控制下對不同 數(shù)據(jù)執(zhí)行相同的操作,其中NVPE為2的冪次方。5. 根據(jù)權(quán)利要求4所述的支持標(biāo)向量協(xié)同工作的向量SIMD運(yùn)算結(jié)構(gòu),其特征在于,所 述向量運(yùn)算單元VPE包含NVMA/hMAC單元和NVIEl/h定點(diǎn)執(zhí)行單元IEU,這NVI條流水線并行 執(zhí)行VLIW指令包中的NVI條向量指令,執(zhí)行科學(xué)應(yīng)用中的并行運(yùn)算,其中NVI=Nvmac+Nvieu。6. 根據(jù)權(quán)利要求5所述的支持標(biāo)向量協(xié)同工作的向量SIMD運(yùn)算結(jié)構(gòu),其特征在于,所 述向量運(yùn)算單元VPE之間的數(shù)據(jù)交互通過規(guī)約網(wǎng)絡(luò)和混洗網(wǎng)絡(luò)完成。7. 根據(jù)權(quán)利要求1所述的支持標(biāo)向量協(xié)同工作的向量SIMD運(yùn)算結(jié)構(gòu),其特征在于,所 述標(biāo)量處理單元SPU與向量處理單元VPU和向量陣列存儲器AM之間各設(shè)計(jì)了一條64位的 配置通路,通過MOV指令實(shí)現(xiàn)對向量處理單元VPU和向量陣列存儲器A中的全局控制配置 寄存器的訪問。8. 根據(jù)權(quán)利要求1所述的支持標(biāo)向量協(xié)同工作的向量SIMD運(yùn)算結(jié)構(gòu),其特征在于,所 述標(biāo)量處理單元SPU與向量處理單元VPU之間還有兩條標(biāo)量處理單元SPU到向量處理單元 VHJ的數(shù)據(jù)廣播傳遞機(jī)制,分別支持單字廣播指令和雙字廣播指令; 所述單字廣播指令為:將SPU寄存器文件中的單字廣播到NVPE個VPE的向量寄存器中 同一位置;執(zhí)行的過程中對NVPE個VPE中的寄存器文件進(jìn)行一次寫操作,完成64*NVPE位數(shù) 據(jù)的傳輸; 所述雙字廣播指令為:將SPU寄存器文件中的一對數(shù)據(jù)Src_o:Src_e廣播到NVPE個VPE中的寄存器文件中的Dst_〇:Dst_e中,寄存器對使用偶數(shù)表示即VR0代表VR1 :VR0 ;執(zhí)行的 過程中對NVPE個VPE中的寄存器文件進(jìn)行一次寫操作,完成128*NVPE位數(shù)據(jù)傳輸; 兩條標(biāo)向量廣播通路并行執(zhí)行雙字廣播操作能夠?qū)崿F(xiàn)256*NVPE位數(shù)據(jù)的傳輸。
【專利摘要】本發(fā)明公開了一種支持標(biāo)向量協(xié)同工作的向量SIMD運(yùn)算結(jié)構(gòu),其包括:統(tǒng)一取指和指令派發(fā)部件,用來同時為標(biāo)量處理單元SPU、向量處理單元VPU和向量陣列存儲器AM派發(fā)指令;標(biāo)量處理單元SPU,用來負(fù)責(zé)串行任務(wù)的處理,以及對向量處理單元VPU執(zhí)行的控制;向量處理單元VPU,用來負(fù)責(zé)計(jì)算密集的并行任務(wù)處理;向量陣列存儲器AM,用來為并行與多寬度的向量運(yùn)算提供數(shù)據(jù)及搬移支持;DMA單元,用來為標(biāo)量處理單元SPU、向量處理單元VPU提供指令和數(shù)據(jù)。本發(fā)明能夠提高整體的執(zhí)行效率和并行性。
【IPC分類】G06F9/38
【公開號】CN105373367
【申請?zhí)枴緾N201510718729
【發(fā)明人】陳書明, 彭元喜, 雷元武, 萬江華, 郭陽, 田甜, 彭浩, 徐恩
【申請人】中國人民解放軍國防科學(xué)技術(shù)大學(xué)
【公開日】2016年3月2日
【申請日】2015年10月29日
當(dāng)前第3頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1