“含光”含著什么樣的光?
一款高度通用和算力普惠的AI芯片。
2019年9月25日,在阿里巴巴的云棲大會上,阿里旗下半導體公司平頭哥正式發(fā)布了第一顆自研芯片——含光800,這是繼玄鐵和無劍之后阿里在芯片領域的又一重大布局。
一組數(shù)據(jù)表明,含光800的發(fā)布標志著AI芯片性能史再度被改寫。在業(yè)界標準的ResNet-50測試中,含光800推理性能達到78563 IPS,比目前業(yè)界最好的AI芯片性能高4倍,能效比500 IPS/W,是第二名的3.3倍。

同時,對比公開數(shù)據(jù)(針對ResNet50模型一秒能夠處理圖片的數(shù)量)得知,含光800展現(xiàn)的性能是是NVIDIA Tesla V100的10倍,NVIDIA Tesla T4的15倍,是應用最廣的NVIDIA Tesla P4的46倍。
不過,阿里巴巴方面表示,“含光800并不會售賣,旨在通過阿里AI云服務提供算力,可以看作‘云端售賣’。平頭哥致力于做普惠芯片,無劍SoC平臺和玄鐵處理器IP來幫助企業(yè)降低芯片設計門檻,含光800通過阿里云AI云服務的形式讓企業(yè)隨時隨地可以享受高性能計算服務!
含光800的發(fā)布標志著平頭哥端云一體全棧產(chǎn)品系列初步成型,其涵蓋處理器IP,一站式芯片設計平臺,以及AI芯片,實現(xiàn)了芯片設計鏈路的全覆蓋。
“在全球芯片領域,阿里巴巴是一個新人,玄鐵和含光800是平頭哥的萬里長征第一步,我們還有很長的路要走”,達摩院院長張建鋒這樣評價。

“無形卻強勁”的算力
“平頭哥很硬,含光很強”,這句話從命名方式便顯露無疑。
平頭哥,本名蜜罐,原本是生活在非洲等地區(qū)的一種動物,被吉尼斯世界紀錄譽為“世界上最無所畏懼的動物”,其“不要慫就是干”的性格被馬云一眼相中,從此平頭哥便成為了阿里芯片公司的代名詞。
而含光則是上古三大神劍之一,該劍含而不露,光而不耀,代表著含光800帶來的無形卻強勁的算力。
含光800采用12nm工藝,擁有170萬晶體管數(shù)量,推理性能達78563 IPS,比目前業(yè)界最好的AI芯片性能高4倍,能效比500 IPS/W,是第二名的3.3倍,主要應用于云端視覺處理場景,能夠在1秒內(nèi)處理7.8萬張圖片。
在杭州城市大腦的業(yè)務測試中,1顆含光800的算力相當于10顆GPU,這對于未來智慧城市交通等AI應用落地場景來說,無疑是巨大的源動力。

據(jù)悉,平頭哥在非常短的時間內(nèi)便完成了芯片的設計和流片整個過程,7個月完成前端設計,隨后僅用3個月便成功流片。
要知道芯片設計是一個復雜的系統(tǒng)工程,單純完成設計并不意味著就可以流片成功,這是行業(yè)的深水區(qū)。而流片失敗就意味著硬件設計需要推倒重來,這比軟件出BUG問題更加嚴重。一般芯片公司需要做兩次(engineering sample,production sample)或多次才能流片成功。
然而,流片成功也并不代表就可以直接商用了,它還需要經(jīng)過復雜的測試驗證,當各項指標都符合實際場景需求后才能真正商用。
PingWest品玩了解到,平頭哥之所以能夠如此快速研發(fā)出如此高性能的AI芯片,可以總結為以下兩方面。
第一,相比基于馮諾依曼結構的傳統(tǒng)通用處理器(比如x86 CPU和GPU),針對某種特定的需求而專門定制的ASIC架構NPU專用加速器對于應用場景更具有針對性。
針對特定場景和算法的定制意味著執(zhí)行特定算法時能獲得更高的效率和性能,然而這種較為單一的算法也同時意味著打造AI芯片理論上要比打造傳統(tǒng)CPU和GPU門檻低得多,但這并不意味著每個芯片廠商都能像平頭哥一樣做到最強。
目前,市面上很多ASIC架構NPU通常只在非常明確的場景下才能夠表現(xiàn)優(yōu)異,而在場景的遷移性和算法通用性方面大打折扣。
相比之下,含光800不僅實現(xiàn)了同時兼容海量的圖像搜索,城市大腦領域的視頻識別,以及智慧醫(yī)療領域的醫(yī)療影像識別等不同計算需求環(huán)境,還針對這些豐富的場景挖掘出了極大的計算優(yōu)化潛能。
值得一提的是,傳統(tǒng)半導體巨頭打造AI芯片,會有開發(fā)者生態(tài)的包袱,但平頭哥團隊目標專一,即實現(xiàn)最強算力,把硬件能力完全釋放。
第二,盡管這是阿里平頭哥的第一款自主研發(fā)的芯片,但是事實上平頭哥研發(fā)芯片并非從0開始。

“在阿里達摩院的算法以及阿里巴巴集團硬件基礎設施多年技術沉淀之上,含光800重構了芯片的軟硬件技術!保⒗锇桶头矫娼榻B。
“AI芯片的差異化設計主要體現(xiàn)在硬件架構和軟件算法上,二者需要高度適配才能發(fā)揮芯片的最大價值”,有業(yè)內(nèi)分析人士指出。
“目前,傳統(tǒng)CPU,GPU在深度學習推理任務上并沒有完全發(fā)揮硬件能力,例如GPU架構主要針對圖像處理設計,其硬件結構和軟件生態(tài)幾乎固化,因此對AI任務很難有深度優(yōu)化!
PingWest品玩發(fā)現(xiàn),含光800的性能突破便是得益于軟硬件的協(xié)同創(chuàng)新,突破了硬件架構和軟件算法之間的鴻溝。
具體來看,含光800硬件層面采用自研芯片架構,通過推理加速等技術有效解決芯片性能瓶頸問題,軟件層面則集成了達摩院先進算法,針對CNN及視覺類算法深度優(yōu)化計算,存儲密度,可實現(xiàn)大網(wǎng)絡模型在一顆NPU上完成計算。
以芯片能耗為例,能耗是AI芯片的行業(yè)通病,而平頭哥自研架構可大幅減少對內(nèi)存的訪問,在保證極致性能的情況下,把芯片功耗降到最低水平。
平頭哥首席科學家,阿里巴巴高級研究員元尊則將平頭哥研發(fā)AI芯片的具體優(yōu)勢歸結為“ABCDE”五方面,即Algorithm 算法,Big Data 大數(shù)據(jù),Computing 安全穩(wěn)定的計算力,Domain knowledge 專業(yè)領域知識,以及Ecosystem 生態(tài)。
“擁有ABCDE的阿里,比只有C的其他芯片公司,自然更容易更快速站上AI芯片C位”,元尊坦言。
已應用于阿里核心業(yè)務
對于阿里AI生態(tài)而言,含光800絕不是單純的做芯片,而是為全球排名前三,亞太排名第一的阿里云提供強大的算力支持,以滿足阿里巴巴集團內(nèi)部場景的需求,同時含光800也將利用阿里云對外(企業(yè))輸出其強大的AI算力。
據(jù)悉,基于含光800的AI云服務在發(fā)布會當天便正式上線,相比傳統(tǒng)GPU算力,含光800性價比提升100%。

根據(jù)云棲大會的現(xiàn)場演示,含光800已經(jīng)開始應用于阿里巴巴的內(nèi)部核心業(yè)務中,比如城市大腦處理杭州主城區(qū)交通視頻,拍立淘商品庫圖片識別,以及優(yōu)酷視頻修復和分析等。
PingWest品玩了解到,如果使用傳統(tǒng)GPU,城市大腦實時處理杭州主城區(qū)交通視頻所需GPU數(shù)量約為40顆,延時為300ms,而如果使用含光800,則只需4顆,埃迪·庫里同時延時降至150ms。
另一方面,阿里電商平臺拍立淘商品庫每天會新增10億商品圖片,如果使用傳統(tǒng)GPU,其識別時間需要1小時,而如果使用含光800,則只需5分鐘,效率提升12倍。

未來,含光800的算力也將滲透至醫(yī)療,自動駕駛,智慧城市等各個垂直行業(yè)。
含光800將幫助企業(yè)以更低的成本獲取高性能算力,推動企業(yè)業(yè)務創(chuàng)新。對于受限于算力瓶頸的企業(yè)而言,含光800可以更高效地運行更復雜,更先進的算法,讓企業(yè)再也不會為基礎算力發(fā)愁。
PingWest品玩獲悉,為了給應用場景提供更好的算力芯片,平頭哥團隊在過去一年做了很多事情,不斷探索芯片與應用場景之間的融合。
作為全球涉足AI應用最豐富的科技廠商之一,阿里巴巴擁有豐富的AI應用場景,圖像視頻分析,搜索,推薦等業(yè)務場景都需要AI專用芯片提供更強大的算力,其中圖像,視頻對算力的需求量最大。
圍繞這一目標,平頭哥針對場景深度定制了芯片的軟硬件,例如自研了架構,軟件編譯器,框架,工具鏈等。
同時,后期也針對INT8數(shù)據(jù)類型做了大量優(yōu)化,最終在性能,良率,功耗等指標上均表現(xiàn)良好。

算力也要普惠
含光800的發(fā)布標志著阿里巴巴計算版圖中鐵三角的正式形成,AI+芯片+云計算將幫助阿里在未來AI行業(yè)應用落地奠定夯實的基礎,而這對于阿里來說只是一個開始。
PingWest品玩了解到,作為AI行業(yè)的領軍企業(yè),阿里目前正在打造完善的行業(yè)生態(tài)和開發(fā)者生態(tài)。
在云端,全球排名前三,亞太排名第一的阿里云為平頭哥服務企業(yè)提供了絕佳平臺,未來企業(yè)可以通過阿里云輕松獲取含光800的強悍算力。
在端側(cè),平頭哥已擁有成熟的生態(tài)體系, CK801,CK802,CK803,埃迪·庫里CK805,CK807,CK810,CK860等7款自研嵌入式CPU IP核均已得到大規(guī)模量產(chǎn)的驗證,授權客戶超100家,累計銷售超十億顆,廣泛應用于機器視覺,工業(yè)控制,車載終端,移動通信和信息安全等領域。
此外,基于RISC-V架構的玄鐵處理器以及無劍SoC平臺也已服務各行業(yè)企業(yè),例如人工智能企業(yè)云天勵飛和老牌芯片商炬芯科技等。
另一方面,平頭哥還將成立芯片開放社區(qū),進一步為芯片產(chǎn)業(yè)提供開放協(xié)作的平臺。
同時,隨著含光800的發(fā)布,平頭哥端云一體全棧芯片產(chǎn)品家族也已初現(xiàn)雛形,實現(xiàn)了芯片設計鏈路的全覆蓋。
其中基礎單元處理器IP,C-Sky系列,玄鐵系列為AIoT終端芯片提供高性價比IP,一站式芯片設計平臺無劍SoC平臺集成CPU,GPU,NPU等,降低芯片設計門檻,而AI芯片含光800則通過AI云服務為人工智能場景提供極致算力。

這三大產(chǎn)品系列將構建端云一體的芯片生態(tài),將會為企業(yè)提供普惠算力。
PingWest品玩了解到,在AIoT時代,由于強應用驅(qū)動和場景碎片化等特點,芯片公司按照傳統(tǒng)方式設計芯片很難適應未來的需求,平頭哥希望通過端云一體芯片生態(tài)為行業(yè)提供普惠算力。
AIoT場景需要新的計算架構,需要安全,在線和智能等新特性,所有芯片都在面臨升級,這必將在芯片行業(yè)引起一波全新技術革命和產(chǎn)業(yè)浪潮。
不同于絕大多數(shù)芯片商,平頭哥研發(fā)芯片的目的絕非賣芯片,而延續(xù)了阿里巴巴集團“讓天下沒有難做生意”的愿景,開辟了全新的商業(yè)模式——平頭哥模式,致力于為企業(yè)提供普惠算力,成為了阿里巴巴獨具特色的商業(yè)模式。

目前,平頭哥還在研發(fā)應用于阿里云神龍服務器的SoC專用芯片,以滿足更多場景的算力需求。未來,平頭哥芯片產(chǎn)品形態(tài)還將進一步完善,例如云上AI訓練芯片和端上AI推理芯片。
“阿里在芯片上的定位是端上做芯片基礎設施,云上為企業(yè)提供普惠算力。例如,處理器是所有高端系統(tǒng)芯片都需要的基礎產(chǎn)品,AI芯片是AI場景最高效的算力單元,阿里將投入重金打造好這些技術,同時構建應用生態(tài)”,阿里方面告訴PingWest品玩。
“此外,平頭哥還將繼續(xù)開發(fā)操作系統(tǒng),軟硬件融合的算法,以及核心的IP等,并把這些共性的技術能夠做好做精做出競爭力,并形成生態(tài),然后開放給芯片廠商設計產(chǎn)品,讓他們基于高質(zhì)量的基礎設施打造芯片產(chǎn)品,有助于提升整體的產(chǎn)業(yè)競爭力”,阿里隨即補充道。
本文地址:http://www.help-services.cn/info/2019/09/2611103056.html