分布式協(xié)同AI基準測試Ianvs開源:工業(yè)場景提升5倍研發(fā)效率
在邊緣計算的浪潮中,AI是邊緣云乃至分布式云中最重要的應用。隨著邊緣設備的廣泛使用和性能提升,將人工智能相關的部分任務部署到邊緣設備已經成為必然趨勢。
KubeEdge-Sedna子項目,作為業(yè)界首個分布式協(xié)同AI框架,基于KubeEdge提供的邊云協(xié)同能力,支持現(xiàn)有AI類應用無縫下沉到邊緣,降低分布式協(xié)同機器學習服務構建與部署成本、提升模型性能、保護數(shù)據(jù)隱私等。
本篇文章為大家闡釋分布式協(xié)同AI技術背景,研發(fā)落地三大生態(tài)挑戰(zhàn)和社區(qū)調研報告,并對全新社區(qū)SIG AI子項目(于KubeEdge Summit 2022 重磅發(fā)布):全場景可擴展的分布式協(xié)同AI基準測試項目 Ianvs(雅努斯),進行介紹。該項目能為算法及服務開發(fā)者提供全面開發(fā)套件支持,以研發(fā)、衡量和優(yōu)化分布式協(xié)同AI系統(tǒng)。歡迎關注Ianvs項目,持續(xù)獲得第一手獨家公開數(shù)據(jù)集與完善基準測試配套。開源項目GitHub地址:https://github.com/kubeedge/ianvs
01 分布式協(xié)同AI技術背景
隨著邊側算力逐步強化,時代也正在見證邊緣AI往分布式協(xié)同AI的持續(xù)演變。分布式協(xié)同AI技術是指基于邊緣設備、邊緣服務器、云服務器利用多節(jié)點分布式乃至多節(jié)點協(xié)同方式實現(xiàn)人工智能系統(tǒng)的技術。雖然還在發(fā)展初期,分布式協(xié)同AI成為必然趨勢的驅動力主要有二。第一,由于數(shù)據(jù)首先在邊緣產生,有大量數(shù)據(jù)處理需要在邊側運行。第二,由于邊側逐步具備AI能力,高階數(shù)據(jù)處理需要在邊側運行。在實際應用場景中,以往常見的是云上訓練、邊側推理模式,現(xiàn)在在各個場合已經頻繁聽到邊云協(xié)同推理、邊云協(xié)同增量學習、邊云協(xié)同終身學習、聯(lián)邦學習等協(xié)同模式,可以看到邊緣AI向邊云協(xié)同乃至分布式協(xié)同的演進正在發(fā)生。上述這些都使得我們有理由相信,分布式協(xié)同AI是大勢所趨。
關于分布式協(xié)同AI的產業(yè)發(fā)展形態(tài),根據(jù)Research Dive Analysis預測,全球邊緣AI乃至分布式協(xié)同AI軟件(算法、平臺等)市場規(guī)模將從2019年的4.36億美元增長到2023年的30.93億美元。分布式協(xié)同AI解決方案市場規(guī)模比例顯著大于服務。也就是說,與直接提供通用服務相比,結合行業(yè)解決方案可能是分布式協(xié)同AI商業(yè)變現(xiàn)的主要途徑。至于與行業(yè)解決方案結合的話,據(jù)麥肯錫預測,邊緣AI乃至分布式協(xié)同AI至少覆蓋12個行業(yè)??梢钥吹?,相關行業(yè)解決方案的市場領域多樣化,通過產業(yè)鏈聚攏乃至壟斷方式來收割商業(yè)價值無疑存在規(guī)模復制挑戰(zhàn)。因此,從產業(yè)發(fā)展形態(tài)出發(fā)考慮,一家企業(yè)獨大并不可取,與生態(tài)伙伴同行才有可能走得更遠。
鑒于上述分布式協(xié)同AI技術趨勢和產業(yè)發(fā)展形態(tài),KubeEdge社區(qū)基于CNCF成熟治理模式,成立了KubeEdge SIG AI。其工作目標是基于 KubeEdge 的邊云協(xié)同能力,提供具有低成本、高性能、易用性、隱私保護等優(yōu)勢的邊緣智能平臺。SIG AI工作范圍包括:
1. 構建分布式協(xié)同AI框架,高效合理利用端、邊、云的各類資源,并能根據(jù)負載和應用類型實時地進行模型調度,實現(xiàn)高性能和低成本兼?zhèn)涞倪吘堿I系統(tǒng)。
2. 構建分布式協(xié)同AI基準測試,識別AI系統(tǒng)中重要指標,幫助用戶評估邊緣AI系統(tǒng)的功能和性能,以衡量和優(yōu)化分布式協(xié)同AI系統(tǒng),揭露各應用場景的最佳實踐。
3. 積極與周邊AI平臺、邊緣智能硬件廠商等伙伴開展合作,實現(xiàn)自動化的異構資源匹配,減少用戶管理異構資源的工作量,提升AI 應用的部署管理維護效率。
02 分布式協(xié)同AI應用落地挑戰(zhàn)調研報告
KubeEdge SIG AI及整個行業(yè)各個技術方案落地與成果轉化到產業(yè)的進程正在緊鑼密鼓地進行,大家也經常提到sedna進入質檢、衛(wèi)星和園區(qū)的案例。但僅憑技術是不足夠完成落地和產業(yè)轉化的。當前學界業(yè)界很多團隊已經遇到各式各樣的困難。社區(qū)從算法開發(fā)者、服務開發(fā)者和技術布道者三種邊緣AI研發(fā)角色的需求出發(fā),啟動了邊緣AI研發(fā)落地生態(tài)挑戰(zhàn)問卷調研,希望進一步了解邊緣AI方案落地與產業(yè)轉化過程中遇到的,諸如研發(fā)資源難獲取、工具鏈不完備等主要依賴社區(qū)分工與共享的生態(tài)挑戰(zhàn)。
截止2021年9月20日已回收有效答卷180份。調研結果發(fā)現(xiàn)了20+生態(tài)挑戰(zhàn),問卷開放選項采集到49條補充意見和8條補充建議。
1. 調研對象職業(yè)主要是工業(yè)界從業(yè)者(53.45%),其次是在校學生(31.03%)和學術界研究者(25.86%)。
2. 調研對象的技術方向主要是邊緣AI及其應用(55.75%)、AI及其應用(49.43%)、邊緣計算及其應用(42.53%)。也有約四分之一的方向為云計算及其應用(25.86%),以及少量的其它方向(13.22%)。
基于調研結果已發(fā)布業(yè)界首份邊緣AI落地生態(tài)挑戰(zhàn)調研報告,可通過下方二維碼掃描獲取。我們也繪制了三種不同角色所反饋的生態(tài)挑戰(zhàn)詞云。
報告的重點內容簡要介紹如下:
1. 對于算法開發(fā)者排名第一的挑戰(zhàn)是實際業(yè)務數(shù)據(jù)集及配套算法難以獲取,排名第二的挑戰(zhàn)是重復部署整套端邊云系統(tǒng)過于沉重。從中我們可以對于算法開發(fā)總結出研發(fā)資源支持少的生態(tài)挑戰(zhàn)。
2. 對于服務開發(fā)者排名第一的挑戰(zhàn)是通用方案整體性能不一定滿足特定業(yè)務需求,排名第二的挑戰(zhàn)是自研業(yè)務算法和系統(tǒng)方案周期長成本高。從中我們可以針對服務開發(fā)總結出方案選型成本高的生態(tài)挑戰(zhàn)。
3. 對于技術布道者排名第一的挑戰(zhàn)是缺乏商業(yè)成功案例,排名第二的挑戰(zhàn)是缺乏與現(xiàn)有方案系統(tǒng)對比,包括成本、部署要求。從各挑戰(zhàn)中可以針對技術布道者總結出價值呈現(xiàn)晦澀理解難的生態(tài)挑戰(zhàn)。
基于本次調研,下面從剛剛提到的幾個挑戰(zhàn)出發(fā),進一步了解這個領域各位開發(fā)者的心聲和行業(yè)痛點,探索可能的解決方案。
核心痛點 I:業(yè)務數(shù)據(jù)集及其配套算法難以獲取
在調研過程,算法開發(fā)者跟社區(qū)反饋得最多的還是業(yè)務數(shù)據(jù)集機器配套算法難以獲取
1.正在打造邊緣AI算法利器,有什么實際業(yè)務可以練兵嗎,在哪找?
2.我認識一家邊緣計算公司在做工業(yè)質檢,質檢靠譜數(shù)據(jù)有嗎?可以先試一試。
3.公開數(shù)據(jù)集太多,大海撈針翻到頭都禿了。
4.數(shù)據(jù)集要么質量不太高,或者要么跟具體業(yè)務不太匹配……
5.真實、好用的數(shù)據(jù)集說起來輕巧,但新業(yè)務數(shù)據(jù)集找起來太累了吧。
6.也不知道找哪家公司合適;自己去買設備采集?
從中可總結出核心痛點:業(yè)務數(shù)據(jù)集及其配套算法難以獲取,同時封閉測試環(huán)境難以跟上各類新業(yè)務孵化。同時看到第一個需求:分布式協(xié)同AI標準數(shù)據(jù)集和配套算法管理與下載,快速上手真實業(yè)務。
核心痛點 II:通用方案不滿足特定需求在調研過程,服務開發(fā)者跟社區(qū)反饋得最多的則是通用方案不一定滿足特定業(yè)務需求。
1.業(yè)務問題多得很……一宿一宿睡不著,天天挨客戶罵,現(xiàn)場各種安撫疲于奔命。頂會論文?真的沒有時間看。
2.現(xiàn)有測試數(shù)據(jù)和指標要求與實際業(yè)務差距過大。聽說算法進展很快,但調研大半年,嘗試很多算法,要真正能做進客戶心窩里還是很困難的。
3.新業(yè)務不斷產生,現(xiàn)有測試需要對應改進。但現(xiàn)有測試都是那幾個玩具數(shù)據(jù)集和指標,基準固化后還不能改。亟需針對特定場景個性化配置。
4.場景很多,問題更多。針對不同場景甚至相同場景的不同算法范式要針對不同架構、接口和參數(shù)使用不同測試工具。這導致在不同邊側場景,進行各種測試實驗非常繁瑣。要規(guī)模化被迫采用簡單技術。
5.自研人力物力成本高,比如設備貴、人才高薪。挑戰(zhàn)復雜難題?中小企業(yè)試試就逝世,不如交給大企業(yè)或者高校(躺)。
從中可總結出核心痛點:全場景多范式測試成本高、個性化場景的測試用例準備繁瑣。同時看到第二個需求:個性化、全場景測試乃至自動化測試,對癥下藥并降低研發(fā)成本。
03 分布式協(xié)同AI基準測試Ianvs項目
針對上述痛點和挑戰(zhàn),KubeEdge SIG AI全新的社區(qū)子項目——全場景可擴展的分布式協(xié)同AI基準測試工具 Ianvs可以用以解決以上問題。借助單機就可以完成分布式協(xié)同AI前期研發(fā)工作。
1. 針對業(yè)務數(shù)據(jù)集難以獲取,數(shù)據(jù)采集與處理成本高的痛點,ianvs提供豐富AI生態(tài),做到開箱即用。ianvs開源數(shù)據(jù)集與5+配套算法,覆蓋預處理、預訓練、訓練、推理、后處理全流程,零改造開箱即用。
2. 針對封閉測試環(huán)境難跟上各類新業(yè)務孵化的痛點,ianvs提供可擴展開放工具鏈。測試環(huán)境管理實現(xiàn)自定義動態(tài)配置測試數(shù)據(jù)集、指標,告別封閉守舊的測試環(huán)境。
3. 針對全場景多范式測試成本高的痛點,ianvs提供全場景靈活切換。ianvs測試用例管理統(tǒng)一不同場景及其AI算法架構與接口,能用一套工具同時兼容多種AI范式。
4. 針對個性化場景的測試用例準備繁瑣的痛點,ianvs提供低代碼生成測試用例。ianvs測試用例管理基于網格搜索等輔助生成測試用例,比如一個配置文件即可實現(xiàn)多個超參測試,降低超參搜索時的繁瑣重復編程。
Ianvs同步發(fā)布一個新的工業(yè)質檢數(shù)據(jù)集PCB-AoI。PCB-AoI 數(shù)據(jù)集是開源分布式協(xié)同 AI 基準測試項目 KubeEdge-Ianvs 的一部分。Ianvs 很榮幸成為第一個發(fā)布此數(shù)據(jù)集的站點,Ianvs 項目相關社區(qū)成員將PCB-AoI 公共數(shù)據(jù)集同時也放在 Kaggle和云服務上方便各位下載。PCB-AoI工業(yè)質檢公開數(shù)據(jù)集下載鏈接請參見:
https://ianvs.readthedocs.io/en/latest/proposals/scenarios/industrial-defect-detection/pcb-aoi.html
PCB-AoI數(shù)據(jù)集由KubeEdge SIG AI 來自中國電信和瑞斯康達的成員發(fā)布。在這個數(shù)據(jù)集中,收集了 230 多個板,圖像數(shù)量增加到 1200 多個。具體來說,數(shù)據(jù)集包括兩部分,即訓練集和測試集。訓練集包括 173 個板,而測試集包括 60 個板。也就是說,就 PCB 板而言,train-test 比率約為 3:1。進行了數(shù)據(jù)增強,將圖像方面的訓練測試比率提高到 1211:60(約 20:1)。train_data 和 test_data 的兩個目錄都包含索引文件,用于關聯(lián)原始圖像和注釋標簽。
這里同步展示一個Ianvs在工業(yè)場景的案例。本案例是基于PCB-AoI數(shù)據(jù)集的工業(yè)質檢。該案例基于工業(yè)視覺AoI設備輸出視頻圖片,檢測PCB板是否存在貼裝異常。
案例提供了單任務學習和邊云協(xié)同增量學習兩種范式。在本案例的單任務學習范式中,數(shù)據(jù)全部上云,在訓練階段獲得所有數(shù)據(jù)。在本案例的邊云協(xié)同增量學習范式中,數(shù)據(jù)部分上云,訓練數(shù)據(jù)分兩輪提供。Ianvs除算法指標外,還可監(jiān)控系統(tǒng)指標,如樣本上云比例指標。測試的基礎模型選用特征金字塔網絡FPN(Feature Pyramid Networks)。
基準測試結果顯示,待測FPN算法F1性能在0.84-0.95波動。邊云協(xié)同增量學習可節(jié)省近50%的上云數(shù)據(jù)量,同時獲得10%以上的精度提升。如下圖所示,增量前1處漏檢:僅檢出7處,增量后全部檢出:檢出全部8處缺陷。
Ianvs將提供開箱即用的數(shù)據(jù)集與配套算法,借助支持多場景范式切換和易擴展的工具鏈,以及測試用例的低代碼自動生成能力,來降低開發(fā)者在分布式協(xié)同AI應用開發(fā)測試時的門檻,技術驗證時間半年降低到1個月,提升5倍研發(fā)效率。
Ianvs發(fā)布之際在此也特別感謝社區(qū)10+初創(chuàng)單位。社區(qū)也持續(xù)募集在Ianvs項目上的合作伙伴,共同孵化開源項目、研究報告及行業(yè)標準等。
KubeEdge-Ianvs 初創(chuàng)單位
對于未來工作上,Ianvs項目希望進一步解決各位社區(qū)用戶的問題。
首先,算法開發(fā)者們投票第二位的挑戰(zhàn)是重復部署端邊云系統(tǒng)費時費力的問題
1.只是想聚焦系統(tǒng)上的分布式調度而已,需要自己把遷移學習、增量學習、聯(lián)邦學習算法啥的協(xié)同機器學習算法學一遍很痛苦
2.想聚焦系統(tǒng)上的AI算法而已,真需要寫那么多系統(tǒng)代碼,把整一套邊云協(xié)同系統(tǒng)自己搭起來非常不友善
3. 費力氣搭系統(tǒng),也不足以落地應用到工業(yè)界……工業(yè)界有些系統(tǒng)機制,包括模型管理和維護等,能為模型上線護航
4.好了,組里花大錢搭起來,系統(tǒng)和算法終于能用了,但眼看著一年過去,馬上畢業(yè)來不及科研……AI系統(tǒng)的構建對于高校團隊來說費時過長成本過高,簡直大坑
5.很多公司已經有了,重復造輪子感覺憋屈。想在巨人肩膀上實現(xiàn)系統(tǒng)突破,搞大事情
因此第一項未來工作可以是實現(xiàn)工業(yè)級分布式協(xié)同系統(tǒng)仿真,提升方案研發(fā)效率。
另外一個未來工作,可以是關于技術布道者和最終用戶的價值呈現(xiàn)問題:
1.缺乏與先前方案的對比。受眾不明白什么是邊緣,跟以前有什么區(qū)別
2.客戶有數(shù)據(jù),伙伴有研發(fā),但因數(shù)據(jù)使用協(xié)議,數(shù)據(jù)無法出邊緣,經常需要駐場調整
3.沒有界面,缺乏demo,方案不直觀,客戶看不懂,沒有吸引力
因此第二項未來工作可以是算法/范式測試排行與最佳方案展示,做好價值呈現(xiàn)。
Ianvs項目規(guī)劃路標如下圖。歡迎關注Ianvs項目,持續(xù)獲得第一手獨家公開數(shù)據(jù)集與完善基準測試配套。社區(qū)也持續(xù)募集在Ianvs項目上的合作伙伴,共同孵化開源項目、研究報告及行業(yè)標準等。
開源項目GitHub地址:
https://github.com/kubeedge/ianvs
作者介紹
鄭子木,華為云邊緣云創(chuàng)新實驗室主任工程師。2019年博士畢業(yè)于香港理工大學,研究方向為邊緣AI、多任務遷移學習及AIoT。發(fā)表國際相關領域頂級會議及期刊 (TPDS、IJCAI、 ICDCS、CIKM、TOSN、e-Energy、TIST等) 論文近20篇,多次獲得國際會議年度唯一最佳論文獎項,獲得華為公司技術貢獻獎項20+?,F(xiàn)正帶領團隊參與KubeEdge SIG AI的開源工作。
更多項目詳細介紹,可B站查看:
https://www.bilibili.com/video/BV1Ed4y1T7vt
聯(lián)系我們
微信添加相關負責人,備注KubeEdge-Ianvs
進一步了解KubeEdge-Ianvs
掃碼回復“進群”和KubeEdge成員交流