中國隊刷新知識圖譜“世界盃” 但點開冠軍團隊一看我愣住了

知識圖譜領域的“世界盃”OGB(Open Graph Benchmark)wikikg2榜單,又被刷新了!上榜的這支團隊首次參加即奪冠,還在前五中佔據兩席。這兩年,中國科技公司在人工智能領域高歌猛進,奪冠似在情理之中。

但意料之外的是,這支團隊卻出自一家“非典型科技公司”——在大眾認知里頂着“數字安全”標籤的360。

且參與比賽的三人,乍眼一看也並非一個星光熠熠,大神雲集的頂配組合:一位2019年剛剛畢業的碩士,一位去年才加入公司的“新人”,還有一位實習生。

但這樣一支團隊,這一次擊敗了AI三巨頭LeCun、Yoshua Bengio分別坐鎮的Meta FAIR實驗室和MILA實驗室,在臉書、阿里巴巴、第四範式等國內外耳熟能詳的頂尖AI科研團隊中脫穎而出。

甚至以幾乎最小參數量的模型實現了最好的效果:

中國隊刷新知識圖譜“世界盃” 但點開冠軍團隊一看我愣住了

△OGB-wikikg2排行榜數據

那麼問題來了,360的提交和公開的參賽模型為何能打敗一眾競爭者登頂?獲勝者又為何是360?

先從團隊登上榜首所採用的TripleRE + NodePiece方法說起。

模型登頂后還持續“就業”

所謂的TripleRE + NodePiece,就是團隊基於自己開發的原創模型TripleRE,再結合已有的NodePiece算法的一種創新方法。

其中,TripleRE模型正是他們這次獲勝的關鍵。

TripleRE,全名Knowledge Graph Embeddings Via Triple Relation Vectors,直譯過來就是通過三份關係向量進行知識圖譜嵌入。

先解釋一下知識圖譜嵌入。

眾所周知,知識圖譜是一個將不同種類的信息連接得到的關係網絡,是一種抽象描述現實世界及其關係的方法。

節點(Point)和邊(Edge)是其組成的基本元素,一個頭實體,一個關係,一個尾實體就能組成一個三元組,用以表示“知識”或“事實”。

中國隊刷新知識圖譜“世界盃” 但點開冠軍團隊一看我愣住了

三元組雖然能有效表示結構化數據,但其底層符號的特性會使知識圖譜很難操作,也常常致使知識圖譜不完整。

這就需要一種補全的方法:知識圖譜嵌入。

這種方法又叫知識表示學習(KRL),具體來說,是將知識圖譜的實體和關係嵌入連續向量或矩陣空間中,可以在保留實體和關係語義的同時,學習知識圖譜的低維表示。

中國隊刷新知識圖譜“世界盃” 但點開冠軍團隊一看我愣住了

而開頭提到的通過三份關係向量 則是一種具體實現知識圖譜嵌入的方法。

以往的知識圖譜嵌入方法, 比如2020年提出的PairRE模型,主要通過兩個用於關係表示的向量將頭尾實體分別投影到歐式空間,再最小化投影向量的距離:

中國隊刷新知識圖譜“世界盃” 但點開冠軍團隊一看我愣住了

而TripleRE模型則把向量切分成三份,兩份和PairRE一樣學習投影特徵,一份學習平移特徵,這就是“三份向量的嵌入”,正與模型名稱相吻合。

中國隊刷新知識圖譜“世界盃” 但點開冠軍團隊一看我愣住了

通過引入三段的關係表示,TripleRE模型變因此能提取更多關係上的特徵。

在此基礎上,360的參賽團隊還引入了去年6月份剛剛提出的一種知識模型領域的新方法,NodePiece,核心就是用較小的子實體大規模實體嵌入。

最終,該方案達到了榜單上亮眼的“小參數模型登頂”的結果。

值得注意的是,這個模型不是單純“炫技“或“刷榜”產物,參加完比賽的TripleRE可沒“失業“。

由於這一模型能夠更好地獲取實體表徵,因此對知識圖譜領域內亟待解決的一些問題,比如難以在抽取數據后實體文本進行融合對齊,也提供新的思路和方法——

目前在360的不少應用場景里都能看到它的身影。比如,360搜索就已經應用了該模型,提高了信息搜索的準確度。

“白帽子軍團”的Geek基因

這一模型背後有一個十人左右的算法團隊,而此次的參賽陣容則主要是三人。

除去一位實習生,開頭提到的那位2019級剛剛畢業的碩士生叫做俞龍,主要負責打比賽。他碩士畢業於武漢大學,同年校招加入360,負責右側實體推薦,知識抽取,垂直領域知識圖譜構建等工作。

另一位“剛剛加入的新人”叫做劉煥勇,在比賽中則擔任技術評估和討論。他在2017年碩士畢業於北京語言大學,曾任職於中國科學院軟件研究所,去年8月剛剛加入360,是算法專家和知識圖譜算法組負責人。

在談及TripleRE模型及其未來的計劃時,劉煥勇表現地非常謙虛,他認為TripleRE模型當前還是階段性成果,還有許多值得優化的地方。

具體的,他們會繼續圍繞360內部很多大規模知識圖譜構建和應用的場景做迭代開發,進一步推廣到企業圖譜、安全等其他業務里去。

不過,在被問到獲獎感受時,他一改畫風,露出了些許年輕人的本性,連連笑稱“激動人心”。

在360內部看來,這是個振奮人心的成果,而外界除了圍觀點贊之外,也多少對360這個網安賽場上的“常勝將軍”拿下AI比賽的冠軍感到有些意外。

可在360 人工智能研究院(以下簡稱“360AI研究院”)院長鄧亞峰看來,“這本就是團隊內部長期的研發方向之一。”

中國隊刷新知識圖譜“世界盃” 但點開冠軍團隊一看我愣住了

為何?這就要說到360的三層沉澱。

第一,互聯網、IoT、安全等多項業務并行的360,有着超大規模的應用場景和數據量。

比如,在互聯網領域,囊括360安全衛士,瀏覽器,導航搜索等多個方面,涉及到的數據也是包含了圖文、視頻的複雜信息流,不間斷地實時更新。

在數字安全領域,360積累了2EB海量安全大數據,其中包括總量180+億惡意網址、5萬億+存活網址、樣本文件300億+等。而隨着2019年在政企安全領域的深耕,安全數據在更加複雜的場景得到了不斷的驗證、訓練和補充。

如此廣闊的業務覆蓋領域,也難怪劉煥勇在被問到初入公司最深刻的印象時,脫口而出的便是:數據量特別大,尤其是安全的數據,對我衝擊力很強。

業務範圍廣,加上多年運營,提供以大量寶貴的數據積累,涉及了計算機視覺、語音語義對話、自然語言理解、機器人運動、智能安全等主流的人工智能研究方向。

在數據即資源的AI時代,這些業務場景數據無疑是AI研發的絕佳的“練兵場”。

還是以「搜索」為例。

近些年,360一方面利用知識圖譜技術,自動化抽取搜索查詢詞以及網頁內容裡面的實體、屬性以及關係,並構建實體之間的關聯,通過知識圖譜向量化技術幫助提升搜索和推薦效果;

另一方面,用自然語言預訓練模型提升語義理解的能力,並應用在搜索引擎的各個環節,整體取得的提升近20%;此外,還通過圖文跨模態技術將圖像搜索的錯誤率降低到了原來的1/4。

這種跨模態技術也被應用在了化學領域,360的化合物識別新方法CReSS,就是將核磁碳譜和分子結構式分別基於深度學習做了表示,然後將兩個表示映射到一個空間中,再計算相似度:

中國隊刷新知識圖譜“世界盃” 但點開冠軍團隊一看我愣住了

此外,運動引擎相關的AI技術,比如定位、建圖、路徑規劃等也為掃地機器人等智能設備提供了技術支持。

而支撐如此大量且豐富的應用落地的,除了本身的技術實力之外,也和360整體的極客精神有關。

這也是360的第二層沉澱。

拿「360 AI 研究院」來說,作為公司科研機構,衡量他們一年工作的KPI並非在部門盈利上有具體的金額要求,而是價值。

價值如何體現?

就是更看重研究能否對公司業務、產品特性有所推動,甚至能否用到公司業務以外的地方,比如和醫療、化學等傳統行業結合,在工業和民生上發揮實用價值。

對於定下這一價值指標的大老闆周鴻禕,院長鄧亞峰這樣調侃:

老周是一個很有意思的人,你跟他直接談錢他會生氣的。

這樣一種務實的調調,也就直接反應在了360對人才的“偏好”上。

比如在360 AI 研究院中,像奪冠工程師俞龍這樣校招“養成系工程師”以及本土工程師的佔比很高。在今天這個學歷門檻愈來愈高的AI行業中,360依然認為“英雄不問出處”,更偏愛能在特定場景創造性地解決問題的人才。

在談及TripleRE模型團隊未來的優化目標和長期計劃時,兩位一線技術人員就一致表示:肯定會圍繞知識圖譜的具體應用場景去做前沿探索。

團隊有意招攬務實、具備內驅特質的成員。進入團隊后,再不斷“投喂“業務場景,與技術相結合,創造新的價值。而其落地的應用創新,又將源源不斷地吸引新的人才。

這就形成了一個正循環,技術和應用雙創新的溫床。

360 AI 研究院的院長鄧亞峰就是一位去年加盟的“新人”。

他此前曾擔任百度深度學習研究院科學家,在人工智能、計算機視覺領域有着近20年的經驗。

作為一位人工智能領域的專家,在加盟之前,他就聽聞過不少關於360的成就,360的ai團隊論文和落地成果不斷,在行業內部也是影響力頗深。

技術積累,便是360的第三層沉澱。

除了人工智能領域的成績之外,360更為外界所熟知的是“安全能力”在微軟、谷歌、蘋果、特斯拉等國際知名公司的白帽子致謝名單中,360安全團隊因發現一系列關鍵漏洞,常年位列前排。

而在全球頂級的安全會議和比賽中,360也是屢屢獲獎。

2019年,號稱“全球白帽黑客奧斯卡”的The Pwnie Awards中,360成為了中國首個獲得最佳提權漏洞獎的企業。

而在2021年的The Pwnie Awards,360再次獲得兩項“最佳提權漏洞”提名,和一項“史詩級成就”提名。至此,“東半球最強白帽子軍團”便成為360的代名詞。

中國隊刷新知識圖譜“世界盃” 但點開冠軍團隊一看我愣住了

△史詩級成就提名

2020年,360更是發現了某大國情報機構為背景的APT攻擊組織對我國關鍵領域長達11年的潛伏。

至今為止,360一共捕獲了境外46個國家級黑客,監測到3600多次攻擊,涉及2萬餘個攻擊目標。在網絡攻擊愈演愈烈的今天,360將這份安全能力投入到保護政企用戶中。

而在人工智能逐漸興起之時,360也早早進行了探索。

早在2010年,360就基於人工智能算法,推出了自主研發的第三代殺毒引擎——QVM人工智能引擎,讓殺毒引擎具備“自學習、自進化”能力,從根本上攻克了“不升級病毒庫就殺不了新病毒”的技術難題,在全球範圍內屬於首創。

再回過頭來看360這次在知識圖譜領域的獲獎,其實就能發現,這是技術傳承和積累之後,終於厚積薄發的一種必然。

周鴻禕帶隊,技術團隊「上山下海」

近幾年,人工智能、數字安全領域興起,人工智能與安全開啟互相賦能。

不管是讓AI變得更加安全,還是用AI把安全做得更好,這兩者的結合才剛剛開始。

能看出,360帶着老手優勢進入行業,近期已經開始有所成,從AI走入千行百業的行業維度看,360確實用種種動作證明自己繼承互聯網時代安全員角色,提供一份護航。

周鴻禕曾在2021年的世界互聯網大會上說:

科技企業只有承擔“上山下海”的新使命擔當,突破技術障礙,賦能傳統企業,擔當國家戰略科技力量,才能獲得更大的發展空間,創造更大的價值。

所謂上山,即追求先進的技術,通過自主研發原創性的,創新性的新技術,新模型,解決業內普遍存在的難題。

所謂下海,是指“數字化藍海”,在取得了技術成就之後,一定要讓其產生實打實的落地價值,讓最前沿的技術能普惠到傳統企業的數字化轉型,乃至普通群眾的身上。

結合AI行業發展勢頭看,老周這番豪言確不是一聲空響。

而在360內部,這也並非只是一句口號。

公司內部具體的“三年規劃”,或更加長期的使命願景已經開始落到實處。

比如說,為了推動人工智能大規模落地,360正在開展有關自動化機器人的多項研究,親看中不僅有掃地機器人這種實體的,也有語音語義對話的虛擬機器人。

比如說,在院長鄧亞峰所預測的“基於自監督預訓練的跨模態統一框架”的技術趨勢下,他們在視覺理解、自然語言處理、知識圖譜、語音語義對話、機器人運動領域等涵蓋了人工智能主流應用和深度學習核心技術領域不斷進行新的探索,持續拓寬跨模態表示、自監督預訓練等研究的技術邊界,並落地在互聯網信息分發、智慧生活以及數字安全等業務上。

對於360的技術人員來說,他們對“上山下海”的理解非常簡單:就是不僅要研發業界一流的技術,還要落地產業價值。

跳出公司本身,從更宏觀視角來看數字安全領域頭部大廠“上山下海”,這並不止為AI賦能百業,尤其給關鍵國民領域數字化保駕護航,其獨立自主的開發流程和創新的勇氣,也為AI產業提供了更多技術延伸和發展範式。

360,已經在通往未來的路上了。

(0)
上一篇 2022-01-24 16:59
下一篇 2022-01-24 16:59

相关推荐