圖計(jì)算是理解世界的新方式
作者 | 陳文光
文章來(lái)源 | 螞蟻技術(shù)AntTech
導(dǎo)讀:哪種技術(shù)可以更精準(zhǔn)建模人腦?近日,螞蟻圖計(jì)算技術(shù)負(fù)責(zé)人陳文光博士受邀參加了2022極客公園創(chuàng)新大會(huì)并發(fā)表主旨演講。陳文光認(rèn)為,圖計(jì)算以其豐富的表達(dá)能力,為處理復(fù)雜關(guān)系提供了一種全新的建模方式,也為更深刻地理解世界提供了一種有效工具。
以下為陳文光分享內(nèi)容。
1.什么是圖
我們今天介紹的圖計(jì)算,它既不是圖像的圖,也不是圖形的圖,它是數(shù)學(xué)中的一個(gè)門(mén)類(lèi)叫做圖論,圖計(jì)算是圖論的圖。我們?cè)谄聊簧峡梢钥吹阶笥矣袃蓚€(gè)圖,它表示的是事物和它們的關(guān)系。我們用一種形式把它抽象出來(lái),把這樣的一種形式叫做圖。
左邊這個(gè)例子,我們把它叫做一種簡(jiǎn)單的直接套現(xiàn)模式。一個(gè)人辦了一張信用卡,他其實(shí)不是真的想去還款,他找了一個(gè)商店,這個(gè)商店提供一個(gè)非法的服務(wù)就是信用卡套現(xiàn)。那么他通過(guò)信用卡付款,把錢(qián)轉(zhuǎn)到這個(gè)商店里面,這個(gè)圖上面顯示的是2020元錢(qián),他把錢(qián)給到這個(gè)商店。這個(gè)商店直接就把其中的2000元錢(qián)返回給付款的人,就完成了一次套現(xiàn)。這樣的一種套現(xiàn)是非常簡(jiǎn)單的,我們可以對(duì)這個(gè)個(gè)體,對(duì)這個(gè)商店的收款記錄和付款記錄做分析,就可以識(shí)別出套現(xiàn)行為。
但右邊這張圖就復(fù)雜了很多。我們可以看到,右上角的這個(gè)人,他還是通過(guò)信用卡付款,付了2020元錢(qián)給了商店。這個(gè)時(shí)候,商店沒(méi)有直接把錢(qián)退給付款的人,他是由一個(gè)個(gè)人付了2000元錢(qián)給到一個(gè)第三人。這個(gè)個(gè)人和商店之間,我們可以通過(guò)一些分析發(fā)現(xiàn),他實(shí)際上擁有這個(gè)商店,所以我們把這種關(guān)系叫做同人關(guān)系。就是店和人雖然看起來(lái)是不同的實(shí)體,但其實(shí)他們之間有一個(gè)非常強(qiáng)的關(guān)聯(lián)。那么他付款給的第三人也不是最開(kāi)始刷卡的人,而是刷卡人的一個(gè)親友,店主付款到了刷卡人親友的銀行卡上。那這樣的一個(gè)套現(xiàn)模式就比左邊的復(fù)雜很多了。我們把這種模式叫做多跳閉環(huán)模式。
要分析這種多跳閉環(huán)模式,就需要復(fù)雜的關(guān)聯(lián)關(guān)系,而不能只對(duì)這個(gè)個(gè)體進(jìn)行分析。但是大家可能會(huì)說(shuō),你畫(huà)的這張圖很簡(jiǎn)單呀,我一眼就能看出來(lái),這有一個(gè)環(huán),這個(gè)壞人我很快就能抓住。
那我們來(lái)看看下面的圖。下面的圖中因?yàn)橛泻芏嗥渌灰缀完P(guān)系,就沒(méi)那么容易看出來(lái)了。我剛才講到,右邊這張圖可能會(huì)有千億條甚至萬(wàn)億條邊,怎么很快地在這個(gè)圖上把環(huán)找出來(lái),這就對(duì)整個(gè)分析技術(shù),復(fù)雜的關(guān)聯(lián)分析技術(shù)提出了非常高的要求,性能成為了關(guān)鍵。
如果我們用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)的方法去分析的話,那就可能非常非常慢。而圖計(jì)算技術(shù)恰恰就是處理這種大規(guī)模圖上復(fù)雜關(guān)聯(lián)關(guān)系的非常有用的工具,這也就是說(shuō)我們?yōu)槭裁葱枰眠@個(gè)圖計(jì)算技術(shù)。
我們剛才舉的是金融方面的例子,但是圖計(jì)算的用途遠(yuǎn)遠(yuǎn)不限于金融行業(yè)。在互聯(lián)網(wǎng)、工業(yè)領(lǐng)域、醫(yī)藥、公共衛(wèi)生、公共安全等領(lǐng)域都有很多的應(yīng)用。
舉一個(gè)互聯(lián)網(wǎng)的例子,大家每天都會(huì)用搜索引擎,大家知道Google最開(kāi)始做搜索引擎的時(shí)候,它是怎么和其它搜索引擎產(chǎn)生區(qū)別的嗎?為什么它的搜索質(zhì)量更好呢?它其實(shí)主要做了一件事情,叫做網(wǎng)頁(yè)排序。Google的兩個(gè)創(chuàng)始人提出了一個(gè)算法,叫做PageRank。這個(gè)算法的核心就是把互聯(lián)網(wǎng)上每一個(gè)網(wǎng)頁(yè)抽象成一個(gè)點(diǎn)。然后網(wǎng)頁(yè)上很多超鏈接又鏈接到其他的網(wǎng)頁(yè),就構(gòu)成了這個(gè)點(diǎn)上的邊。在這樣一個(gè)大圖上面,有這些點(diǎn)和他們之間的邊的關(guān)系的時(shí)候,我們?nèi)绾未_定哪些網(wǎng)頁(yè)是比另外一些網(wǎng)頁(yè)重要,大家可以想象,這也是個(gè)非常非常大的圖。
另外比如說(shuō)公共安全,公共衛(wèi)生方面,大家可能最近都有感同身受就是有一個(gè)詞叫做“時(shí)空伴隨者”,其實(shí)刻畫(huà)的就是我們兩個(gè)人或者一些人在同一段時(shí)間內(nèi),在一個(gè)空間里面,發(fā)生了這樣的一些交互,那么這也是圖計(jì)算可以有用武之地的地方。
3.圖計(jì)算為理解世界提供了有效工具
圖其實(shí)是多才多藝的,它在非常多的領(lǐng)域都可以有應(yīng)用。因?yàn)樗菍?duì)復(fù)雜關(guān)系的一種新的建模方式,為更深刻地理解這個(gè)世界提供了一種有效的工具。
像社交網(wǎng)絡(luò)、電網(wǎng),大家可能都已經(jīng)習(xí)以為常了,大家可能注意到我把大腦放到了這張屏幕上,其實(shí)大腦也可以用圖的模式來(lái)進(jìn)行建模。
我們建模大腦的時(shí)候,用神經(jīng)元作為圖上的點(diǎn)。而神經(jīng)元之間是靠的是突觸來(lái)連接,也就是說(shuō),我們可以把大腦也抽象為一個(gè)由很多的點(diǎn)和很多的邊組成的一個(gè)巨大的圖,大家可以想象一下這個(gè)大腦的圖有多大嗎?
我們大概有一百億的神經(jīng)元,然后每個(gè)神經(jīng)元的連接,就是這個(gè)突觸數(shù)大概是1000-10000。所以大家可以想象,我們大概會(huì)有十萬(wàn)億到一百萬(wàn)億的邊這么大的圖。我們用圖來(lái)建模世界,在大腦里面把世界建模成一個(gè)圖,然后大腦本身也可以建模成一個(gè)圖,大家覺(jué)得是不是一個(gè)非常有趣的一種巧合呢。
4.現(xiàn)在布局高性能圖計(jì)算恰逢其時(shí)
我們剛才介紹了圖計(jì)算的各種用處,它可以用來(lái)建模世界,非常的有趣。那現(xiàn)在我們的圖計(jì)算,我們真正的分析工具發(fā)展到了什么樣的階段呢?
國(guó)際知名咨詢(xún)公司Gartner,每年都會(huì)發(fā)布各種技術(shù)趨勢(shì)的報(bào)告。在2021年的數(shù)據(jù)與分析的這個(gè)趨勢(shì)報(bào)告中,Gartner提到了“Graph relates everything”。我覺(jué)得這是一個(gè)非常有趣的雙關(guān)。就是圖連接萬(wàn)物,一方面表示了圖的本質(zhì),就是把各種東西都連起來(lái),另外也表達(dá)了圖會(huì)在數(shù)據(jù)分析的各個(gè)領(lǐng)域得到廣泛應(yīng)用。
下面這張圖底下是一個(gè)數(shù)據(jù)庫(kù)門(mén)戶(hù)網(wǎng)站,叫做db-engines,它會(huì)收集各種各樣的數(shù)據(jù)庫(kù)信息。然后中間這張圖,叫做數(shù)據(jù)庫(kù)的熱度信息,它會(huì)看各種類(lèi)型的數(shù)據(jù)庫(kù)在媒體上、網(wǎng)頁(yè)上出現(xiàn)的次數(shù),把這個(gè)東西統(tǒng)計(jì)出來(lái),作為熱度。我們可以看到最高的曲線就是圖數(shù)據(jù)庫(kù)的。也就是說(shuō),在過(guò)去八年間(2013-2021),這個(gè)圖數(shù)據(jù)庫(kù)的增長(zhǎng)曲線是遠(yuǎn)遠(yuǎn)高于其他品類(lèi)數(shù)據(jù)庫(kù)的。圖數(shù)據(jù)庫(kù)的應(yīng)用主要是面向企業(yè)的,比如大的公司、政府等。在這些人的關(guān)注中,圖數(shù)據(jù)庫(kù)其實(shí)已經(jīng)是一個(gè)非常有熱度的,非常受關(guān)注的一個(gè)領(lǐng)域了。
中國(guó)工程院院士、清華大學(xué)計(jì)算機(jī)系鄭緯民教授,今年在人民日?qǐng)?bào)上發(fā)表了一篇文章,其中提到布局圖計(jì)算技術(shù)恰逢其時(shí)。抓住了圖計(jì)算技術(shù),就抓住了人工智能,大數(shù)據(jù)和高性能計(jì)算產(chǎn)業(yè)的牛鼻子,這個(gè)影響是不可低估的。
5.螞蟻圖計(jì)算技術(shù)保持多項(xiàng)世界紀(jì)錄
大家可能也會(huì)關(guān)心目前整個(gè)世界圖計(jì)算發(fā)展水平是什么樣的。我們國(guó)家的發(fā)展水平是什么樣的。這會(huì)不會(huì)是我們又一個(gè)被“卡脖子”的地方。我非常高興地跟大家分享,螞蟻集團(tuán)圖相關(guān)技術(shù)為代表的中國(guó)圖計(jì)算技術(shù),在全世界圖計(jì)算技術(shù)中,不僅僅技術(shù)上領(lǐng)先,在應(yīng)用上也是非常領(lǐng)先的,這是一個(gè)非常好的事情。
剛才我們提到分析欺詐這個(gè)事情,從個(gè)體的分析要變成復(fù)雜的關(guān)聯(lián)分析,實(shí)際上我們還發(fā)現(xiàn)了一些其他的趨勢(shì)。比如說(shuō),欺詐行為在過(guò)去很多時(shí)候是一種個(gè)體的欺詐,就是一些壞人個(gè)體在做這個(gè)事情,但是現(xiàn)在日益的演化成為了有組織的團(tuán)伙欺詐的行為。
要有效地分析這樣的欺詐行為,實(shí)際上對(duì)抗的工具也需要升級(jí)。從簡(jiǎn)單的靜態(tài)分析到能夠動(dòng)態(tài)分析。當(dāng)信息不斷在變的時(shí)候,不停地有新的交易來(lái)的時(shí)候,我們能夠在變化的數(shù)據(jù)中快速得出結(jié)果。另外,我們可能希望從事后的檢查發(fā)展到預(yù)測(cè)這樣的水平,也就是說(shuō),當(dāng)欺詐或者一個(gè)壞的行為還沒(méi)有發(fā)生的時(shí)候,我們就把黑名單識(shí)別出來(lái),不讓壞事發(fā)生。
螞蟻集團(tuán)有非常大的圖規(guī)模,我們處理的最大的圖邊數(shù)可能達(dá)到千億,甚至萬(wàn)億,這在業(yè)界是非常非常大的規(guī)模,而且真正在線上使用的,我們是世界上非常領(lǐng)先的。
更挑戰(zhàn)的是,這樣規(guī)模的圖,它還在非常高速地變化,吞吐率可能達(dá)到每秒鐘100萬(wàn)次。也就是萬(wàn)億條邊的圖,每秒鐘可能要改100萬(wàn)次。這樣巨大且飛速變化的圖面前,我們對(duì)查詢(xún)的延遲要求還很高。因?yàn)榇蠹抑Ц稌r(shí),肯定希望馬上就成功。不希望后臺(tái)因?yàn)橐治鲞@筆交易是不是合法,為了要抓壞人,讓我們好人的交易也受到很大的延遲。所以留給我們分析的時(shí)間很短。雖然我們要在這么大的、變化這么快的圖上做復(fù)雜的算法,但留給我們的時(shí)間仍然是非常非常短的,這樣是為了更好的用戶(hù)體驗(yàn)。
所有這些東西合起來(lái)以后,對(duì)我們整體的圖計(jì)算技術(shù)提出了非常非常高的要求。在螞蟻圖團(tuán)隊(duì)的努力下,我們還是非常盡量去滿(mǎn)足各種業(yè)務(wù)要求。我們提出了一種全棧的技術(shù)解決方案TuGraph,目前在螞蟻已經(jīng)部署了非常多的集群,在部署規(guī)模上也處于世界領(lǐng)先水平。
螞蟻圖計(jì)算技術(shù)在國(guó)際標(biāo)準(zhǔn)的圖數(shù)據(jù)庫(kù)LDBC-SNB測(cè)試上,是冠軍保持者,在國(guó)際上處于領(lǐng)先。這個(gè)測(cè)試由一個(gè)國(guó)際委員會(huì)提出測(cè)試標(biāo)準(zhǔn),由他們委托第三方公司來(lái)執(zhí)行測(cè)試,所以這個(gè)測(cè)試是非常標(biāo)準(zhǔn)化的,非??尚诺摹D敲次覀儽鹊诙I(lǐng)先了多少呢?我們是第二名成績(jī)的7.6倍,就是跑同樣多的事情我們可以比他快差不多7倍。我們有信心地說(shuō),我們的技術(shù)上是世界領(lǐng)先的,這也是重要的原因。這個(gè)成果也獲得了2021“世界互聯(lián)網(wǎng)領(lǐng)先科技成果”獎(jiǎng),這個(gè)獎(jiǎng)項(xiàng)全國(guó)每年只有約十項(xiàng),是非常難得的一個(gè)事情。并且這個(gè)成果是由一個(gè)國(guó)際專(zhuān)家委員會(huì)評(píng)出,就表明我們這個(gè)系統(tǒng)它不僅在評(píng)測(cè)上獲得了很好的成績(jī),實(shí)際上也獲得了業(yè)界,包括學(xué)術(shù)界專(zhuān)家的一個(gè)認(rèn)可。
6.圖計(jì)算未來(lái)發(fā)展方向:標(biāo)準(zhǔn)化、更高性能、圖智能
我們都知道技術(shù)其實(shí)是持續(xù)發(fā)展的,圖計(jì)算相關(guān)技術(shù)實(shí)際上還有很大發(fā)展空間。如果和成熟的關(guān)系數(shù)據(jù)庫(kù)等等相比,它還在很早期的一個(gè)階段。我認(rèn)為未來(lái)有三個(gè)重要的發(fā)展方向。
第一個(gè)是標(biāo)準(zhǔn)化?,F(xiàn)在不同的圖計(jì)算系統(tǒng)廠商都會(huì)提供自己的編程接口給用戶(hù),這個(gè)在初期是難以避免的。但這會(huì)造成使用了一個(gè)圖計(jì)算系統(tǒng)的用戶(hù),很難遷移到另外一個(gè)系統(tǒng)上去。這個(gè)不標(biāo)準(zhǔn)化的事情,對(duì)整個(gè)產(chǎn)業(yè)的發(fā)展實(shí)際上是目前比較大的瓶頸之一。我們也非常積極地參與推動(dòng)國(guó)際標(biāo)準(zhǔn)化組織(ISO)對(duì)圖的查詢(xún)語(yǔ)言GQL的標(biāo)準(zhǔn)化工作,并提出了一些相關(guān)提案。
第二個(gè)是性能。我們剛才提到,其實(shí)在很多的業(yè)務(wù)場(chǎng)景里面,對(duì)數(shù)據(jù)庫(kù),對(duì)圖計(jì)算相關(guān)性能要求非常高。而現(xiàn)有的系統(tǒng)我們雖然取得了一定的成果,但是離真正的用戶(hù)需求,比如說(shuō),我們可能希望在異常復(fù)雜的查詢(xún)上仍然能夠非??斓胤祷亟Y(jié)果,這個(gè)其實(shí)目前是做不到的。目前相對(duì)來(lái)說(shuō)還處于比較簡(jiǎn)單的查詢(xún)可以很快返回的階段。然后對(duì)于相對(duì)復(fù)雜的查詢(xún),當(dāng)前采用的是一種叫做近線的方式,不是馬上返回,而是延遲一段時(shí)間返回,可能沒(méi)有辦法實(shí)時(shí)阻止一筆壞的交易,要壞交易發(fā)生了一段時(shí)間以后才發(fā)現(xiàn),再想辦法去阻止。所以我們希望圖計(jì)算性能上進(jìn)一步提高。
第三個(gè)就是,圖是一種關(guān)聯(lián)描述世界的方式。今天其實(shí)有很多相關(guān)智能的討論,人工智能顯然也是目前非常非常重要的方向,那么圖和人工智能的結(jié)合,比如大家可能聽(tīng)說(shuō)過(guò)圖神經(jīng)網(wǎng)絡(luò),這種形式我覺(jué)得也是圖計(jì)算日后發(fā)展的非常重要的趨勢(shì)。
結(jié)語(yǔ):技術(shù)推動(dòng)世界變化,要敢于從基礎(chǔ)層面來(lái)突破
最后我就稍微分享我對(duì)技術(shù)研發(fā)的一點(diǎn)點(diǎn)感悟。從我2011年開(kāi)始做圖計(jì)算,到現(xiàn)在已經(jīng)有十年的時(shí)間了。我的感覺(jué)是說(shuō)技術(shù)如果真正的想要去推動(dòng)世界的變化,去推動(dòng)世界的進(jìn)步,一定要敢于從基礎(chǔ)的層面來(lái)進(jìn)行突破,然后在實(shí)際場(chǎng)景的應(yīng)用中進(jìn)行不斷地錘煉,這樣才能做到世界領(lǐng)先,而且我們要的不僅僅是技術(shù)領(lǐng)先,應(yīng)用也要領(lǐng)先。我覺(jué)得非常高興的是,中國(guó)的產(chǎn)業(yè)界目前已經(jīng)完全能夠提供這樣的可能性,提供了這樣的機(jī)會(huì)。我也非常期待能夠看到有更多的好技術(shù)來(lái)推動(dòng)世界的變化,推動(dòng)世界的進(jìn)步。