距離 2017 年雙十一還有一個多星期的時候,螞蟻金服技術副總裁胡喜就有預感,今年團隊需要承擔的壓力可能沒有從前那麼「嚇人」瞭。
事實上,支付環境並沒有變,甚至「每年的支付壓力都比前一年更大「。今年,在時間進入 11 月 11 日凌晨的第 11 秒,天貓雙十一的成交額就超過瞭 1 億元。交易峰值達到瞭每秒 32.5 萬筆。
而 13 個小時後,交易額已經達到瞭 1207 億元,超過瞭去年全天的數據。
對於外部來說,人們更容易直觀感受到的是雙十一的交易額和數字,但對支付系統本身來說,滿足每年 11 月 11 日零點剛到就瘋狂湧來的支付需求,無疑於應對一場兇猛的洪水。這背後是對系統技術架構承受峰值能力的考驗——這對螞蟻金服的技術團隊來說一直是個巨大的挑戰,也是團隊一直在努力解決的核心問題。
每一年,如何抗住這關鍵的一秒,像是一個難度不斷升級的遊戲,螞蟻金服的技術團隊需要做的是不斷提升技術挑戰看上去「不可能」的奇跡。不過如今,從 2009 年開始的雙十一迎來第九個年頭的時候,胡喜很有自信的認為,在整個團隊的工作比重中,雙十一有可能漸漸會成為重量級和難度沒那麼高的「日常任務」。
那麼,這背後發生瞭什麼?
「未問先答」的智能客服
負責「買買買」的消費者可能沒有感知,但支付寶的客服團隊在過去幾年需要承受的壓力是很難被想象的。特別是在流量爆棚的雙十一期間,負責解疑答惑的電話客服每天工作的時間和強度都超過負荷。
一個有點讓人「心酸」的例子是,早些年客服團隊甚至設立瞭「金膀胱獎」,用於獎勵能夠在崗位上堅持最長時間、服務最多客戶的客服人員。
但每年的壓力都在持續升級,增加越來越多的人手顯然是不可能的。於是從 2014 年開始,支付寶內部的智能客服系統在螞蟻金服內部開始醞釀。
這套系統的核心目標當然是節省人力成本、提高效率。但讓機器做到這一點的前提是深刻的理解用戶的需求——不隻支付寶,這也是智能客服行業共同需要解決的問題。
背後依靠的是算法和對用戶軌跡的分析。從 2015 年開始,支付寶開始從深度學習算法、知識圖譜等方面入手構建這個智能客服機器人。從最基礎的功能出發,它能像所有客服系統一樣,為線上用戶解答解答「餘額寶是什麼」、「如何開通花唄」等簡單的業務咨詢,即便這些詢問有時會十分模糊,這套系統也可以通過多輪對話解決個性化需求;而與此同時,這個智能客服系統還可以通過用戶的行為軌跡、個性化向推斷和猜測,通過語音的方式,在用戶打來的求助電話裡「未問先答」,提供服務。
比如,當一位用戶希望瞭解「花唄」還款規則的用戶,在打來電話的那一刻,系統已經根據他在支付寶操作、點擊過的軌跡和曾經詢問過的問題等信息推斷出瞭他的疑惑,甚至會在用戶開口前判斷「你是否想詢問花唄還款的問題?」
「很多時候我們客服的角色是相對滯後的,要等用戶找上門來提出問題,甚至反復不斷提出要求才能夠回應,我們認為極致服務應該沒有這樣的服務,而是把事情做到事前。」螞蟻金服智能客服技術負責人子孟告訴極客公園。
技術的大規模應用肯定能帶來效率的提升和成本的下降。子孟表示,目前每天有大概 50% 的問題可以通過「未問先答」的第一個場景「猜你問題」識別並且解決。而在這套系統的幫助下,2016 年的雙十一,支付寶智能客服的自助率達到 97%;雖然雙十一的成交額每年都在翻新,但螞蟻金服的客服數量並沒有很大的增加。
而這套智能客服系統是否會最終取代人工客服的工作,讓人類「失業」,似乎也是一個合理的問題。但子孟表示,這套智能客服系統想做到的是「機器智能」,而不是人工智能:
」客服系統以前做的快捷的應答,目標都是怎樣像人一樣更好的做回答都還是在模擬人來做服務,但是機器可以做到不像人的服務,比如預判你的問題。" 從這個層面上來說,螞蟻金服的智能客服系統對於「輔助」人類的意義,可能要大於「替代」人類。
爭奪關鍵的「一秒鐘」
更加智能的客服系統隻是第一步,螞蟻金服需要應對的更大難題在於,如何在雙十一「零點整」承接住突然湧來的支付需求。
你很難想象為瞭這「一秒鐘」的沖刺,技術團隊要做什麼樣的準備:「以前的雙 11,技術保障團隊差不多三四百人,好多人是從年初就開始準備,放下手頭很多事支持雙十一,每個雙十一之後大傢都非常累。」
背後最重要的是如何抗住巨大流量下的計算需求。在雙十一最開始的 2010 年,團隊的狀態是手忙腳亂的,最開始支撐支付寶計算體系的是「人肉雲計算」,每個工程師需要時刻關註著自己服務器的系統水位,「誰出現問題就吼一嗓子,哪裡有空閑的資源趕緊調過來,後來容量不夠,就把一些不夠關鍵的系統殺掉。」胡喜表示。
到瞭 2013 年,螞蟻金服終於完全啟用雲計算,2016 年又調整為彈性構架,百分之 50% 的計算資源放在自有機器上,50% 交給雲處理。
但這背後依舊存在一個問題,每年雙十一帶來的流量比日常峰值高幾十倍,為瞭雙十一的峰值需求,需要大量采購機器,但雙十一過去,這些機器就被閑置瞭。更可怕的是,這也是一種高度集中的架構。所有核心賬目都存在某處,一旦發生故障,帶來的損失巨大。
(每年雙十一前夕,螞蟻金服的工程師團隊會緊張的「拜關公」)
到今年,螞蟻金服開始嘗試用離在線混部的方式解決這個問題。這種技術的核心優勢是在需求集中爆發時最高效的分散和調動所有計算資源。
胡喜用貨運的例子做比喻:「假如說我做一個貨運公司,我要把貨從杭州運到上海,傢裡有 10 臺車。突然雙 11 要運的貨變多,10 臺車不夠,原來的解決方法是買更多的車,但現在我們不僅可以借車(比如從阿裡雲借資源),還可以讓傢裡的客車、轎車一起運,背後需要做的是把整個送貨系統部署的標準化一點,那麼就可以讓貨物不依賴車型送到上海瞭。」
依靠離在線混部這種分佈式架構,可以對計算資源進行精準的上層容量調度,迅速把合適的需求分配給合適的資源,讓性能較差的離線機房也把它們的能力貢獻出來。「我們今年準備瞭讓 25% 的資源讓自有機器處理,55% 放在雲上,20% 利用離線資源。」胡喜表示,「到明年,我們希望幾乎是所有離線資源和在線資源融合在一起使用。」
實際上,這樣「跑」出來的系統容量是更充盈的,自然也給系統更多的自信處理支付相關問題。比如金融風控方面,最早偏向規則構架,現在開始像人工智能方向轉型,需要的就是更充沛的計算資源。目前,這套智能實時風險監控系可以實現分佈式金融交易之外的金融級實時決策的能力。消費者最熟悉的運費險及其定價方式就是這套系統實時運算給出的結果。
以上種種技術的突破,能夠承載的可能不隻是消費者雙十一零點「那一秒」釋放出的奇跡能量,長遠來看,它們或許會成為一個更強大的商業生態體系的基礎。
但最直接的效率體現在瞭今年的雙十一裡:「以前雙十一,工程師們必須喝紅牛過。以後希望喝著紅酒、喝著茶也能過。這一直是我們期望的理想狀態。」
(編輯:王偉;圖片來源:螞蟻金服、視覺中國)