本刊訊 人類對人工智能的想象和探索,從未止步。
隨著數(shù)據(jù)、算法、算力能力提升,人工智能的應(yīng)用場景深入到生活的方方面面。我們在搜索引擎上輸入關(guān)鍵詞后,網(wǎng)頁會自動匹配相關(guān)搜索內(nèi)容;短視頻App能根據(jù)我們的瀏覽習(xí)慣,推送相似的博主和場景;對著智能手機等移動終端喊話,便能調(diào)用相關(guān)功能,實現(xiàn)人機交互。
以人工智能為代表的數(shù)字化產(chǎn)業(yè)快速向前推進,產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型也成為不可逆的趨勢,各行各業(yè)都在尋求與自身商業(yè)模式相匹配的AI大腦。AI決策能力,正是AI大腦的內(nèi)核,它決定了AI解決方案的效率和可執(zhí)行性。
AI決策由模型性能決定,而模型性能的好壞,離不開人工智能三駕馬車的拉動——數(shù)據(jù)、算法、算力。其中,數(shù)據(jù)在模型搭建過程中起基礎(chǔ)性作用,一個模型的優(yōu)劣,百分之八十取決于數(shù)據(jù)和樣本的維度,正如巧婦難為無米之炊。
因此,數(shù)據(jù)提升對于模型優(yōu)化有著基礎(chǔ)性、全局性的作用,而數(shù)據(jù)與模型也是AI系統(tǒng)的重要組成部分。目前,AI模型開發(fā)及應(yīng)用難點,主要在于數(shù)據(jù)應(yīng)用和算法創(chuàng)新上,其中,后者更多體現(xiàn)的是建模方法的適當性。
數(shù)據(jù)應(yīng)用維度不足。從AI決策的模型發(fā)展現(xiàn)狀來看,當前很多模型僅僅是基于二維的數(shù)據(jù)組織形式來構(gòu)建,沒有考慮到數(shù)據(jù)在完整周期中的時間節(jié)點變化。最終容易導(dǎo)致模型的辨識度、準確度、穩(wěn)定性失衡,AI決策效果大打折扣。
例如,在視頻推薦和電商推薦場景中,如果模型僅是在用戶賬戶、行為屬性、社交記錄、交易結(jié)果等標準數(shù)據(jù)集上構(gòu)建和優(yōu)化,沒有納入用戶在決策過程中的重要時間節(jié)點下的行為表現(xiàn),可能就會使模型效果過于擬合,不能夠精準地預(yù)判用戶喜好以及交易風險控制。
一般來講,二維數(shù)據(jù)的維度主要表現(xiàn)為樣本維度和特征維度。樣本維度常常為用戶ID信息或者是訂單編號,特征維度則為用戶人口屬性、行為屬性、外部資信等信息。二維數(shù)據(jù)模式下,用戶在每個時間點只對應(yīng)一條變量。
回到實際業(yè)務(wù)場景,用戶在不同的時間節(jié)點會呈現(xiàn)不同的行為表現(xiàn),盡管這些表現(xiàn)強度存在差異化,但最終會反饋到行為特征上。如果把不同時間節(jié)點的用戶特征行為差異,盡可能納入建模過程,那么原有的一對一二維數(shù)據(jù)就延展至一對多的時間序列形式,也就是說把數(shù)據(jù)應(yīng)用升維到樣本維度、時間維度、特征維度的三維數(shù)據(jù)組織形式。
三維數(shù)據(jù)不僅能降低數(shù)據(jù)集特征不足的影響,而且能最大程度挖掘數(shù)據(jù)價值,增加特征數(shù)量,提升模型準確性。尤其是在業(yè)務(wù)數(shù)據(jù)獲取時,外部資信等數(shù)據(jù)往往會遇到接入不確定因素,而內(nèi)部數(shù)據(jù)數(shù)量和類型有限,并且利用程度趨于飽和。
但對于模型開發(fā)而言,更高的精準度和辨識度,要求引入更多維度的數(shù)據(jù),挖掘數(shù)據(jù)規(guī)律,生成更多衍生變量。一旦無法從數(shù)量維度獲取更多變量,那么只能從質(zhì)量角度下功夫,向深度挖掘變量內(nèi)部信息,其中一對多的時間序列角度的升維就是深挖數(shù)據(jù)信息的方法之一。
其實,數(shù)據(jù)升維可用于AI模型優(yōu)化的場景非常多,例如在股票、基金的智能投顧業(yè)務(wù)中,AI模型的數(shù)據(jù)應(yīng)用加入時間維度,與樣本維度和個股、個基一起構(gòu)成三維樣本,便能把節(jié)點變量考慮在內(nèi),更加精準預(yù)判未來走勢。
要想通過高維時序數(shù)據(jù)實現(xiàn)模型優(yōu)化,僅停留在數(shù)據(jù)層面遠遠不夠,還需對算法提升。決定模型好壞的剩下20%,正是建模方法的選擇,而與高維時序數(shù)據(jù)處理相匹配的算法通常為基于神經(jīng)網(wǎng)絡(luò)算法的深度學(xué)習(xí)。
以薩摩耶云為例,薩摩耶云基于深度學(xué)習(xí)框架,探索數(shù)據(jù)升維用于模型性能的提升,研發(fā)出適用于多行業(yè)和場景的AI解決方案,滿足企業(yè)高效智能決策的需求。同時,這些端到端的云原生科技解決方案,以SaaS+aPaaS形式提供交付,通過雙方系統(tǒng)對接實現(xiàn)信息實時交互,能為合作伙伴輸出基于云的智能決策服務(wù)。
在薩摩耶云首席科學(xué)家王明明看來,更高維度的時序數(shù)據(jù)建模意味著對現(xiàn)有的業(yè)務(wù)數(shù)據(jù)的重新理解、更多的數(shù)據(jù)信息、更復(fù)雜的數(shù)據(jù)組織方式、更高的機器性能要求、存儲要求以及模型上線要求。以高維時序數(shù)據(jù)為基礎(chǔ),施以神經(jīng)網(wǎng)絡(luò)來訓(xùn)練,加工多維變量特征,最終建立并優(yōu)化模型的AI決策能力。
具體來看,作為機器學(xué)習(xí)的重要分支,神經(jīng)網(wǎng)絡(luò)是從數(shù)據(jù)中學(xué)習(xí)表示的一種新的方法,強調(diào)從連續(xù)地層中進行學(xué)習(xí)。在神經(jīng)網(wǎng)絡(luò)算法驅(qū)動下,模型可在同一時間共同學(xué)習(xí)所有表示層,可能包含數(shù)十個甚至上百個連續(xù)層,而其他機器學(xué)習(xí)方法往往僅僅學(xué)習(xí)一兩層的數(shù)據(jù)表示。
神經(jīng)網(wǎng)絡(luò)在高維時序數(shù)據(jù)學(xué)習(xí)中,一方面通過漸進的、逐層式的方式形成越來越復(fù)雜的表示;另一方面,對漸進的表示共同進行學(xué)習(xí),每一層的變化都需要同時考慮上下兩層的需要。這意味著,循環(huán)神經(jīng)網(wǎng)絡(luò)引入狀態(tài)變量時,能保存每個時刻的信息,并且與當前的輸入共同決定此刻的輸出。
從薩摩耶云的AI決策實踐來看,薩摩耶云在模型搭建過程中,不僅考慮了以往的樣本維度和特征維度,還把各時間節(jié)點的用戶特征差異納入考量,通過三維數(shù)據(jù)加工完善數(shù)據(jù)特征。在此基礎(chǔ)上,薩摩耶云利用神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí),建立和訓(xùn)練模型,實現(xiàn)比常規(guī)模型更為高效的模型效果。
這對于提升模型的預(yù)判能力和精準度至關(guān)重要。就像閱讀一段新聞,如果僅僅從每一個字、每一個詞組來理解,很容易斷章取義,無法真正明白新聞所指。但把新聞構(gòu)成中的字詞句連貫起來,并置于各個背景節(jié)點中,就可以理解新聞的準確意思。
當薩摩耶云把基于神經(jīng)網(wǎng)絡(luò)等技術(shù)的AI模型,應(yīng)用于實際業(yè)務(wù)場景之中,能進一步放大數(shù)據(jù)價值,幫助企業(yè)增強預(yù)測分析能力,提升精準營銷、銷售管理、供應(yīng)鏈協(xié)作、結(jié)果預(yù)測、風險控制的效率,進而實現(xiàn)從經(jīng)驗決策到智能決策,達到降本增效的效果。
實驗數(shù)據(jù)也表明,用神經(jīng)網(wǎng)絡(luò)的時間序列來做變量衍生,可以產(chǎn)生較為顯著的變量增益效果,衍生變量可以直接用于其他傳統(tǒng)方式的建模環(huán)節(jié),同時也可擴充內(nèi)部的衍生變量空間。當原始特征的區(qū)分能力得到提升,模型的區(qū)分效果也得到增強,最終強化AI模型性能。
作為領(lǐng)先的獨立云服務(wù)科技解決方案供應(yīng)商,薩摩耶云立足場景需求,深耕AI決策智能賽道,不斷升級大數(shù)據(jù)、算法、模型策略和產(chǎn)品設(shè)計,為數(shù)字經(jīng)濟和企業(yè)數(shù)字化轉(zhuǎn)型提供技術(shù)支撐。在此過程中,薩摩耶云不僅強化了自身核心自主競爭力,而且著眼數(shù)字中國全景,源源不斷釋放科技賦能的價值。(山河)