⑴ 全球十大數字創新技術出爐
點擊藍字
科技 創新世界潮。
全文共計2520字,預計閱讀時間7分鍾
來源 | 數據觀綜合(轉載請註明來源)
編輯 | 蒲蒲
「
日前,聯合國教科文組織2021年 Netexplo 創新論壇在網上舉行。由技術領域全球知名大學組成的 Netexplo 大學網路歷時一年,在全球范圍內遴選出了10項極具突破性的數字創新技術,這些創新對 社會 具有深遠而持久的影響。
」
阿根廷交易平台Abakus
受疫情影響,阿根廷經濟遭受重創,也使該國農業部門的動盪加劇。鑒於此,阿根廷初創企業Abakus與瑞士區塊鏈基礎設施提供商CoreLedger推出了一個數字易貨平台,旨在幫助農民克服金融波動帶來的影響,打造數字易貨經濟。
Abakus系統基於一種以實物資產(例如大豆)為索引的加密貨幣,這種貨幣可能比本國不斷波動的貨幣更穩定,而代幣可以兌換成貨物或比索。這兩家公司表示,代幣化農業資產將有助於農民對沖通貨膨脹,並在國內和國際上獲得流動性。
CoreLedger首席執行官Johannes Schweifer表示:「 在一個飽受通貨膨脹困擾的國家,獲得有形資產的能力可能是這些農民生存與發展之間的區別。 」
Abakus首席執行官Martin Furst表示:「 由於國有公司的壟斷地位,阿根廷的農民們難以生存,這些壟斷者決定了農產品貿易的條件並大幅度削減了農產品。農業支持的代幣解決了現金和股票儲蓄計劃固有的波動性和流動性問題。 」
英國人工智慧AlphaFold 2
在國際象棋和圍棋領域取得巨大成功後,去年年底,人工智慧再次大出風頭。在國際蛋白質結構預測賽中,AlphaFold 2摘得桂冠,並破解了一個困擾人類50年的難題:預測蛋白質如何折疊。
據DeepMind官方宣布,該演算法能夠精確地基於氨基酸序列,預測蛋白質的3D結構,其准確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或X射線晶體學等實驗技術解析的3D結構相媲美。
在過去50年中,「蛋白質折疊問題」一直是生物學界的重大挑戰。此前,生物學家主要利用X射線晶體學或冷凍電鏡等實驗技術來破譯蛋白質的三維結構,但這類方法耗時長、成本高。而AlphaFold 2不僅預測准確且效率高,有望促進醫學領域不斷取得進步。
美國圖像生成系統Dall-E
美國人工智慧非營利組織Open AI於今年1月份推出Dall—E,這是一個可以根據書面文字生成圖像的人工智慧系統。取名DALL-E,是為了向藝術家薩爾瓦多-達利(Salvador Dali )和皮克斯的機器人WALL-E致敬。
DALL-E是OpenAI基於GPT-3開發的一種新型神經網路。它是GPT-3的一個小版本,使用了120億個參數,而不是1750億個參數。但它已經經過專門訓練,可以從文本描述生成圖像,使用的是文本-圖像對的數據集,而不是像GPT-3這樣非常廣泛的數據集。它可以使用自然語言從文字說明中創建圖像,就像GPT-3創建網站和故事一樣。
德國文本AI模型GPT-Neo
OpenAI的GPT—3被認為是目前最好的人工智慧文本生成器,其擁有1750億個參數,現已被數萬開發者用於300多個不同的應用程序,每天輸出45億詞之多。
但它是收費的,這阻礙了更多開發人員的採用,也不利於文本AI的快速發展。有鑒於此,德國Eleuther人工智慧公司於今年3月下旬推出開源的文本AI模型GPT—Neo,以彌補這方面的缺憾。研究人員稱,GPT—Neo的推出將會催生出一大批嶄新應用,也會以更為低廉的成本釋放人們對人工智慧未來的想像力。
本質上,GPT-Neo有點像是GPT系列的「高仿」項目:GPT-Neo中的各種模型,設計原理接近GPT系列,但代碼並不一樣。作者們打算嘗試各種結構和注意力類型,最終擴展出GPT-3大小的大語言模型。為了實現這一目標,他們從復現GPT系列的模型開始,不斷嘗試各種模型架構、和各種注意力機制的實現方式。
中國量子計算機「九章」
「九章」是由中國科學技術大學潘建偉、陸朝陽等學者研製的76個光子的量子計算原型機。
實驗顯示,當求解5000萬個樣本的高斯玻色取樣時,「九章」需200秒,而目前世界最快的超級計算機「富岳」需6億年。等效來看,「九章」的計算速度比「懸鈴木」快100億倍,並彌補了「懸鈴木」依賴樣本數量的技術漏洞。
這一成果使得我國成功達到了量子計算研究的第一個里程碑:量子計算優越性(國外也稱之為「量子霸權」),並牢固確立了我國在國際量子計算研究中的第一方陣地位,為未來實現可解決具有重大實用價值問題的規模化量子模擬機奠定了技術基礎。
對於「九章」的突破,《科學》雜志審稿人評價該工作是「一個最先進的實驗」(astate-of-the-artexperiment),「一個重大成就」(a major achievement)。
美國人工智慧「神經破譯」
「神經破譯」是由MIT CSAIL和谷歌大腦的研究者攜手開發的一款人工智慧軟體,基於語言進化原理,可以在不知道語言來源的情況下破譯古代語言,並揭示某種語言和其他語言之間的關聯。
研究者們利用同一語族內不同語言之間的聯系,用該人工智慧破譯了兩種失傳的語言:烏加里特文和線性文字B,堪稱現代版的「羅塞塔石碑」!(PS:羅塞塔石碑是一塊用3種語言寫了同一個內容的石碑,幫助語言學家們讀懂古文字。)
烏加里特文(Ugaritic),是一種楔形文字,屬於閃米特語族。從字面上來看,就知道它是一個叫做烏加里特(Ugarit)的文明使用的語言,這個文明位於當今地中海沿岸的敘利亞,在公元前6000年前後就初現蹤跡,在公元前1190年前後滅亡。
線性文字B(Linear B),由一種人類還沒有破譯出來的線性文字A演化而來,主要存活於公元前1500年到公元前1200年的克里特島和希臘南部,是希臘語的一種古代書寫形式。
未來,在這項研究起作用的情況下,或許可以像藉助羅曼語族三種語言的資料庫一樣,直接用機器藉助其他已知的人類語言,實現暴力破解。
印度區塊鏈應用程序Smashboard
Smashboard網站稱自己是一個「另類的社交媒體網路,為性侵受害者提供獨特的功能,目的是通過減少報案帶來的心理創傷,讓他們的生活更輕松」。
藉助區塊鏈技術,Smashboard允許用戶創建他們所遭受犯罪的私人和加密賬本,並將其安全地存儲在網上。例如,Smashboard為用戶提供了收集材料的選項,「這些材料可作為日記,也可作為加密個人空間中的時間戳證據」。更重要的是,該應用程序允許性虐待受害者找到法律顧問或律師,並與他們私下互動。受害者還可以與女權主義新聞工作者建立聯系,甚至可以給他們匿名舉報。
目前,Smashboard的另一個障礙是應用的覆蓋范圍。該應用程序目前只能使用三種語言-英語,法語和西班牙語。這意味著該應用無法覆蓋使用印度當地語言的性虐待受害者。
澳大利亞人工智慧「蠕蟲大腦驅動器」
研究人員從蠕蟲微小的大腦中獲得靈感,開發出一種能夠控制自動駕駛 汽車 的人工智慧系統「蠕蟲大腦驅動器」。與大多數網路中使用數百萬個神經元相比,該系統只需要幾個神經元。
該系統只用了控制電路中的19個神經元和7.5萬個參數,就成功控制了一輛 汽車 。研究小組相信他們的新方法可減少訓練時間,並使人工智慧在相對簡單的系統中實現成為可能。
⑵ 猴毛分身柏林工業大學研究團隊用一個神經元構建神經網路
《西遊記》中,齊天大聖孫悟空有一個經典技能——「猴毛分身」,即一把猴毛能變出一大群小猴子。
近日,柏林工業大學官網介紹了其研究團隊用一個神經元構建神經「網路」,即一個神經元扮演所有虛擬神經元的角色。
他們稱之為「分布在時間而不是空間上」的一類全新的神經網路。研究人員在計算機上模擬了數千個神經細胞的神經網路,只有一個神經元被編程到軟體代碼中。神經元被激活並延遲讀取,於是可以在幾分之一秒內扮演所有虛擬神經元的角色。
他們期望用這個方法解決目前人工智慧發展過程中面對的兩個硬體挑戰——晶元的算力限制與超級計算機的電力消耗。
人類大腦有約860億個神經元,這些神經元通過突觸連接,並通過電和化學信號傳輸在一個龐大的網路中相互通信。人工神經網路的核心就是通過在各個神經元之間建立不同程度的連接來模擬人腦。
在傳統的人工神經網路中,可以對每個神經元進行加權以微調結果。通常是更多的神經元產生更多的參數,而更多的參數產生更好的結果。以GPT-3為例,GPT-3有1750億個參數,是其前身GPT-2的100倍。
但代價之一就是大量的能量消耗。Carbontracker估計,訓練GPT-3一次所需的電量與丹麥126戶家庭每年使用的電量相同。
據《The Register》報道,在微軟數據中心使用英偉達GPU訓練神經超級網路大約需要19萬千瓦時。按美國的平均碳強度計算,這將產生8.5萬公斤的當量,與一輛新車在歐洲行駛70萬公里產生的量相同,大約是地球和月球之間距離的兩倍。
柏林工業大學的研究團隊希望構建一個使用單個神經元的神經網路來挑戰神經網路越大越好的想法。研究題為《使用單個神經元的深度神經網路:使用反饋調制延遲環的時間折疊架構》(Deep neural networks using a single neuron: folded-in-time architecture using feedback-molated delay loops)登上《Nature》子刊《Communication》。
「我們設計了一種多層前饋DNN完全及時折疊的方法。這種Fit-DNN(時間折疊深度神經網路)方法只需要一個帶有反饋調制延遲環的神經元。通過非線性操作的時間序列化,可以實現任意深度或寬度的DNN。」論文中寫道。
研究團隊發現,他們可以通過隨著時間的推移對相同的神經元進行不同的加權,而不是在空間上散布不同加權的神經元,從而實現類似的功能。這類似於單個客人通過迅速切換座位並說出每個部分來模擬大型餐桌上的對話。
這個「迅速」是接近光速的間隔。該團隊表示,他們的系統理論上可以通過激光在神經元中激發基於時間的反饋迴路來達到接近宇宙極限的速度——以光速或接近光速的神經網路。
「我們現在已經用計算機證明了這在原則上是可行的。基於激光的電路特別適合在硬體中實現,因為它們的速度非常快,時間延遲特別短,」該研究的主要作者Florian Stelzer解釋說。
那麼真正關鍵的問題是,停留在時間循環中的單個神經元是否可以產生與數十億神經元相同的結果。
在初步測試中,研究人員使用新系統執行計算機視覺功能。它能夠從服裝圖片中去除手動添加的噪點,以生成准確的圖像。
隨著進一步的發展,科學家們相信該系統可以擴展,以從時間暫停的神經元中創建「無限數量」的神經元連接。柏林工業大學應用動力系統研究領域負責人Serhiy Yanchuk解釋道,如果兩個神經元的直接相鄰時間延遲進一步縮短,理論上可以創建無限數量的神經元,「這是時間折疊網路的一項全新功能,它實現了從網路中離散的單個節點到某種連續體的過渡。」
校對:施鋆
⑶ NLP基礎知識和綜述
一種流行的自然語言處理庫、自帶語料庫、具有分類,分詞等很多功能,國外使用者居多,類似中文的jieba處理庫
為單詞序列分配概率的模型就叫做語言模型。
通俗來說, 語言模型就是這樣一個模型:對於任意的詞序列,它能夠計算出這個序列是一句話的概率。或者說語言模型能預測單詞序列的下一個詞是什麼。
** n-gram Language Models **
N-gram模型是一種典型的統計語言模型(Language Model,LM),統計語言模型是一個基於概率的判別模型.統計語言模型把語言(詞的序列)看作一個隨機事件,並賦予相應的概率來描述其屬於某種語言集合的可能性。給定一個詞彙集合 V,對於一個由 V 中的詞構成的序列S = ⟨w1, · · · , wT ⟩ ∈ Vn,統計語言模型賦予這個序列一個概率P(S),來衡量S 符合自然語言的語法和語義規則的置信度。用一句簡單的話說,統計語言模型就是計算一個句子的概率大小的這種模型。
n-gram模型可以減輕單詞序列沒有在訓練集中出現過而引起的問題,即數據稀疏問題
n-gram模型問題
對於n-gram模型的問題,這兩頁ppt說的很明白
N-gram模型基於這樣一種假設,當前詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram(N=2)和三元的Tri-Gram(N=3).Bi-Gram所滿足的假設是馬爾科夫假設。
一般常用的N-Gram模型是Bi-Gram和Tri-Gram。分別用公式表示如下:
Bi-Gram:P(T)=p(w1|begin) p(w2|w1) p(w3|w2)***p(wn|wn-1)
Tri-Gram:P(T)=p(w1|begin1,begin2) p(w2|w1,begin1) p(w3|w2w1)***p(wn|wn-1,wn-2)
注意上面概率的計算方法:P(w1|begin)=以w1為開頭的所有句子/句子總數;p(w2|w1)=w1,w2同時出現的次數/w1出現的次數。以此類推。
對於其中每項的計算舉個例子:
由上可見Bi-Gram計算公式中的begin一般都是加個<s>標簽。
N-gram存在的問題:
舉一個小數量的例子進行輔助說明:假設我們有一個語料庫(注意語料庫),如下:
老鼠真討厭,老鼠真丑,你愛老婆,我討厭老鼠。
想要預測「我愛老」這一句話的下一個字。我們分別通過 bigram 和 trigram 進行預測。
1)通過 bigram,便是要對 P(w|老)進行計算,經統計,「老鼠」出現了3次,「老婆」出現了1次,通過最大似然估計可以求得P(鼠|老)=0.75,P(婆|老)=0.25, 因此我們通過 bigram 預測出的整句話為: 我愛老鼠。
2)通過 trigram,便是要對便是要對 P(w|愛老)進行計算,經統計,僅「愛老婆」出現了1次,通過最大似然估計可以求得 P(婆|愛 老)=1,因此我們通過trigram 預測出的整句話為: 我愛老婆。顯然這種方式預測出的結果更加合理。
問題一:隨著 n 的提升,我們擁有了更多的前置信息量,可以更加准確地預測下一個詞。但這也帶來了一個問題,當N過大時很容易出現這樣的狀況:某些n-gram從未出現過, 導致很多預測概率結果為0, 這就是稀疏問題。 實際使用中往往僅使用 bigram 或 trigram 。(這個問題可以通過平滑來緩解參考: https://mp.weixin.qq.com/s/NvwB9H71JUivFyL_Or_ENA )
問題二:同時由於上個稀疏問題還導致N-gram無法獲得上下文的長時依賴。
問題三:n-gram 基於頻次進行統計,沒有足夠的泛化能力。
n-gram總結:統計語言模型就是計算一個句子的概率值大小,整句的概率就是各個詞出現概率的乘積,概率值越大表明該句子越合理。N-gram是典型的統計語言模型,它做出了一種假設,當前詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。它其中存在很多問題,再求每一個詞出現的概率時,隨著N的提升,能夠擁有更多的前置信息量,可以使得當前詞的預測更加准確,但是當N過大時會出現稀疏問題,導致很多詞的概率值為0,為解決這一問題,因此常用的為bigram 或 trigram,這就導致N-gram無法獲得上文的長時依賴。另一方面N-gram 只是基於頻次進行統計,沒有足夠的泛化能力。
神經網路語言模型
2003年 Bengio 提出,神經網路語言模型( neural network language model, NNLM)的思想是提出詞向量的概念,代替 ngram 使用離散變數(高維),採用連續變數(具有一定維度的實數向量)來進行單詞的分布式表示,解決了維度爆炸的問題,同時通過詞向量可獲取詞之間的相似性。
結合下圖可知它所建立的語言模型的任務是根據窗口大小內的上文來預測下一個詞,因此從另一個角度看它就是一個使用神經網路編碼的n-gram模型。
它是一個最簡單的神經網路,僅由四層構成,輸入層、嵌入層、隱藏層、輸出層。(從另一個角度看它就是一個使用神經網路編碼的n-gram模型)
輸入是單詞序列的index序列,例如單詞『這』在字典(大小為∣V∣)中的index是10,單詞『是』的 index 是23,『測』的 index 是65,則句子「這是測試」通過『這是測』預測『試』,窗口大小內上文詞的index序列就是 10, 23, 65。嵌入層(Embedding)是一個大小為∣V∣×K的矩陣(注意:K的大小是自己設定的,這個矩陣相當於隨機初始化的詞向量,會在bp中進行更新,神經網路訓練完成之後這一部分就是詞向量),從中取出第10、23、65行向量拼成3×K的矩陣就是Embedding層的輸出了。隱層接受拼接後的Embedding層輸出作為輸入,以tanh為激活函數,最後送入帶softmax的輸出層,輸出概率,優化的目標是使得待預測詞其所對應的softmax值最大。
缺點:因為這是通過前饋神經網路來訓練語言模型,缺點顯而易見就是其中的參數過多計算量較大,同時softmax那部分計算量也過大。另一方面NNLM直觀上看就是使用神經網路編碼的 n-gram 模型,也無法解決長期依賴的問題。
RNNLM
它是通過RNN及其變種網路來訓練語言模型,任務是通過上文來預測下一個詞,它相比於NNLM的優勢在於所使用的為RNN,RNN在處理序列數據方面具有天然優勢, RNN 網路打破了上下文窗口的限制,使用隱藏層的狀態概括歷史全部語境信息,對比 NNLM 可以捕獲更長的依賴,在實驗中取得了更好的效果。RNNLM 超參數少,通用性更強;但由於 RNN 存在梯度彌散問題,使得其很難捕獲更長距離的依賴信息。
Word2vec中的CBOW 以及skip-gram,其中CBOW是通過窗口大小內的上下文預測中心詞,而skip-gram恰恰相反,是通過輸入的中心詞預測窗口大小內的上下文。
Glove 是屬於統計語言模型,通過統計學知識來訓練詞向量
ELMO 通過使用多層雙向的LSTM(一般都是使用兩層)來訓練語言模型,任務是利用上下文來預測當前詞,上文信息通過正向的LSTM獲得,下文信息通過反向的LSTM獲得,這種雙向是一種弱雙向性,因此獲得的不是真正的上下文信息。
GPT是通過Transformer來訓練語言模型,它所訓練的語言模型是單向的,通過上文來預測下一個單詞
BERT通過Transformer來訓練MLM這種真正意義上的雙向的語言模型,它所訓練的語言模型是根據上下文來預測當前詞。
以上部分的詳細介紹在NLP之預訓練篇中有講到
語言模型的評判指標
具體參考: https://blog.csdn.net/index20001/article/details/78884646
Perplexity可以認為是average branch factor(平均分支系數),即預測下一個詞時可以有多少種選擇。別人在作報告時說模型的PPL下降到90,可以直觀地理解為,在模型生成一句話時下一個詞有90個合理選擇,可選詞數越少,我們大致認為模型越准確。這樣也能解釋,為什麼PPL越小,模型越好。
一般用困惑度Perplexity(PPL)衡量語言模型的好壞,困惑度越小則模型生成一句話時下一個詞的可選擇性越少,句子越確定則語言模型越好。
簡單介紹
Word2vec是一種有效創建詞嵌入的方法,它自2013年以來就一直存在。但除了作為詞嵌入的方法之外,它的一些概念已經被證明可以有效地創建推薦引擎和理解時序數據。在商業的、非語言的任務中。
背景
由於任何兩個不同詞的one-hot向量的餘弦相似度都為0,多個不同詞之間的相似度難以通過onehot向量准確地體現出來。
word2vec⼯具的提出正是為了解決上⾯這個問題。它將每個詞表⽰成⼀個定⻓的向量,並使得這些向量能較好地表達不同詞之間的相似和類⽐關系。
word2vec模型
word2vec⼯具包含了兩個模型,即跳字模型(skip-gram)和連續詞袋模型(continuous bag of words,CBOW)。word2vec的input/output都是將單詞作為one-hot向量來表示,我們可以把word2vec認為是詞的無監督學習的降維過程。
MaxEnt 模型(最大熵模型): 可以使用任意的復雜相關特徵,在性能上最大熵分類器超過了 Byaes 分類器。但是,作為一種分類器模型,這兩種方法有一個共同的缺點:每個詞都是單獨進行分類的,標記(隱狀態)之間的關系無法得到充分利用,具有馬爾可夫鏈的 HMM 模型可以建立標記之間的馬爾可夫關聯性,這是最大熵模型所沒有的。
最大熵模型的優點:首先,最大熵統計模型獲得的是所有滿足約束條件的模型中信息熵極大的模型;其次,最大熵統計模型可以靈活地設置約束條件,通過約束條件的多少可以調節模型對未知數據的適應度和對已知數據的擬合程度;再次,它還能自然地解決統計模型中參數平滑的問題。
最大熵模型的不足:首先,最大熵統計模型中二值化特徵只是記錄特徵的出現是否,而文本分類需要知道特徵的強度,因此,它在分類方法中不是最優的;其次,由於演算法收斂的速度較慢,所以導致最大熵統計模型它的計算代價較大,時空開銷大;再次,數據稀疏問題比較嚴重。
CRF(conditional random field) 模型(條件隨機場模型):首先,CRF 在給定了觀察序列的情況下,對整個的序列的聯合概率有一個統一的指數模型。一個比較吸引人的特性是其為一個凸優化問題。其次,條件隨機場模型相比改進的隱馬爾可夫模型可以更好更多的利用待識別文本中所提供的上下文信息以得更好的實驗結果。並且有測試結果表明:在採用相同特徵集合的條件下,條件隨機域模型較其他概率模型有更好的性能表現。
CRF 可以用於構造在給定一組輸入隨機變數的條件下,另一組輸出隨機變數的條件概率分布模型。經常被用於序列標注,其中包括詞性標注,分詞,命名實體識別等領域。
建一個條件隨機場,我們首先要定義一個特徵函數集,每個特徵函數都以整個句子s,當前位置i,位置i和i-1的標簽為輸入。然後為每一個特徵函數賦予一個權重,然後針對每一個標注序列l,對所有的特徵函數加權求和,必要的話,可以把求和的值轉化為一個概率值。
CRF 具有很強的推理能力,並且能夠使用復雜、有重疊性和非獨立的特徵進行訓練和推理,能夠充分地利用上下文信息作為特徵,還可以任意地添加其他外部特徵,使得模型能夠 獲取的信息非常豐富。
CRF 模型的不足:首先,通過對基於 CRF 的結合多種特徵的方法識別英語命名實體的分析,發現在使用 CRF 方法的過程中,特徵的選擇和優化是影響結果的關鍵因素,特徵選擇問題的好與壞,直接決定了系統性能的高低。其次,訓練模型的時間比 MaxEnt 更長,且獲得的模型很大,在一般的 PC 機上無法運行。
潛在語義分析(Latent Semantic Analysis,LSA)模型
在潛在語義分析(LSA)模型首先給出了這樣一個 『『分布式假設」 :一個 單詞的屬性是由它所處的環境刻畫的。這也就意味著如果兩個單詞在含義上比較接近,那麼它們也會出現在相似的文本中,也就是說具有相似的上下文。
LSA模型在構建好了單詞-文檔矩陣之後,出於以下幾種可能的原因,我們會使用奇異值分解(Singular Value Decomposition,SVD) 的方法來尋找該矩陣的一個低階近似。
概率潛在語義分析(Probability Latent Semantic Analysis ,PLSA)模型
概率潛在語義分析(PLSA)模型其實是為了克服潛在語義分析(LSA)模型存在的一些缺點而被提出的。LSA 的一個根本問題在於,盡管我們可以把 U k 和 V k 的每一列都看成是一個話題,但是由於每一列的值都可以看成是幾乎沒有限制的實數值,因此我們無法去進一步解釋這些值到底是什麼意思,也更無法從概率的角度來理解這個模型。
PLSA模型則通過一個生成模型來為LSA賦予了概率意義上的解釋。該模型假設,每一篇文檔都包含一系列可能的潛在話題,文檔中的每一個單詞都不是憑空產生的,而是在這些潛在的話題的指引下通過一定的概率生成的。
在 PLSA 模型裡面,話題其實是一種單詞上的概率分布,每一個話題都代表著一個不同的單詞上的概率分布,而每個文檔又可以看成是話題上的概率分布。每篇文檔就是通過這樣一個兩層的概率分布生成的,這也正是PLSA 提出的生成模型的核心思想。
PLSA 通過下面這個式子對d和 w 的聯合分布進行了建模:
該模型中的 *z * 的數量是需要事先給定的一個超參數。需要注意的是,上面這 個式子裡面給出了 P (w, d ) 的兩種表達方式,在前一個式子里, *d * 和 w 都是在給定 *z * 的前提下通過條件概率生成出來的,它們的生成方式是相似的,因此是 『『對稱』』 的;在後一個式子里,首先給定 d ,然後根據 P ( z | d ) 生成可能的話題 z ,然後再根據 P (w| z ) 生成可能的單詞 w,由於在這個式子裡面單詞和文檔的生成並不相似, 所以是 『『非對稱』』 的。
上圖給出了 PLSA 模型中非對稱形式的 Plate Notation表示法。其中d表示 一篇文檔,z 表示由文檔生成的一個話題,w 表示由話題生成的一個單詞。 在這個模型中, d和w 是已經觀測到的變數,而z是未知的變數(代表潛在的話題)。
容易發現,對於一個新的文檔而言,我們無法得知它對應的 P ( d ) 究竟是什麼, 因此盡管 PLSA 模型在給定的文檔上是一個生成模型,它卻無法生成新的未知的文檔。該模型的另外的一個問題在於,隨著文檔數量的增加, P ( z | d ) 的參數也會隨著線性增加,這就導致無論有多少訓練數據,都容易導致模型的過擬合問題。這兩點成為了限制 PLSA 模型被更加廣泛使用的兩大缺陷。
潛在狄利克雷分配(Latent Dirichlet Analysis , LDA)模型
為了解決 PLSA 模型中出現的過擬合問題,潛在狄利克雷分配(LDA)模型被 Blei 等人提出,這個模型也成為了主題模型這個研究領域內應用最為廣泛的模 型。LDA就是在PLSA的基礎上加層貝葉斯框架,即LDA就是PLSA的貝葉斯版本(正因為LDA被貝葉斯化了,所以才需要考慮歷史先驗知識,才加的兩個先驗參數)。
從上一節我們可以看到,在 PLSA 這個模型里,對於一個未知的新文檔 d ,我們對於 P ( d ) 一無所知,而這個其實是不符合人的經驗的。或者說,它沒有去使用本來可以用到的信息,而這部分信息就是 LDA 中所謂的先驗信息。
具體來說,在 LDA 中,首先每一個文檔都被看成跟有限個給定話題中的每一個存在著或多或少的關聯性,而這種關聯性則是用話題上的概率分布來刻畫的, 這一點與 PLSA 其實是一致的。
但是在 LDA 模型中,每個文檔關於話題的概率分布都被賦予了一個先驗分布,這個先驗一般是用稀疏形式的狄利克雷分布表示的。 這種稀疏形式的狄利克雷先驗可以看成是編碼了人類的這樣一種先驗知識:一般而言,一篇文章的主題更有可能是集中於少數幾個話題上,而很少說在單獨一篇文章內同時在很多話題上都有所涉獵並且沒有明顯的重點。
此外,LDA 模型還對一個話題在所有單詞上的概率分布也賦予了一個稀疏形式的狄利克雷先驗,它的直觀解釋也是類似的:在一個單獨的話題中,多數情況是少部分(跟這個話題高度相關的)詞出現的頻率會很高,而其他的詞出現的頻率則明顯較低。這樣兩種先驗使得 LDA 模型能夠比 PLSA 更好地刻畫文檔-話題-單詞這三者的關系。
事實上,從 PLSA 的結果上來看,它實際上相當於把 LDA 模型中的先驗分布轉變為均勻分布,然後對所要求的參數求最大後驗估計(在先驗是均勻分布的前提下,這也等價於求參數的最大似然估計) ,而這也正反映出了一個較為合理的先驗對於建模是非常重要的。
分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。
現有的分詞演算法可分為三大類:基於字元串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。
按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。
中文分詞根據實現原理和特點,主要分為以下2個類別:
(1)基於詞典分詞演算法
也稱字元串匹配分詞演算法。該演算法是按照一定的策略將待匹配的字元串和一個已建立好的「充分大的」詞典中的詞進行匹配,若找到某個詞條,則說明匹配成功,識別了該詞。常見的基於詞典的分詞演算法分為以下幾種:正向最大匹配法、逆向最大匹配法和雙向匹配分詞法等。
基於詞典的分詞演算法是應用最廣泛、分詞速度最快的。很長一段時間內研究者都在對基於字元串匹配方法進行優化,比如最大長度設定、字元串存儲和查找方式以及對於詞表的組織結構,比如採用TRIE索引樹、哈希索引等。
(2)基於統計的機器學習演算法
這類目前常用的是演算法是HMM、CRF(條件隨機場)、SVM、深度學習等演算法,比如stanford、Hanlp分詞工具是基於CRF演算法。以CRF為例,基本思路是對漢字進行標注訓練,不僅考慮了詞語出現的頻率,還考慮上下文,具備較好的學習能力,因此其對歧義詞和未登錄詞的識別都具有良好的效果。
常見的分詞器都是使用機器學習演算法和詞典相結合,一方面能夠提高分詞准確率,另一方面能夠改善領域適應性。
隨著深度學習的興起,也出現了 基於神經網路的分詞器 ,例如有人員嘗試使用雙向LSTM+CRF實現分詞器, 其本質上是序列標注 ,所以有通用性,命名實體識別等都可以使用該模型,據報道其分詞器字元准確率可高達97.5%。演算法框架的思路與論文《Neural Architectures for Named Entity Recognition》類似,利用該框架可以實現中文分詞,如下圖所示:
首先對語料進行字元嵌入,將得到的特徵輸入給雙向LSTM,然後加一個CRF就得到標注結果。
目前中文分詞難點主要有三個:
1、分詞標准 :比如人名,在哈工大的標准中姓和名是分開的,但在Hanlp中是合在一起的。這需要根據不同的需求制定不同的分詞標准。
2、歧義 :對同一個待切分字元串存在多個分詞結果。
歧義又分為組合型歧義、交集型歧義和真歧義三種類型。
一般在搜索引擎中,構建索引時和查詢時會使用不同的分詞演算法。常用的方案是,在索引的時候使用細粒度的分詞以保證召回,在查詢的時候使用粗粒度的分詞以保證精度。
3、新詞 :也稱未被詞典收錄的詞,該問題的解決依賴於人們對分詞技術和漢語語言結構的進一步認識。
典型的文本分類過程可以分為三個步驟:
1. 文本表示(Text Representation)
這一過程的目的是把文本表示成分類器能夠處理的形式。最常用的方法是向量空間模型,即把文本集表示成詞-文檔矩陣,矩陣中每個元素代表了一個詞在相應文檔中的權重。選取哪些詞來代表一個文本,這個過程稱為特徵選擇。常見的特徵選擇方法有文檔頻率、信息增益、互信息、期望交叉熵等等。為了降低分類過程中的計算量,常常還需要進行降維處理,比如LSI。
2. 分類器構建(Classifier Construction)
這一步驟的目的是選擇或設計構建分類器的方法。不同的方法有各自的優缺點和適用條件,要根據問題的特點來選擇一個分類器。我們會在後面專門講述常用的方法。選定方法之後,在訓練集上為每個類別構建分類器,然後把分類器應用於測試集上,得到分類結果。
3. 效果評估(Classifier Evaluation)
在分類過程完成之後,需要對分類效果進行評估。評估過程應用於測試集(而不是訓練集)上的文本分類結果,常用的評估標准由IR領域繼承而來,包括查全率、查准率、F1值等等。
1. Rocchio方法
每一類確定一個中心點(centroid),計算待分類的文檔與各類代表元間的距離,並作為判定是否屬於該類的判據。Rocchio方法的特點是容易實現,效率高。缺點是受文本集分布的影響,比如計算出的中心點可能落在相應的類別之外。
2. 樸素貝葉斯(naïve bayes)方法
將概率論模型應用於文檔自動分類,是一種簡單有效的分類方法。使用貝葉斯公式,通過先驗概率和類別的條件概率來估計文檔對某一類別的後驗概率,以此實現對此文檔所屬類別的判斷。
3. K近鄰(K-Nearest Neightbers, KNN)方法
從訓練集中找出與待分類文檔最近的k個鄰居(文檔),根據這k個鄰居的類別來決定待分類文檔的類別。KNN方法的優點是不需要特徵選取和訓練,很容易處理類別數目多的情況,缺點之一是空間復雜度高。KNN方法得到的分類器是非線性分類器。
4. 支持向量機(SVM)方法
對於某個類別,找出一個分類面,使得這個類別的正例和反例落在這個分類面的兩側,而且這個分類面滿足:到最近的正例和反例的距離相等,而且是所有分類面中與正例(或反例)距離最大的一個分類面。SVM方法的優點是使用很少的訓練集,計算量小;缺點是太依賴於分類面附近的正例和反例的位置,具有較大的偏執。
文本聚類過程可以分為3個步驟:
1. 文本表示(Text Representation)
把文檔表示成聚類演算法可以處理的形式。所採用的技術請參見文本分類部分。
2. 聚類演算法選擇或設計(Clustering Algorithms)
演算法的選擇,往往伴隨著相似度計算方法的選擇。在文本挖掘中,最常用的相似度計算方法是餘弦相似度。聚類演算法有很多種,但是沒有一個通用的演算法可以解決所有的聚類問題。因此,需要認真研究要解決的問題的特點,以選擇合適的演算法。後面會有對各種文本聚類演算法的介紹。
3. 聚類評估(Clustering Evaluation)
選擇人工已經分好類或者做好標記的文檔集合作為測試集合,聚類結束後,將聚類結果與已有的人工分類結果進行比較。常用評測指標也是查全率、查准率及F1值。
1.層次聚類方法
層次聚類可以分為兩種:凝聚(agglomerative)層次聚類和劃分(divisive)層次聚類。凝聚方法把每個文本作為一個初始簇,經過不斷的合並過程,最後成為一個簇。劃分方法的過程正好與之相反。層次聚類可以得到層次化的聚類結果,但是計算復雜度比較高,不能處理大量的文檔。
2.劃分方法
k-means演算法是最常見的劃分方法。給定簇的個數k,選定k個文本分別作為k個初始簇,將其他的文本加入最近的簇中,並更新簇的中心點,然後再根據新的中心點對文本重新劃分;當簇不再變化時或經過一定次數的迭代之後,演算法停止。k-means演算法復雜度低,而且容易實現,但是對例外和雜訊文本比較敏感。另外一個問題是,沒有一個好的辦法確定k的取值。
3.基於密度的方法
為了發現任意形狀的聚類結果,提出了基於密度的方法。這類方法將簇看作是數據空間中被低密度區域分割開的高密度區域。常見的基於密度的方法有DBSCAN, OPTICS, DENCLUE等等。
4.神經網路方法
神經網路方法將每個簇描述為一個標本,標本作為聚類的"原型",不一定對應一個特定的數據,根據某些距離度量,新的對象被分配到與其最相似的簇中。比較著名的神經網路聚類演算法有:競爭學習(competitive learing)和自組織特徵映射(self-organizing map)[Kohonen, 1990]。神經網路的聚類方法需要較長的處理時間和復雜的數據復雜性,所以不適用於大型數據的聚類。
⑷ GPT的auto-regressive語言模型架構在信息表示方面有什麼架構上的缺陷具體如何改進
1) GPT
在Bert 之後,OpenAI 的 GPT-2 就是其中之一。它在文本生成上有著驚艷的表現,其生成的文本在上下文連貫性和情感表達上都超過了人們對目前階段語言模型的預期。僅從模型架構而言,GPT-2 並沒有特別新穎的架構,它和 transformer 的 Decoder 類似。相比較於GPT-1,GPT -2 使用了更大的預料,更大和更深的模型。
從transformer的decoder里移除了decoder對encoder的attention部分。也就是消除掉了seq2seq的過程。
GPT是一個語言模型,每一個時刻只能看見當前時刻前面時刻的信息,是一個auto regressive的過程。
GPT2,hidden state的大小有變化,根據層數的多少有small,mem,large,extra large的劃分。
GPT的訓練過程是交叉式的預測下一個單詞,測試的時候是輸入一個句子生成另外一個句子。
GPT的預訓練就是訓練一個語言模型。而bert的預訓練是masked language model和nsp的任務。
GPT由多個decocer block組成,每一個decoder block由masked self-attention和feed forward neural network組成。
一個timestamp的hidden state經過線性層轉換為vocab size大小的embedding, 然後經過softmax,算出每個詞彙的概率,找出其中概率最大的詞作為預測輸出,然後下一個時刻的詞作為真實輸出,計算兩者的cross entropy來訓練模型。
每一個timestamp後面的位置都mask掉,設置一個負無群大的值,做softmax的時候,該位置的值就為0。
2)總結
transformer decoder的構造
預訓練的時候做語言模型的訓練
GPT2用更多更深的block
BERT是做NLU,generation做不了
GPT天生就是語言模型,非常適合做generation的任務,在bert里能做的在gpt里也可以做
除了GPT-2 ,GPT-3依舊延續自己的單向語言模型訓練方式,只不過把模型尺寸增大到了1750億,並且使用45TB數據進行訓練
⑸ GRT-2模型是什麼
GPT-2 language model 是一種人工智慧范疇里,機器學習語言能力的模型。
GPT-2模型在文本生成上有著出出色的表現,其生成的文本在上下文連貫性和情感表達上都超過了人們對目前階段語言模型的預期。僅從模型架構而言,GPT-2 並沒有特別新穎的架構,它和只帶有解碼器的 transformer 模型很像。本質上,它是一個在海量數據集上訓練的基於 transformer 的巨大模型。
⑹ AI人工智慧正在改變計算的整個本質
機器學習,特別是深度學習,迫使重新評估晶元和系統的設計方式,這將改變未來幾十年的行業方向。
從晶元到軟體再到系統,計算領域將在未來幾年內因機器學習的普及而發生巨大變化。我們可能仍然將這些計算機稱為「通用圖靈機」,正如我們已有八十年或更長時間。但在實踐中,它們將與迄今為止構建和使用的方式不同。
任何關心計算機工作的人以及對所有形式的機器學習感興趣的人都會感興趣。
今年2月,Facebook負責人工智慧研究的負責人Yann LeCun在舊金山舉行的國際固態電路會議上發表了演講,該會議是世界上運行時間最長的計算機晶元會議之一。在ISSCC,LeCun明確了計算機技術對人工智慧研究的重要性。 LeCun說:「硬體功能和軟體工具既激勵又限制了AI研究人員想像並將允許自己追求的想法類型,我們所掌握的工具比我們承認的更能影響我們的想法」。
不難看出情況是怎樣的。從2006年開始,深度學習的興起不僅是因為大量數據和機器學習中的新技術,例如「輟學」,而且還因為計算能力越來越強。特別是,越來越多地使用來自Nvidia的圖形處理單元或「GPU」,導致計算的更大並行化。這使得對比以往更大的網路的培訓成為可能。20世紀80年代提出的「並行分布式處理」的前提,即人工網路的節點同時被訓練,最終成為現實。
一些人認為,機器學習現在有望接管世界上大部分的計算活動。在2月份的ISSCC期間,LeCun 向ZDNet講述了計算方向的變化。LeCun說:「如果你走了五年,未來十年,你會看到計算機花費時間做些什麼,大多數情況下,我認為他們會做一些像深度學習這樣的事情 - 就計算量而言」。他還指出,深度學習可能無法通過收入占據計算機銷售的大部分,但是,「就我們如何每秒花費我們的毫瓦或我們的運營而言,他們將花在神經網路上。
深度學習成倍增長
隨著深度學習成為計算的焦點,它正在推動當今計算機能夠做到的界限,在某種程度上推動神經網路進行預測的「推理任務」,但對於訓練神經網路更是如此,計算密集型功能。
註:據OpenAI稱,自2012年以來,深度學習網路對計算的需求每3.5個月翻一番。
諸如OpenAI的GPT-2之類的現代神經網路需要並行訓練超過十億個參數或網路權重。作為Facebook的熱門機器學習培訓庫PyTorch的產品經理,5月份告訴ZDNet,「模型越來越大,它們真的非常大,而且培訓成本非常高。」 如今最大的模型通常不能完全存儲在GPU附帶的存儲器電路中。
此外:谷歌表示人工智慧的「指數」增長正在改變計算的本質
計算周期的需求速度越來越快。根據OpenAI提供的數據,早在2012年創建的令人尊敬的AlexNet圖像識別系統在總培訓時間內耗費了相當於每秒1000萬次浮點運算的「千萬億次浮點運算」,總時間達到一天。但AlphaZero是由谷歌的DeepMind在2016年建立的神經網路,它擊敗了世界上的國際象棋冠軍,並且每秒消耗超過一千天的千萬億次飛越。AlexNet和AlphaZero之間計算周期的增加使得每3.5個月的計算消耗量翻了一番。這是2016年收集的數據。到目前為止,步伐無疑會增加。
計算機晶元危機
世界甚至沒有佩戴千萬億次籌碼,用於深度學習培訓的頂級晶元,如Nvidia的Tesla V100,每秒運行112萬億次。因此,你必須運行其中的八天1000天,否則將許多人聚集成一個耗費越來越多能量的系統。
更糟糕的是,近年來晶元改進的步伐已經觸底。正如加州大學伯克利分校教授大衛帕特森和英國航空公司董事長約翰軒尼詩在今年早些時候的一篇文章中所指出的那樣,摩爾定律即每十二至十八個月晶元功率增加一倍的經驗法則,已經耗盡了氣體。英特爾長期以來一直否認這一點,但數據是帕特森和軒尼詩的一面。正如他們在報告中提到的那樣,晶元性能現在每年僅增長3%。
這兩位作者都認為,這意味著晶元的設計,眾所周知,它們的架構必須徹底改變,以便從不會產生性能優勢的晶體管中獲得更高的性能。(帕特森幫助谷歌創建了「Tensor Processing Unit」晶元,因此他對硬體如何影響機器學習非常了解,反之亦然。)
由於處理器的改進停滯不前,但機器學習需求每隔幾個月翻一番,就必須付出代價。令人高興的是,如果以正確的方式看待,機器學習本身可以成為晶元設計的福音。因為機器學習需要很少的遺留代碼支持 - 它不必運行Excel或Word或Oracle DB - 並且正如他們所說的,對於晶元設計師,由於其最基本計算的高度重復性,機器學習是一種綠地機會。
建造一台新機器
卷積神經網路和長期短期記憶網路的核心,深度學習的兩個主要支柱,甚至在像谷歌的變形金剛這樣的更現代的網路中,大多數計算都是線性代數計算,稱為張量數學。最常見的是,將一些輸入數據轉換為矢量,然後將該矢量乘以神經網路權重矩陣的列,並將所有這些乘法的乘積相加。稱為乘法相加,這些計算使用所謂的「乘法 - 累加」電路或「MAC」在計算機中呈現。因此,只需改進MAC並在晶元上創建更多的MAC來增加並行化,就可以立即改善機器學習。
主導AI培訓的Nvidia和其CPU主導機器學習推理的英特爾都試圖調整他們的產品以利用那些原子線性代數函數。Nvidia為其Tesla GPU添加了「張量核心」,以優化矩陣乘法。英特爾已花費300億美元收購那些從事機器學習的公司,包括Mobileye,Movidius和Nervana Systems,其中最後一個應該在某個時候導致「Nervana神經網路處理器」,盡管有延遲。
到目前為止,這些舉措並不能滿足機器學習的需求,例如Facebook的LeCun。在2月與ZDNet聊天期間,LeCun認為,「我們需要的是競爭對手,現在,你知道,主導供應商Nvidia」。 他還指出,這不是因為Nvidia沒有做出好的籌碼。這是「因為他們做出了假設,並且擁有一套不同的硬體可以用來做當前GPUS擅長的補充事物,這樣做會很不錯。
另外:為什麼人工智慧報告如此糟糕?
他說,其中一個有缺陷的假設是假設訓練神經網路將是一個可以操作的「整齊陣列」的問題。相反,未來的網路可能會使用大量的網路圖,其中神經網路的計算圖的元素作為指針流式傳輸到處理器。LeCun表示,晶元必須進行大量的乘法增加,但對於如何將這些乘法增加呈現給處理器的期望不同。
作為TPU晶元貢獻者之一的谷歌軟體工程師Cliff Young,去年10月在矽谷舉行的晶元活動上發表了主題演講時更直言不諱。Young說:「很長一段時間,我們都拒絕了,並說英特爾和Nvidia非常擅長構建高性能系統,」「五年前我們超越了這個門檻」。
創業公司的崛起
在這個漏洞中,新的晶元來自谷歌等人工智慧巨頭,還有一大批風險投資支持的創業公司。
除了谷歌的TPU,現在已經進行了第三次迭代,微軟還有一個可編程處理器,一個名為Project Brainwave的「FPGA」,客戶可以通過其Azure雲服務租用它。亞馬遜表示,它將在今年晚些時候推出自己的定製晶元,名為「Inferentia」。當LeCun在2月份與ZDNet談話時,他提到Facebook有自己的籌碼。
他指出,像谷歌和Facebook這樣擁有大量產品的公司,對你自己的引擎工作是有道理的,這方面有內部活動。
創業公司包括Graphcore,一家位於布里斯托爾的五年創業公司,一個位於倫敦西南一個半小時的港口城市; Cornami,Effinix和Flex Logix,所有這些都是由ZDNet描述的和矽谷的洛斯阿爾托斯的s系統公司仍然處於秘密模式。
許多這些初創公司都有一個共同點,那就是大大增加用於矩陣乘法的計算機晶元區域的數量,即MAC單元,以便在每個時鍾周期內擠出最多的並行化。Graphcore是所有初創公司中最遠的,是第一個真正向客戶發送生產晶元的公司。關於它的第一個晶元最引人注目的事情之一是大量的內存。為了紀念世界上第一台數字計算機,Colossus 被稱為晶元,面積巨大,面積為806平方毫米。首席技術官Simon Knowles稱其為「迄今為止最復雜的處理器晶元」。
Colossus由1,024個被稱為「智能處理單元」的獨立核心組成,每個核心都可以獨立處理矩陣數學。眾所周知,每個IPU都有自己的專用內存,256千位元組的快速SRAM內存。總共有304兆位元組的內存是晶元中最常用的內存。
沒有人知道晶元上存在如此多的內存會如何改變構建的神經網路的種類。可能是通過訪問越來越多的內存,訪問速度非常低,更多的神經網路將專注於以新的和有趣的方式重用存儲在內存中的值。
軟體難題
對於所有這些晶元的努力,問題當然是由於該公司的「CUDA」編程技術,他們沒有為Nvidia建立多年的軟體。Graphcore和其他人的答案將是雙重的。一個是用於機器學習的各種編程框架,例如TensorFlow和Pytorch,提供了一種避免晶元本身細節並專注於程序結構的方法。所有進入市場的晶元都支持這些框架,他們的創造者認為這些框架與Nvidia的競爭環境。
第二點是Graphcore和其他人正在構建自己的編程技術。他們可以證明他們的專有軟體既可以轉換框架,也可以智能地將並行計算分配給晶元上的眾多MAC單元和向量單元。這就是Graphcore為其「Poplar」軟體所做的論證。Poplar將神經網路的計算圖分解為「codelets」,並將每個codelet分配到Colossus的不同核心,以優化並行處理。
在過去的二十年中,大數據和快速並行計算成為常態,推動了機器學習,帶來了深度學習。下一波計算機硬體和軟體可能是關於大量的內存和神經網路,它們是動態構建的,以利用高度並行的晶元架構。未來看起來很有趣。
本文翻譯自:AI is changing the entire nature of compute(Machine learning, especially deep learning, is forcing a re-evaluation of how chips and systems are designed that will change the direction of the instry for decades to come.)
⑺ 2019年AI人工智慧領域都發生了什麼
作者 | David Foster
譯者 | Sambodhi
2019 年無疑是忙碌的一年。人工智慧的進步和新聞頻頻登上頭條新聞,讓我們的生活充滿了敬畏和自豪的時刻,但一些其他時刻充卻斥著一種惱人的想法,那就是這項技術讓人們發現,我們的社會並沒有準備好迎接人工智慧的普及。
2019 年,究竟是人工智慧進步的一年,還是幻滅的一年呢?隨著研究人員攻城略地,迅速攻克以前難以企及的基準,今天,我們可不可以這樣認為,這個領域已經正在步入穩步發展的軌道呢?
在 ADSP(Applied Data Science Partners,意即「應用數據科學合作夥伴」)網站上,我們想後退一步,把 2019 年的人工智慧界發生的事件整理好,以讓公眾能夠有個全新的視角。在聚光燈下,重要的是要將一項工作最初吸引人們的興趣,與它的實際重要性,以及它對該領域產生的影響區分開來。為此,本文將展開人工智慧故事的平行線索,並試圖分離出它們的意義。多虧了我們出色的內容作家 Elena Nisioti,她將這些故事講得如此精彩!
讓我們坐下來,一起回顧 2019 年的人工智慧領域的方方面面。
處在文藝復興時期的領域如果讓我們用一句話來描述 2019 年的人工智慧現狀,那很可能是:「強化學習(Reinforcement Learning )回歸,看起來將永存」。
到目前為止,我們中的大多數人可能已經熟悉了監督式學習(Supervised Learning):有些人收集了大量的訓練數據,將它們饋送到機器學習演算法中,然後得到一個模型,這個模型可以為我們進行預測和分類。我們中的一些人甚至可能有這樣的印象:即,人工智慧就是監督式學習的同義詞。然而,監督式學習只不過是我們今天擁有的 眾多類型的機器學習 中的一種罷了。
在強化學習(Reinforcement Learning,RL)中,智能體用試錯的方法,通過與環境進行交互來學習,這種環境會給它們的行為提供獎勵回報。當涉及到多個智能體時,它們被稱為多智能體強化學習系統(Multi-agent Reinforcement Learning System)。
這個領域已經存在幾十年,從概念上來講,它聽起來比監督式學習更像是一種合理的創造智能的學習機制。然而,直到 2015 年,DeepMind 才獲得了人們的關注,當時 DeepMind 使用深度 Q 學習(Deep Q-learning)創建了 Atari(雅達利) 游戲的智能體,這是一種結合了經典強化學習演算法和深度神經網路的演算法。2018 年,OpenAI 也通過 解決 Montezuma』s Revenge(一款被認為難度特別高的 Atari 游戲),從而在這一領域確立了自己的地位。
在過去的幾個月里,事態升級了:
這些工作重新喚起了學術界對強化學習的信念,在過去,人們曾經認為強化學習效率低下,過於簡單,無法解決復雜的問題,甚至連游戲的問題也不能解決。
今年,另一個大受歡迎的應用是自然語言處理(Natural Language Processing,NLP)。盡管研究人員在這一領域工作了幾十年,但近些年的自然語言處理系統生成的文本聽起來還是不夠自然。自 2018 年底以來,人們的注意力已經從過去的詞嵌入轉移到預訓練語言模型,這是自然語言處理從計算機視覺中借鑒來的一種技術。這些模型的訓練是以非監督的方式進行的,這使得現代系統能夠從互聯網上的大量文本中進行學習。因此,這些模型變得「博聞強識」,並發展出了理解上下文的能力。然後,可以通過監督式學習進一步提高它們在特定任務上的表現。這種通過在不同任務上訓練機器學習模型來改進模型的做法,屬於遷移學習(transfer learning)的范疇,被認為具有巨大的潛力。
自去年 Google BERT、ELMo 和 ulmfit 等系統在 2018 年底推出以來,自然語言處理一直風頭正茂,但今年的聚光燈被 OpenAI 的 GPT-2 給「奪走了」,它的表現引發了人們對 自然語言處理系統的道德使用的大討論。
實踐走向成熟今年,人們也見證了最近一些深度學習技術走向成熟。應用監督式學習,特別是計算機視覺技術,已經催生了現實生活中成功的產品和系統。
生成對抗網路(Generative Adversarial Networks,GAN)是一對神經網路,其中,生成器網路試圖通過學習生成模仿訓練數據的圖像來欺騙判別器網路,現在已經達到了近乎完美的水平。對人工智慧來說,創造虛假但又逼真的人物和物體的圖像,已經不再是前沿領域了。從 2014 年生成對抗網路的引入 到 2019 年 NVDIA 開源的 StyleGAN,一圖勝千言,我們用下面的圖片來說明,這可能是理解該領域進展情況的最佳方式:
2019 年,人工智慧創造的藝術品甚至脫離了過去幾年的假設性討論,成為了今天 博物館裝置和拍賣 的一部分。
計算機視覺還被應用於一些具有重大商業和社會意義的領域,包括自動駕駛車輛和醫學。但是,人工智慧演算法在這些領域中的應用自然是緩慢的,因為它們直接與人類生活直接互動。至少到目前為止,這些系統還不是完全自主的,它們的目的,在於支持和增強人類操作員的能力。
研究團隊正與醫院密切合作,開發用於疾病早期預測的人工智慧系統,並整理大量的健康數據檔案,其中一個值得注意的例子,是 DeepMind Health 和 UCLH 之間正在進行的合作。然而,這些工作中的大部分仍處於試驗階段,迄今為止,唯一獲得 FDA 批準的人工智慧系統是 SubtlePet,這是一款使用深度學習增強醫學圖像的軟體。
沉睡的巨人AutoML是機器學習的子領域之一,自 20 世紀 90 年代以來就一直存在,在 2016 年引起了人們的極大興趣,但不知何故從未登上頭條新聞,至少不像其他人工智慧趨勢那樣。也許這是因為它並不那麼花哨的性質:AutoML 的目的是通過自動化決策來使機器學習的實踐更有效,而今天數據科學家是通過手動、蠻力調優做出的決策。
在過去三年中,我們對這一領域的理解已經發生了變化,今天,大多數大公司都提供了 AutoML 工具,包括 Google Cloud AutoML、Microsoft Azure、Amazon Web Service 和 DataRobot 等。今年,隨著 學習進化人工智慧框架(Learning Evolutionary AI Framework,LEAF)成為最先進的人工智慧技術,人們的興趣轉向了「進化」(Evolutionary)方法。然而,AutoML 還沒有達到可以讓一個完全自動化的人工智慧系統比人工智慧專家團隊執行更好的成熟水平。
對人工智慧的擔憂盡管取得了壓倒性的成功,但今年人工智慧領域也給我們帶來了一些令人沮喪的故事。其中主要問題之一是機器學習模型中的偏見,這一問題直到 2018 年才顯現出來,當時 Amazon 發現他們的 自動招聘系統中存在性別偏見,而美國法院廣泛使用的判決工具 COMPAS 也被發現存在性別和種族的偏見。
今年案件的數量有所增加,這可能表明,公眾和機構對用於自動化決策的現有人工智慧系統越來越懷疑。以下是圖景的一小部分:
今年 10 月份,某醫院的演算法被發現對黑種人患者存有偏見。 去年 10 月,某人權組織指責用於發放英國簽證的人工智慧系統存在種族偏見。 今年 11 月,Apple 的信用評分系統被客戶指責存有性別偏見。偏見是一個特別令人擔憂的問題,因為它位於監督式深度學習的核心中:當有偏見的數據被用於訓練,且預測模型無法解釋時,我們不能真正判斷出是否存有偏見。迄今為止,學術界的反應一直是致力於開發技術,以了解深度模型決策背後的原因,但專家警告稱,如果我們採用正確的實踐方法,那麼許多問題都可以迎刃而解。Google Cloud Model Cards 是最近的一次嘗試,旨在使組織社區走向開源模式,同時明確描述其性質和局限性。
今年另一個讓人擔憂的發現是,當一項技術變得越復雜時,它被濫用的可能性就越大。Deepfake就是生成對抗網路的陰暗面,深度學習演算法被用來在純粹虛構的場景中創建涉及真實人物的圖片或視頻。人們不難看出,這項技術如何被用於傳播虛假新聞,從政治宣傳到欺凌。這個問題單靠科學家是無法解決的,歷史已經證明,科學家並不善於預測他們的發現對現實生活的影響,更不用說控制它們了,這需要社會各界進行廣泛的對話。
今天的人工智慧有多強大?如今,要量化人工智慧的價值真的很困難。但有一點是可以肯定的:人工智慧已經脫離了科幻小說和前衛計算機科學的領域,現在,人工智慧已成為社會不可分割的一部分,人們對人工智慧進行了大量的投資。
今年早些時候,三名主要的深度學習研究人員獲得了圖靈獎,這是對人工智慧作為計算機科學的一個領域的認可,而人們對此期待已久。
⑻ 「gpt」是什麼意思
全局唯一標識分區表(GUID Partition Table,縮寫:GPT)是指全局唯一標示磁碟分區表格式。它是可擴展固件介面(EFI)標准(被Intel用於替代個人計算機的BIOS)的一部分,被用於替代BIOS系統中的以32bits來存儲邏輯塊地址和大小信息的主引導記錄(MBR)分區表。
⑼ 杭州高中生造出新型無人駕駛自行車,其自動輔助系統有多牛
2021丘成桐中學科學獎總決賽落下帷幕,來自杭州第九中學的高三學生時沐朗,憑借「輔助駕駛自平衡自行車」項目,以全球前十的成績拿下了總決賽計算機優勝獎和中國分賽區一等獎,這也是浙江省今年唯一的「丘獎」。杭州高中生造出新型無人駕駛自行車,其自動輔助系統有多牛?
杭九中的時沐朗同學,拿到的是今年「丘獎」計算機學科的全球優勝獎,他造出了一輛自行車版的「特斯拉」。
作為一位高三學生,時沐朗對大學的專業已經有了規劃,「先修數學,先把自己基礎打牢,後面研究生,未來甚至博士的領域,再細一點,比如說做控制或者做自動駕駛。」