免费看一级一级人_欧美超碰在线观看_中文字幕欧美色图_日韩高清无码久久_明星精品二区三区

您的位置:首頁>智東西 >

谷歌的下一款ChatGPT競品,是它

來源:天天炫技  

本文來自微信公眾號:APPSO (ID:appsolution),作者:黃智健,原文標(biāo)題:《Google 下一款 ChatGPT 競品曝光:投入或超GPT-4,AlphaGo 成秘密武器》,題圖來自:《變形金剛2》


(資料圖)

ChatGPT 的大火,可把 Google 急壞了。

要知道 ChatGPT 中的“T”表示的是 Transformer 模型,出自于 Google 研究團隊,而現(xiàn)在這一技術(shù)在競爭對手 OpenAI 的手上發(fā)光發(fā)熱,這令 Google 頗感尷尬。

為應(yīng)對這一挑戰(zhàn),Google 迅速推出了自己的聊天機器人Bard,并且開始整合 AI 資源,合并了兩大研究團隊 Google Brain 和 DeepMind,創(chuàng)建了 Google DeepMind,由 DeepMind 原 CEO Demis Hassabis 領(lǐng)導(dǎo)。

Hassabis 表示 Google 有 80% 或 90% 的 AI 創(chuàng)新都出自于這兩個團隊。

在 上個月的 Google I/O 大會上,Google CEO Sundar Pichai 官宣了一個重磅消息:Google DeepMind 正在研究一個全新的大語言模型,代號為 Gemini(雙子座),這也是這兩只團隊合并后首次合作的項目。

近日,Demis Hassabis 在接受 Wired 的采訪了透露了更多與 Gemini 有關(guān)的消息,這可能是 Google 向 OpenAI 反擊的關(guān)鍵戰(zhàn)役。

正在追趕的 Google

此前大家猜測,Gemini 和 GPT 模型類似,都是有著出色文本處理能力的大語言模型,兩者的差異可能會體現(xiàn)在訓(xùn)練參數(shù)的規(guī)模上,模型規(guī)模越大,處理能力可能就會越強。

然而 Hassabis 表示,Gemini 有很多不太一樣的地方,例如 Google DeepMind 團隊正在將 AlphaGo 中使用的技術(shù)結(jié)合語言模型,以賦予更強的規(guī)劃或解決問題能力等等。這可能會成為 Gemini 的“殺手锏”技能。

抽象點說,你可以將 Gemini 看作是將 AlphaGo 型系統(tǒng)的一些優(yōu)點與大模型的語言能力相結(jié)合。我們還有一些新的創(chuàng)新,這將非常有趣。

2016 年,橫空出世的 AlphaGo 擊敗了圍棋冠軍李世石,讓全世界第一次真切地感受到 AI 技術(shù)的震撼。

AlphaGo 的技術(shù)基于一種名為“強化學(xué)習(xí)”的訓(xùn)練方法,通過反復(fù)試驗和反饋來學(xué)習(xí)如何解決問題,它還使用了一種稱為樹搜索的方法,探索并記住可能的走法。

Google DeepMind 團隊希望將這些技術(shù)應(yīng)用到語言模型中,使它們能夠在互聯(lián)網(wǎng)和計算機上執(zhí)行更多任務(wù)。

DeepMind 在機器學(xué)習(xí)和強化學(xué)習(xí)有著豐富的經(jīng)驗,開展過多項重要的研究,包括:

AlphaGo:第一個擊敗人類世界冠軍的圍棋程序。AlphaGo的成功標(biāo)志著AI在處理復(fù)雜策略游戲方面的重大突破。

AlphaZero:AlphaZero 是一個通用的強化學(xué)習(xí)算法,可以在沒有任何先驗知識的情況下,僅通過自我對弈學(xué)習(xí)如何玩棋類游戲。AlphaZero已經(jīng)證明了其在國際象棋、將棋和圍棋等游戲中的超強實力。

AlphaFold:AlphaFold 是一個可以預(yù)測蛋白質(zhì)結(jié)構(gòu)的深度學(xué)習(xí)系統(tǒng)。這個系統(tǒng)的準(zhǔn)確性在生物學(xué)領(lǐng)域引起了廣泛關(guān)注,因為它可以幫助科學(xué)家更好地理解疾病,并加速藥物的發(fā)現(xiàn)和開發(fā)。

WaveNet:WaveNet 是一個深度生成模型,用于生成自然 sounding 的語音。它已經(jīng)被廣泛應(yīng)用于語音合成和音樂生成等領(lǐng)域。

MuZero:MuZero 是一個無模型強化學(xué)習(xí)算法,它可以在沒有環(huán)境模型的情況下,通過預(yù)測其動作的結(jié)果來學(xué)習(xí)策略和價值函數(shù)。MuZero 已經(jīng)在多個任務(wù)和游戲中表現(xiàn)出了超強的性能。

DeepMind 在強化學(xué)習(xí)方面的深厚經(jīng)驗,可能會為 Gemini 帶來超越 ChatGPT 的新能力。

Hassabis 表示,Gemini 模型仍在開發(fā)中,這個過程將需要幾個月的時間,可能花費數(shù)千萬或者上億美元。作為對比 OpenAI CEO Sam Altman 在四月份表示,創(chuàng)建 GPT-4 的成本超過了 1 億美元。

Gemini 不僅僅是對 ChatGPT 做出的防御之舉,還將是 Google 未來部署搜索等產(chǎn)品的技術(shù)基礎(chǔ)。

Hassabis 表示,AI 的非凡潛在益處,例如健康或氣候等領(lǐng)域的科學(xué)發(fā)展,人類必須不停地發(fā)展這項技術(shù)。如果運用恰當(dāng)?shù)脑?,AI 將是對人類最有益的技術(shù)。

“我們必須大膽且勇敢地去追求那些東西?!彼f。

Google 不為人知的“護城河”

在 AI 研究方面,Google 還有一張蓋住的王牌——全球最大的視頻網(wǎng)站 YouTube。

視頻是個非常多元的內(nèi)容載體,我們可以把它分解成圖像、音頻和文字記錄。Google 擁有 YouTube,也就意味著擁有最豐富的圖像、音頻訓(xùn)練內(nèi)容。

根據(jù) The information 報道,有內(nèi)部人士透露 OpenAI 早已經(jīng)悄悄地使用 YouTube 上的內(nèi)容來訓(xùn)練其人工智能模型。

Google 自然不會忽視這座“金山”,The Information 繼續(xù)爆料稱 Google 的研究團隊也在利用 YouTube 訓(xùn)練 Gemini 模型,并且 Google 能夠比競爭對手們獲得更完整的內(nèi)容數(shù)據(jù)。

對于大語言模型來說,高質(zhì)量的訓(xùn)練數(shù)據(jù)比黃金還要寶貴。

由于 YouTube 很多都是真實的對話,Google 可以利用 YouTube 視頻的音頻文本或描述作為訓(xùn)練 Gemini 的另一個文本來源,從而提高它的語言理解能力,并產(chǎn)生更加真實的對話反饋。

利用 YouTube 的視頻內(nèi)容,Google 還可以開發(fā)出類似于 Runway 用文本生成視頻的多模態(tài)功能,用戶只需要輸入他們的描述就能生成出一條精美的視頻。

除了制作視頻,多模態(tài)模型還可以有更多的可能性,例如可以根據(jù) YouTube 視頻直接總結(jié)出球賽的亮點,或者根據(jù)視頻幫助機械師診斷汽車修理問題。

OpenAI 在發(fā)布 GPT-4 模型時,曾展示過從草圖生成網(wǎng)站代碼的功能,這也是多模態(tài)模型的一個重要應(yīng)用領(lǐng)域。

前 YouTube 高管 Shishir Mehrotra 表示,對 Google 來說,YouTube 視頻簡直就是一座數(shù)據(jù)金礦。

這不僅僅是因為視頻的存在,而是因為視頻存在于一個生態(tài)系統(tǒng)中。

YouTube 上的視頻向 AI 展現(xiàn)了人類是如何進行對話,這和書面化的文本有很大的不同,可以幫助模型更好的理解人類對話的邏輯,并生成更恰當(dāng)?shù)姆答仭?/p>

不僅如此,Google 還收集大量的用戶互動數(shù)據(jù),清楚用戶對視頻的哪些部分最感興趣、哪些部分容易跳出、哪些內(nèi)容會吸引用戶評論等等。

據(jù)統(tǒng)計,YouTube 每分鐘就有 500 小時的視頻上傳到網(wǎng)站上,Google 可以說是坐在了一座會源源不斷生產(chǎn)金子的金山上,這或許會成為 Google 真正的護城河。

多模態(tài)才是未來

隨著多模態(tài)模型越來越受到重視,未來會有更多的開發(fā)人員選擇用視頻訓(xùn)練語言模型。AI 教父、Meta AI 首席研究員 Yann LeCun 在近日一條推文中稱:“通過視覺學(xué)習(xí)世界如何運轉(zhuǎn)的系統(tǒng),將對現(xiàn)實有更深刻的理解”,并稱贊了 Meta 在這一領(lǐng)域的研究成果。

著名風(fēng)投機構(gòu) A16Z 在最近采訪了四家明星 AI 公司 AnthropicAI、Cohere、Character AI、AI21Labs 的 CEO 和創(chuàng)始人,探討出生成式 AI 當(dāng)前最需要突破的四個方向,分別是操控、記憶、四肢(訪問瀏覽器等)和多模態(tài)。

這四項關(guān)鍵創(chuàng)新將主導(dǎo) AI 在未來 6-12 個月的發(fā)展,這也會影響公司和開發(fā)者改變構(gòu)建產(chǎn)品的方式。

Cohere 的 CEO Aidan Gomez(著名論文《Attention is all you need》的主要作者之一)表示,AI 系統(tǒng)的能力終究是有限的,因為并非所有的內(nèi)容都是文本形式,因此多模態(tài)能力對于大語言模型來說是個重要的發(fā)展方向,像 GPT-4、 Character.AI 和 Meta 的 ImageBind 等模型已經(jīng)在處理和生成圖像、音頻等內(nèi)容。

“我們現(xiàn)在的模型確實是字面意義上的‘盲人’,這需要改變?!盇idan Gomez 在采訪中總結(jié)道。

多模態(tài)模型能夠極大地拓寬 AI 的應(yīng)用場景,例如可以用在自動駕駛汽車或其他需要與物理世界實時交互的場景上。此前,Google 在 I/O 大會發(fā)布的 Med-PalM-2 模型便展示過可以分析 X 光照片的能力。

這也讓人更加期待,更強大的 Gemini 能在多模態(tài)領(lǐng)域給我們帶來多大的驚喜。現(xiàn)在看來,暫時取得領(lǐng)先的 OpenAI,遠沒有到停下來休息的時刻。

本文來自微信公眾號:APPSO (ID:appsolution),作者:黃智健

關(guān)鍵詞:

最新文章