伊人av在线播放,国产精品亚洲一区二区无码,亚洲观看黄色网

新模型“屠榜”，對話谷歌團隊：AI“新旗手”如何誕生

來源：第一財經作者：劉曉潔2025-11-19 14:12

11月19日，預熱已久、全網熱議的Gemini 3終于正式亮相。谷歌這次打出的不是小修小補的普通升級，而是一張“王牌”——在幾乎所有主流基準測試中實現全面領先，大模型的競爭格局可能就此改寫。甚至有業內人士預言：“未來六個月內，很難有公司能夠超越這一成績?！?/p>

發布不久，OpenAI CEO 奧爾特曼與特斯拉CEO 馬斯克便先后公開表示祝賀。奧爾特曼稱其“看起來是個很棒的模型”，評論區則調侃“這句來自競爭對手的夸獎真是暖心”。馬斯克也一如既往地送上“Nice work”的評價。

一向風格嚴謹的谷歌，這次也顯得格外高調。官方博客標題直接打出“開啟智慧新紀元”，內容中多次強調“最佳”“最先進”。谷歌員工也紛紛在社交媒體上為自家產品助陣，谷歌CEO桑達爾·皮查伊（Sundar Pichai）今天已經連發了8條帖子介紹Gemini 3。

在正式發布前，第一財經參與了谷歌面向媒體的小范圍溝通會，盡管對模型進展已有預期，但行業的熱烈反響仍超出想象。大家驚嘆于谷歌的進步速度，三個月前做不到的設計現在可以一鍵生成了，AI編程也是“Next Level”了，有人感慨“這行業發展速度太快了”。

谷歌在三年間完成了從追趕到領先的反超，谷歌DeepMind的CTO 科雷·卡武克喬格魯（Koray Kavukcuoglu）在媒體溝通會上認為，谷歌差異化的全棧市技術方案很重要，從硬件到研究所有環節環環相扣。第一財經也問及如何看待縮放定律（Scaling laws）放緩的問題，他回答稱，技術進步不一定體現在全新能力的誕生，更體現在 “模型能賦能的新場景”上。

新模型“屠榜”

今天凌晨皮查伊發了條帖子，內容只有一張圖，但這張圖足夠有說服力，Gemini 3 Pro幾乎“屠榜”，在所有主要競技場排行榜上排名第一。

具體來看，在 “人類最后一次考試”（Humanities's Last Exam，一項衡量深度理解能力的基準測試，要求模型具備多步驟邏輯推理與專家級演繹能力）中，Gemini 3 Pro 在不使用工具的情況下取得了 37.5%的成績，而排名第二的GPT.5.1只有26.5%，領先了10個百分點。

在衡量研究生水平推理與知識儲備的 GPQA Diamond 測試中，Gemini 3 Pro的得分更是達到 91.9%，緊隨其后的GPT.5.1是88.1%。這意味著，Gemini 3 Pro 在解決科學與數學問題時，不僅能力強，而且可靠性極高。

在多模態能力上，它的理解和推理都達到新高度：Gemini 3 Pro以81%的MMMU-Pro分數和87.6%的Video-MMMU分數直接刷新了多模態推理的紀錄。

在推理能力上，Gemini 3 Pro刷新了Grok4.1剛剛取得的成績，以1501分登頂LMArena排行榜，而Grok4.1的思考模型是1484分。

榜單僅僅是能力的一部分，谷歌對新模型的定義是，“Gemini 3 能將任何想法變為現實”，因此，作為用戶的實際體驗更為重要。

有用戶測試了一款高難度光影質感的海報，在3個月前，谷歌的Nano Banana還和GPT有明顯的差距，但現在已經成了，“沒想到這段很長的路谷歌只走了三個月”。還有一位博主感慨“Gemini 3 Pro實在是太強了”，讓模型復刻一個Mac OS的網頁，“預期已經很高了，它仍然超過了我的預期”?！坝H眼看Gemini 3 Pro一口氣寫完一個web操作系統，腦子里嗡嗡的”，另一個用戶表示。

在溝通會中，媒體也問及產品團隊訓練這款新模型過程中的一些“頓悟時刻”（Aha moments），谷歌DeepMindGemini模型產品總監圖西·多西（TulseeDoshi）表示，第一次用它進行代碼生成時，最令人驚嘆的是，只需簡單提示，就能生成各類游戲，且在精細度上極具優勢。比如，生成 3D 可視化內容，還能在其中直接玩游戲，這種體驗非常棒。

谷歌DeepMindCEO戴密斯·哈薩比斯（Demis Hassabis）也在用模型做游戲，他在帖子中很自豪地表示，模型“當然在各大排行榜上都名列前茅”，但除了這些基準測試之外，它也憑借獨特的風格和強大的功能，在日常任務中有出色表現。他提及自己最近一直在用 Gemini 3玩一些編程，比如用了幾個小時就重現了一款游戲，且細節呈現很出色。

Gemini智能體還有哪些潛在使用場景？斯特魯哈爾在會上提到，他個人已經在用模型處理兩類事情，效果很好。一個是購買票務，另一個是用智能體模式整理郵件收件箱。

“我每天早上醒來都會收到 50 多封郵件，逐一查看、判斷該如何處理要花很久?，F在我會用智能體幫忙梳理：它會提煉出郵件里的待辦任務，篩選出需要我回復的郵件，還會標注出可以忽略的郵件，這真的節省了大量時間?！彼固佤敼柋硎荆约阂矔媚Ｐ蛠碣I演唱會門票，讓智能體根據家庭成員直接篩選出合適的票務組合，而他只需點擊一個“購買”。

谷歌團隊的期望是，用戶可以用新的模型來處理生活中遇到的 “多步驟復雜的任務”，這是這款模型的強項。

AI行業“新的旗手”來了？

除了能力上的躍升，谷歌此次還有兩個動作較為值得關注，一個是在發布的第一天就將Gemini 3帶入谷歌搜索，另一個則是發布了全新的“類IDE”AI編程產品Antigravity，押注編程領域。

這意味著，新發布的模型已經足夠成熟，能在商業化的場景中應用。官方表示，Gemini 3為搜索引擎帶來了很強的推理能力，還解鎖了新的生成UI體驗，用戶可以使用專門生成的交互式工具和模擬來獲得動態視覺布局。

比如，當用戶詢問關于物理學里的三體問題，能直接得到一個可以交互的模擬界面，用戶能通過改變變量來觀察結果。

團隊認為，此次發布的模型也是內部迄今為止最強的“氛圍式代碼生成”模型，而谷歌基于此推出的Antigravity則更進一步完善產品體驗，類似AI IDE，智能體可以代表用戶自主地規劃和執行復雜的端到端軟件任務。

在溝通會中談及Antigravity時，卡武克喬格魯認為，大語言模型已經徹底改變了編程方式，它們能讓工程師和軟件開發者 “站在更高層面”工作，在智能體的幫助下處理復雜任務，而 Antigravity正是在這一基礎上構建的。

目前市場上也有其他 IDE 產品，卡武克喬格魯表示，谷歌的模型仍將在各類 IDE 中可用，也會通過 API 向開發者開放，但Antigravity能為團隊提供“另一種與開發者互動的方式”，團隊能借此了解用戶的使用場景、真實任務需求和面臨的挑戰，進而反過來優化模型。

谷歌此次的動作也讓外界開始猜測是否在AI編程領域與Anthropic和Cursor這樣的編程模型和工具展開競爭。

卡武克喬格魯回應表示，在這次發布中谷歌仍與 Cursor 保持著緊密的合作關系。他們的目的不是競爭，對團隊來說看重的是“在用戶所在的場景觸達他們”。目前，人工智能開發仍處于早期階段，它對不同領域、不同行業的影響還在探索中?！拔覀冋J為，保持開放實驗的態度很重要?！?/p>

但無論如何，谷歌確實已經甩開了競爭對手一步，這些動作也必然會讓同類產品有所忌憚，比如“Anthropic或許已經滿頭大汗了”，此前靠著在編程領域的領先性能，Anthropic的營收快速增長，估值也一路走高，但看起來這個優勢已經被谷歌追平了。

市場認為，對于谷歌而言，Gemini 3或許也是重要的里程碑。自2022年底ChatGPT發布以來，谷歌一直被認為“起大早趕晚集”，在AI競賽中處于追趕OpenAI的狀態，但新的模型可能會改寫格局，谷歌有機會奪得領先地位，尤其是OpenAI的GPT-5被指“噱頭大于實際”的情況下，AI產業正需要一個新的旗手。

甚至有聲音稱“谷歌正在托起AI牛市敘事”，近日海外的Loop Capital (路普資本)將谷歌母公司的評級從“持有”上調至“買入”，目標股價從每股 260美元上調至 320美元。而谷歌前幾日股價一度大漲，市值突破3.5萬億美元，創歷史新高，目前回落到3.43萬億美元，但仍然是歷史高位。

此前巴菲特旗下伯克希爾·哈撒韋披露已經重倉買入谷歌，成為該公司第十大股票持倉，引發資本市場圍觀。Loop Capital的分析指出，“搜索擔憂不再有效”，因為 Gemini 的流量份額同比翻了一番。這種日益增長的參與度凸顯了一個關鍵洞察：谷歌正在有效利用其龐大的用戶基礎和產品生態系統來推動AI的采用，將生成能力直接嵌入數百萬人的日常數字體驗中。

在溝通會上，卡武克喬格魯公布了Gemini用戶的數據：月活躍用戶已超過 6.5 億，有超過 1300 萬名開發者正在基于 Gemini 構建模型與人工智能應用，而由 Gemini 支持的搜索中的AI概覽功能，每月用戶量超過 20 億。

谷歌為什么能在三年之間就完成了從追趕到領先的反超？卡武克喬格魯分析認為，核心原因之一是團隊始終保持著極快的發展節奏，而其中最關鍵的支撐，是谷歌極具差異化的全棧式技術方案。

這套全棧方案從硬件投資開始：首先是數據中心的基礎設施建設，接著是芯片，尤其是谷歌高性能TPU（張量處理單元），這些芯片之間的網絡連接方式構建成了支持模型訓練的計算集群，進而支撐谷歌前沿的AI研究。簡單來說，從硬件的設計，到大規模訓練的實現，再到突破性的研究成果，最后到基礎模型的能力提升，所有環節環環相扣、協同作用。

就在這半年，Gemini 應用的用戶增長顯著，斯特魯哈爾認為其中一個關鍵因素是生圖產品Nano Banana帶來的病毒式傳播效應，尤其是在泰國、印度尼西亞、印度等國家，這是一款非常成功的產品，很多人都喜歡用它互動，還會分享給朋友，并且引發了手辦的潮流。

從去年底開始，就有聲音認為，大模型的迭代速度已經放緩，縮放定律也不再有效，但谷歌此次的大模型似乎仍取得了一些顯著的進步，谷歌如何看待目前的發展趨勢？

卡武克喬格魯對第一財經記者表示，觀察一個領域的發展，關鍵要看它對各個行業的實際影響，而AI領域的影響正在日益擴大，越來越多的職業人士用 AI 輔助工作。

“AI 模型在日常生活中的影響力越來越大，從這個角度來看，技術進步的速度其實非?？?。從我們自身的模型能力迭代來看，也能看到很多令人興奮的進展?！笨ㄎ淇藛谈耵斦J為，不應該將技術進步限制在全新能力的誕生，“模型能賦能的新場景”同樣是一個指標。從預訓練到后訓練的整個模型開發流程中，他們都看到了全方位的積極進展，而且這種趨勢還會持續一段時間。

谷歌認為，Gemini 3 是團隊邁向通用人工智能 (AGI)的下一步。目前這一步顯然比OpenAI和xAI這樣的同類競爭對手更快。

在奧爾特曼恭喜谷歌新模型發布的評論區里，熱門評論是，“你的口袋里還有什么”？下一步該輪到對手們出牌了。