智能時(shí)代的一次進(jìn)化

　　■在“高智商”的加持下，GPT-4o的反應(yīng)速度跳上了新臺(tái)階。它最快能夠在232毫秒內(nèi)響應(yīng)語音輸入，平均響應(yīng)時(shí)長(zhǎng)約320毫秒，這大約與人類對(duì)話相當(dāng)

　　■有媒體稱這預(yù)示著“智能時(shí)代的一次進(jìn)化”，未來移動(dòng)設(shè)備中的互聯(lián)網(wǎng)可能會(huì)被濃縮在一個(gè)程序之中，用戶可以通過它解決一切需求：發(fā)短信、導(dǎo)航、識(shí)物、打車等

　　Sora之后，美國(guó)開放人工智能研究中心（OpenAI）昨天凌晨推出“王炸”新模型GPT-4o。“o”是Omni（全能模型）的縮寫。GPT-4o不僅能夠?qū)崟r(shí)處理文本、音頻和圖像，還采用全新的語音交互模式，大幅提升人機(jī)對(duì)話的響應(yīng)速度，幾乎與真人對(duì)話相差無幾，它還會(huì)看人臉色、講笑話……總之，AI更像人，甚至更像一個(gè)朋友了。

　　在GPT-4o的“人性”背后，大模型正進(jìn)入多模態(tài)發(fā)展的新階段。模型不再追求長(zhǎng)文本的單一的語言對(duì)話，視覺、語音乃至情感都成為模型參數(shù)中的關(guān)鍵。對(duì)如今的“百模大戰(zhàn)”而言，這一變化是危機(jī)還是商機(jī)？

　　聰明又快速

　　作為ChatGPT的基礎(chǔ)技術(shù)模型，GPT-4o的能力將直接影響ChatGPT的用戶體驗(yàn)。“GPT-4o既聰明又快速，是自然的多模態(tài)。”OpenAI CEO山姆·奧特曼評(píng)價(jià)。

　　GPT-4o有多聰明？

　　根據(jù)OpenAI的發(fā)布會(huì)和官網(wǎng)披露的信息所示，GPT-4o不僅可以識(shí)別手寫字體，還能解答數(shù)學(xué)方程式，甚至還能識(shí)別圖像中的人物微表情。

　　根據(jù)傳統(tǒng)基準(zhǔn)測(cè)試，GPT-4o的性能對(duì)比GPT-4 Turbo（OpenAI去年11月發(fā)布的大模型）基本都處于優(yōu)勢(shì)，對(duì)比其他模型更是大幅領(lǐng)先。具體來說，GPT-4o在英語文本和代碼上的性能與GPT-4 Turbo類似，但在非英語文本上的性能顯著提高，與現(xiàn)有模型相比，GPT-4o在視頻和音頻方面表現(xiàn)尤為出色。

　　在“高智商”的加持下，GPT-4o的反應(yīng)速度跳上了新臺(tái)階。

　　它最快能夠在232毫秒內(nèi)響應(yīng)語音輸入，平均響應(yīng)時(shí)長(zhǎng)約320毫秒，這大約與人類對(duì)話相當(dāng)。如果對(duì)320毫秒的突破沒有直觀印象，不妨看看上一代模型的成績(jī)：語音對(duì)話模式下，ChatGPT的平均響應(yīng)時(shí)長(zhǎng)為2.8秒（基于GPT-3.5）和5.4秒（基于GPT-4）。

　　GPT-4o之所以這么快，離不開全新的神經(jīng)網(wǎng)絡(luò)處理流程。

　　“我們現(xiàn)在常見的‘Siri’‘小愛同學(xué)’等語音助理，以及GPT-3.5等上代大模型對(duì)語音對(duì)話的處理能力慢，至少需要三個(gè)步驟，反應(yīng)時(shí)間和處理速度延遲感強(qiáng)。”國(guó)內(nèi)某AI企業(yè)技術(shù)專家解釋稱，第一步，音頻轉(zhuǎn)文本將人的指令轉(zhuǎn)化為文本輸入；第二步，機(jī)器對(duì)文本理解并輸出文本；第三步，文本轉(zhuǎn)語音“說”給用戶，這才完成了語音對(duì)話的流程。“這樣的模式不僅慢，而且會(huì)遺漏許多語音中的信息熵值，也會(huì)影響對(duì)話的連貫性。”

　　在GPT-4o上，OpenAI跨文本、視覺和音頻端到端地訓(xùn)練了一個(gè)新模型，這意味著所有輸入和輸出都由同一模型來處理，實(shí)現(xiàn)真正的多模態(tài)交互。

　　高智商疊加反應(yīng)快，GPT-4o還模仿了人類的情感和幽默感，更具人情味。難怪山姆·奧特曼稱之為“人類級(jí)別的響應(yīng)”。

　　基于GPT-4o的天賦，ChatGPT不僅能實(shí)時(shí)語音對(duì)話，還能聽懂用戶對(duì)話的不同語氣和情緒狀態(tài)，還能相應(yīng)生成不同的情感表達(dá)，甚至可以要求GPT-4o唱歌，對(duì)話時(shí)幾乎感受不到僵硬的AI感。

　　經(jīng)過OpenAI的現(xiàn)場(chǎng)展示，不少人認(rèn)為，會(huì)提供情緒價(jià)值的“AI伴侶”已觸手可及。

　　國(guó)內(nèi)模型存代際差異

　　“現(xiàn)在主打情感陪伴的AI創(chuàng)業(yè)公司可以退場(chǎng)了。”驚訝于GPT-4o強(qiáng)大的共情能力，不少細(xì)分AI賽道隱隱感受到了危機(jī)。

　　此前，ChatGPT主要追求性能和生產(chǎn)力，不少創(chuàng)業(yè)公司錯(cuò)位競(jìng)爭(zhēng)，打造了一批“類人”AI產(chǎn)品，也吸引了部分用戶。比如InflectionAI的AI機(jī)器人Pi誕生一年就收獲了百萬級(jí)別的日活用戶。國(guó)內(nèi)大模型公司MiniMax推出一款名為Glow的虛擬聊天產(chǎn)品，僅四個(gè)月時(shí)間也吸引了數(shù)百萬用戶。

　　不同于Pi等純陪伴型的機(jī)器人，GPT-4o既能當(dāng)幫手，還是能開玩笑的“多面手”，無形中提高了AI的創(chuàng)業(yè)門檻。

　　“GPT-4o使得市場(chǎng)對(duì)AI產(chǎn)品的期望值大幅提高，創(chuàng)業(yè)公司需要投入更多資源來開發(fā)和優(yōu)化其AI模型。”上海市人工智能行業(yè)協(xié)會(huì)秘書長(zhǎng)鐘俊浩表示，如OpenAI、谷歌、蘋果等大公司，能夠更快地推出高性能AI模型，導(dǎo)致市場(chǎng)資源向這些大公司集中，初創(chuàng)公司難以獲取足夠的市場(chǎng)份額和投資。

　　不僅是創(chuàng)業(yè)公司，國(guó)內(nèi)AI巨頭的壓力也不小。

　　目前，國(guó)內(nèi)AI在多模態(tài)模型訓(xùn)練方面主要采用圖像和文字聯(lián)合訓(xùn)練，語音則是通過單獨(dú)的模型進(jìn)行處理并拆解完成上下游任務(wù)。與GPT-4o高度擬人化的多模態(tài)聯(lián)合訓(xùn)練相比，仍存在代際差異。

　　“據(jù)我了解，目前，國(guó)內(nèi)如上海人工智能實(shí)驗(yàn)室、字節(jié)跳動(dòng)、阿里和Minimax等企業(yè)也在進(jìn)行類似的多模態(tài)聯(lián)合訓(xùn)練研究，但很難說已經(jīng)有能夠匹敵GPT-4o的產(chǎn)品。”不過，鐘俊浩同時(shí)表示出樂觀，憑借國(guó)內(nèi)巨頭的研發(fā)能力，追趕GPT-4o并非遙不可及，在國(guó)內(nèi)算力基礎(chǔ)設(shè)施日益完善的前提下，“平替”產(chǎn)品的研發(fā)周期會(huì)大幅縮短。

　　據(jù)記者了解，商湯近期推出了商量擬人大模型“SenseChat-Character”，支持個(gè)性化角色創(chuàng)建與定制、知識(shí)庫(kù)構(gòu)建、長(zhǎng)對(duì)話記憶、多人群聊等功能，可實(shí)現(xiàn)行業(yè)領(lǐng)先的角色對(duì)話、人設(shè)及劇情推動(dòng)能力，可以廣泛應(yīng)用于情感陪伴、影視動(dòng)漫IP角色、明星網(wǎng)紅AI分身、語言角色扮演游戲等擬人對(duì)話場(chǎng)景。

　　多模態(tài)交互是大勢(shì)所趨

　　“大模型發(fā)展一年以來，能力快速上升的同時(shí)，發(fā)展趨勢(shì)也更加清晰。”阿里云首席技術(shù)官周靖人認(rèn)為，從單一語言模型到多模態(tài)混同發(fā)展是大勢(shì)所趨。

　　多模態(tài)模型，通常指能同時(shí)處理和整合多種類型數(shù)據(jù)（如文本、圖像、聲音等）的大模型，GPT-4o的橫空出世便是多模態(tài)模型的集大成。

　　國(guó)內(nèi)也在爭(zhēng)取抓住多模態(tài)的東風(fēng)，也取得了斐然的成績(jī)。

　　據(jù)第三方統(tǒng)計(jì)，2023年，國(guó)內(nèi)多模態(tài)AI概念股研發(fā)支出合計(jì)達(dá)到327.53億元，占營(yíng)收比例為11.2%，這一比例是同期A股整體水平的4.46倍。云從科技-UW、格靈深瞳、阿爾特、虹軟科技等概念股研發(fā)支出占營(yíng)收比超過50%，相當(dāng)于拿出超一半的營(yíng)收投入研發(fā)。

　　5月9日，阿里云發(fā)布的通義千問2.5，其多模態(tài)模型已初具影響力，如視覺理解模型Qwen-VL-Max在多個(gè)多模態(tài)標(biāo)準(zhǔn)測(cè)試中超越Gemini Ultra和GPT-4V，目前已在多家企業(yè)落地應(yīng)用。當(dāng)前，通義已發(fā)展出文生圖、智能編碼、文檔解析、音視頻理解等能力。

　　14日，騰訊也宣布旗下混元文生圖大模型全面升級(jí)，升級(jí)后采用了與Sora一致的DiT架構(gòu)，不僅可支持文生圖，也可作為視頻等多模態(tài)視覺生成的基礎(chǔ)。評(píng)測(cè)數(shù)據(jù)顯示，混元文生圖模型整體能力屬于國(guó)際領(lǐng)先水平。

　　作為OpenAI的春季升級(jí)產(chǎn)品，GPT-4o在多模態(tài)上的出色表現(xiàn)，更讓業(yè)界對(duì)即將到來的GPT-5產(chǎn)生濃厚興趣。

　　鐘俊浩預(yù)計(jì)，GPT-5在多模態(tài)的基礎(chǔ)上將進(jìn)一步強(qiáng)化多模態(tài)交互中的表現(xiàn)，不僅能夠處理文本，還能通過攝像頭、麥克風(fēng)等設(shè)備直接與現(xiàn)實(shí)環(huán)境互動(dòng)。例如，通過攝像頭識(shí)別物體并執(zhí)行相應(yīng)的指令，這將大大提升AI在現(xiàn)實(shí)場(chǎng)景中的實(shí)用性和交互體驗(yàn)。同時(shí)，GPT-5還可與第三方平臺(tái)無縫整合，例如智能家居設(shè)備及辦公系統(tǒng)等，以擴(kuò)展其應(yīng)用場(chǎng)景。

　　這也給AI創(chuàng)業(yè)公司帶來了新商機(jī)。“創(chuàng)業(yè)公司不妨利用OpenAI提供的API（編程接口）來增強(qiáng)其產(chǎn)品功能，在垂直領(lǐng)域找到與科技巨頭的互補(bǔ)點(diǎn)，或針對(duì)特定行業(yè)或用戶需求，開發(fā)定制化解決方案。”鐘俊浩建議。（來源：解放日?qǐng)?bào)）

欧美日本在线,bbbbbxxxxx在线观看,精品99在线观看,一区二区欧美视频,美女一级**毛片视频,国产www色,国产免费一级高清淫曰本片

OpenAI推“王炸”新模型聰明又快速還會(huì)提供情緒價(jià)值

欧美日本在线,bbbbbxxxxx在线观看,精品99在线观看,一区二区欧美视频,美女一级**毛片视频,国产www色,国产免费一级高清淫曰本片

OpenAI推“王炸”新模型 聰明又快速還會(huì)提供情緒價(jià)值

OpenAI推“王炸”新模型聰明又快速還會(huì)提供情緒價(jià)值