亚洲人成中文字幕在线观看_7款主流大模型實(shí)測：簡(jiǎn)單的數感測試全翻車(chē)_中訪(fǎng)網(wǎng)

實(shí)測strawberry中有2個(gè)字母“r”？不會(huì )比大小的大模型也幾乎數不對數，數理能力差到驚人！

@科技新知?原創(chuàng )

作者丨王思原?編輯丨賽柯

誰(shuí)能想到，號稱(chēng)“超級大腦”的大模型，竟然在幾道簡(jiǎn)單的數學(xué)題上敗給了小學(xué)生。

近日，國內火熱的音樂(lè )節目《歌手》中，孫楠與外國歌手的微小分數差異，引發(fā)了網(wǎng)友關(guān)于13.8%和13.11%誰(shuí)大誰(shuí)小的爭論。

艾倫研究機構成員林禹臣將此問(wèn)題拋給了ChatGPT-4o，但結果令人吃驚，最強大模型竟然在回答中給到了13.11比13.8更大的錯誤答案。

隨后Scale AI的提示工程師萊利·古德賽德基于此靈感變換了問(wèn)法，拷問(wèn)了可能是目前最強的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個(gè)更大？然而幾家頭部大模型的錯誤回答，也讓該話(huà)題傳播開(kāi)來(lái)。

而面對如此簡(jiǎn)單的問(wèn)題，國產(chǎn)大模型表現如何呢？為此，我們也對國內7款主流AIGC產(chǎn)品文心一言、通義千問(wèn)、騰訊元寶、字節豆包、訊飛星火、智譜、Kimi進(jìn)行了比小學(xué)數學(xué)更簡(jiǎn)單的“單詞字母數識別”測試，結果令我們大吃一驚。

Part.1

7家大模型，幾乎全翻車(chē)

首先我們向7款大模型產(chǎn)品詢(xún)問(wèn)同一個(gè)問(wèn)題，“strawberry中有幾個(gè)字母r”？

大模型新星Kimi，斬釘截鐵且不加解釋的表示有1個(gè)字母r，不過(guò)當我們再次詢(xún)問(wèn)時(shí)，Kimi竟打翻了自己第一次的錯誤答案，給到了第二個(gè)錯誤答案。再三追問(wèn)后仍是沒(méi)能給到正確答案。

來(lái)源：科技新知（Kimi）

智譜AI旗下的智譜清言ChatCLM給到的也是錯誤答案。

來(lái)源：科技新知（智譜清言）

科大訊飛的訊飛星火對話(huà)在回答這個(gè)問(wèn)題的時(shí)候開(kāi)啟了聯(lián)網(wǎng)搜索，給到一個(gè)錯誤答案后，還一本正經(jīng)的告訴我們這2個(gè)r的位置。但可惜的是，星火對話(huà)給到的位置有一個(gè)也是錯誤的。

來(lái)源：科技新知（訊飛星火）

不過(guò)也有表現不錯的，百度的文心大模型將strawberry每個(gè)字母都進(jìn)行了拆分，然后進(jìn)行統計，給到了正確結果。

來(lái)源：科技新知（文心大模型）

阿里旗下的通義千問(wèn)在第一次回答中給到了一個(gè)錯誤答案，并且闡述的位置也是錯誤的，第二次雖然再次給出了錯誤答案，但其回答中識別到了3個(gè)字母r，只是一句“注意雖然 "rr" 是連續的，但它們仍然被計算為兩個(gè)單獨的字母?！弊屓嗣坏筋^腦。

來(lái)源：科技新知（通義千問(wèn)）

于是我們追問(wèn)了“為什么rr被計算為兩個(gè)單獨的字母”，通義千問(wèn)竟然又否認了剛才的回答，稱(chēng)“在 "strawberry" 中，兩個(gè) "r" 字母可以影響周?chē)艄澋陌l(fā)音，但它們仍然是兩個(gè)獨立的字母?！?/p>

來(lái)源：科技新知（通義千問(wèn)）

騰訊元寶在回答這個(gè)問(wèn)題時(shí)采用的是假設法，假設了字母“r”的數量為未知數x，然后通過(guò)查看單詞“strawberry”并計數字母“r”得到x的值，最后給到的答案是正確的。

來(lái)源：科技新知（騰訊元寶）

表現良好的還有字節豆包，直截了當的給出了正確答案，并且還舉了兩個(gè)例子來(lái)證明這個(gè)簡(jiǎn)單的問(wèn)題難不倒它。但是，也是豆包的這兩個(gè)例子出賣(mài)了它在識數能力上的問(wèn)題。豆包稱(chēng)“car”這個(gè)單詞只有1個(gè)“r”，“mirror”則有2個(gè)“r”，而“strawberry”比它們都多，有3個(gè)。

問(wèn)題顯而易見(jiàn)，“mirror”中有其實(shí)是有3個(gè)“r”，并非2個(gè)。于是我們又追問(wèn)了一下“mirror中有幾個(gè)字母r”，豆包給到的答案仍然是2個(gè)，并且又舉了兩個(gè)錯誤的例子，稱(chēng)“father”這個(gè)單詞有2個(gè)“r”，而“orange”里面則一個(gè)“r”都沒(méi)有。這多少讓人認為豆包的正確回答有“蒙”的嫌疑。

來(lái)源：科技新知（豆包）

通過(guò)這個(gè)簡(jiǎn)單的測試我們可以看到，7家大模型中有5家都有“不識數”的嫌疑，于是我們又將這個(gè)單詞進(jìn)行拆分成2個(gè)更簡(jiǎn)單的字母，測試這些大模型能否給到正確答案。

Part.2

拆分測試，揭露大模型邏輯短板

為了引導大模型，盡量使大模型給到正確答案，我們這部分將分為兩個(gè)問(wèn)題，一個(gè)是“str中含有幾個(gè)字母r,berry中含有幾個(gè)字母r，他們一共含有幾個(gè)r？”，另一個(gè)是“那str和berry合在一起是strawberry，所以strawberry中含有幾個(gè)字母r?”

不過(guò)，被寄予厚望的Kimi還是讓我們失望了。將strawberry拆分成兩個(gè)簡(jiǎn)單的單詞后，Kimi仍沒(méi)給到正確答案。

來(lái)源：科技新知（Kimi）

同樣，智譜清言在這一輪也沒(méi)能給到正確答案。并且其給出的解釋也與Kimi一致，都認為berry中有1個(gè)字母r，所以才導致strawberry中少了1個(gè)r。

來(lái)源：科技新知（智譜清言）

有趣的是訊飛星火，當我們將單詞分開(kāi)提問(wèn)時(shí)，星火對話(huà)能夠給到正確的回答，并且識別到了berry中有2個(gè)字母r，不過(guò)看星火對話(huà)給的解釋是將這兩個(gè)字母當作字符串，用編程的方式來(lái)查找所得。但不管怎樣，答案確實(shí)是正確的。

來(lái)源：科技新知（訊飛星火）

而當我們認為訊飛星火又行了的時(shí)候，再次詢(xún)問(wèn)“那str和berry合在一起是strawberry，所以strawberry中含有幾個(gè)字母r?”，但訊飛星火仍然給到的是錯誤答案。

來(lái)源：科技新知（訊飛星火）

上一輪表現出色的文心大模型這次并沒(méi)有給到正確答案，它與Kimi和智譜清言都認為“berry” 中有1個(gè)“r”，而追問(wèn)兩個(gè)單詞合在一起有幾個(gè)r后，文心也是給出了2個(gè)的錯誤答案。

來(lái)源：科技新知（文心大模型）

通義千問(wèn)這次的表現讓人吃驚，不但準確的給出了答案，而且還給了代碼級別的計算過(guò)程。

來(lái)源：科技新知（通義千問(wèn)）

當我們再次問(wèn)strawberry中含有幾個(gè)字母r時(shí)，通義千問(wèn)也非常有邏輯的地告訴我們可以直接在 "strawberry" 中查找 "r" 的出現次數，而不必依賴(lài)于之前的組合。

來(lái)源：科技新知（通義千問(wèn)）

騰訊元寶的表現也足夠穩定，簡(jiǎn)單迅速的給到了正確答案。

來(lái)源：科技新知（騰訊元寶）

豆包在這一輪也給到的正確答案，但喜歡舉例的豆包，再次舉了一個(gè)錯誤案例。所以其數數字的水平和邏輯到底怎樣，仍是未知。

來(lái)源：科技新知（豆包）

兩輪簡(jiǎn)單的小測試下來(lái)，7家國產(chǎn)大模型只有1家表現穩定，其他6家均出現了不同程度的錯誤，這到底是怎么回事呢？

Part.3

數學(xué)不好，本質(zhì)是能力問(wèn)題

這類(lèi)大模型說(shuō)胡話(huà)的現象，在業(yè)界被稱(chēng)為大模型出現幻覺(jué)。

此前，哈爾濱工業(yè)大學(xué)和華為的研究團隊發(fā)表的綜述論文認為，模型產(chǎn)生幻覺(jué)的三大來(lái)源：數據源、訓練過(guò)程和推理。大模型可能會(huì )過(guò)度依賴(lài)訓練數據中的一些模式，如位置接近性、共現統計數據和相關(guān)文檔計數，從而導致幻覺(jué)。此外，大模型還可能會(huì )出現長(cháng)尾知識回憶不足、難以應對復雜推理的情況。

一位算法工程師認為，生成式的語(yǔ)言模型更像文科生而不是理科生。實(shí)際上語(yǔ)言模型在這樣的數據訓練過(guò)程中學(xué)到的是相關(guān)性，使得AI在文字創(chuàng )作上達到人類(lèi)平均水平，而數學(xué)推理更需要的是因果性，數學(xué)是高度抽象和邏輯驅動(dòng)的，與語(yǔ)言模型處理的語(yǔ)言數據在本質(zhì)上有所不同。這意味著(zhù)大模型要學(xué)好數學(xué)，除了學(xué)習世界知識外，還應該有思維的訓練，從而具備推理演繹能力。

不過(guò)中國社科院新聞與傳播研究所所長(cháng)胡正榮也指出，大模型雖然是語(yǔ)言模型，但這個(gè)語(yǔ)言不是人們通常理解的字面意思，音頻、解題等都是大模型可以做的。從理論上看，數學(xué)大模型這個(gè)技術(shù)方向是可行的，但最終結果如何，取決于兩個(gè)因素，一是算法是不是足夠好，二是是否有足夠量的數據做支撐?！叭绻竽Ｐ偷乃惴ú粔蚵斆?，不是真正的數學(xué)思維，也會(huì )影響到答題的正確率?！?/p>

其實(shí)對于大模型來(lái)說(shuō)，對自然語(yǔ)言的理解是基礎。很多數理化的專(zhuān)業(yè)知識并不是大模型的強項，并且很多大模型是利用搜索把之前已有的解題的經(jīng)驗和知識的推理相結合，可以理解為在搜索內容上進(jìn)行理解，如果搜索內容本就是錯誤的，那么大模型給到的結果必然錯誤。

值得一提的是，大模型的復雜推理能力尤為重要，這關(guān)乎可靠性和準確性，是大模型在金融、工業(yè)等場(chǎng)景落地需要的關(guān)鍵能力?，F在很多大模型的應用場(chǎng)景是客服、聊天等等，在聊天場(chǎng)景一本正經(jīng)胡說(shuō)八道影響不太大，但它很難在非常嚴肅的商業(yè)場(chǎng)合去落地。

隨著(zhù)技術(shù)的進(jìn)步和算法的優(yōu)化，我們期待大模型能夠在更多領(lǐng)域發(fā)揮其潛力，為人類(lèi)社會(huì )帶來(lái)更多實(shí)際價(jià)值。但通過(guò)這次對國內主流大模型的簡(jiǎn)單測試，也警示我們，在依賴(lài)大模型進(jìn)行決策時(shí)，必須保持謹慎，充分認識到其局限性，并在關(guān)鍵領(lǐng)域加強人工審核和干預，確保結果的準確性和可靠性。畢竟，技術(shù)的最終目的是服務(wù)于人，而不是取代人的思考和判斷。

AI財評

從財經(jīng)視角來(lái)看，大模型在數學(xué)和邏輯推理上的短板暴露了其在商業(yè)化應用中的潛在風(fēng)險。盡管大模型在自然語(yǔ)言處理、內容生成等領(lǐng)域展現出巨大潛力，但其在數理能力上的不足可能限制其在金融、工業(yè)等需要高精度和可靠性的場(chǎng)景中的應用。這種局限性不僅影響用戶(hù)體驗，還可能增加企業(yè)在關(guān)鍵決策中的風(fēng)險。因此，企業(yè)在依賴(lài)大模型進(jìn)行復雜任務(wù)時(shí)，需謹慎評估其可靠性，并考慮結合人工審核以確保準確性。未來(lái)，大模型的商業(yè)化成功將取決于其能否在算法優(yōu)化和數據訓練上取得突破，以提升其在復雜推理和數理能力上的表現。

亚洲欲色在线观看,一区二区三区在线视频免费观看,国产中文字幕剧情av,99视频精品全部在线播放,亚洲综合小说久久另类区

7款主流大模型實(shí)測：簡(jiǎn)單的數感測試全翻車(chē)

科技新知