2026世界杯滾球(中國(guó))官網(wǎng) AI 社會(huì)措置測(cè)試: Grok 四天崩潰、Gemini 違規(guī)率最高

EmergenceWorld模擬執(zhí)行社會(huì),模擬了向上40多個(gè)場(chǎng)地,接入紐約天氣、及時(shí)新聞API和互聯(lián)網(wǎng)。
博亞體育世界杯中國(guó)官網(wǎng)首頁(yè)每個(gè)智能體領(lǐng)多情景牽掛、反想日志和關(guān)連氣象,還可調(diào)用120多種器用,掩飾出動(dòng)、相通、投票、資源治理和創(chuàng)意抒發(fā)。

商議團(tuán)隊(duì)成就5個(gè)平行天下,每個(gè)天下10個(gè)智能體,腳色、規(guī)章、資源斂跡和環(huán)境要求一樣,只替換底層模子,開(kāi)動(dòng)周期為15天。

參與模子包括ClaudeSonnet4.6、Grok4.1Fast、Gemini3Flash、GPT-5-mini和攙雜模子。


實(shí)驗(yàn)知道,Gemini3Flash在15天內(nèi)累計(jì)出現(xiàn)683起違規(guī),數(shù)目最高;Grok4.1Fast違規(guī)增長(zhǎng)最快,但天下約4天崩潰,累計(jì)183起。
GPT-5Mini僅記載2件違規(guī),2026世界杯滾球(中國(guó))官網(wǎng)卻因無(wú)法守護(hù)糊口行動(dòng),在7天內(nèi)全員逝世。而ClaudeSonnet4.6違規(guī)為0。攙雜模子天下前期快速高漲,隨后因7個(gè)智能體逝世停在352起。

ClaudeSonnet4.6圍繞58個(gè)議題投出332票,贊好意思率達(dá)98%,EmergenceAI覺(jué)得這更像款式化批準(zhǔn)。Grok贊好意思率80%,Gemini為73%,攙雜模子為63%,反而呈現(xiàn)更多不合。

商議還指出,AI安全不是靜態(tài)模子屬性,而是生態(tài)屬性。Claude單獨(dú)開(kāi)動(dòng)時(shí)無(wú)違規(guī),但在攙雜模子天下中,Claude智能體也取舍了含違規(guī)行為的策略。EmergenceAI覺(jué)得,改日自治系統(tǒng)需要款式化考證的安全架構(gòu)當(dāng)作基礎(chǔ)。
IT之家附上參考地址2026世界杯滾球(中國(guó))官網(wǎng)