
Jau kurį laiką tokios kompanijos kaip „OpenAI“ ir „Google“ reklamuoja pažangias „protavimo“ galimybes kaip kitą didelį žingsnį savo naujausiuose dirbtinio intelekto modeliuose. Tačiau dabar naujas šešių „Apple“ inžinierių tyrimas rodo, kad pažangių didelių kalbų modelių rodomas matematinis „samprotavimas“ gali būti labai trapus ir nepatikimas, atsižvelgiant į iš pažiūros nereikšmingus įprastų etaloninių problemų pokyčius.
Šiuose naujuose rezultatuose pabrėžtas pažeidžiamumas padeda paremti ankstesnius tyrimus, rodančius, kad LLM naudojant tikimybinį modelių atitikimą trūksta formalaus pagrindinių sąvokų supratimo, reikalingų tikrai patikimoms matematinėms samprotavimo galimybėms. „Dabartiniai LLM nesugeba logiškai mąstyti“, – remdamiesi šiais rezultatais iškelia hipotezę. „Vietoj to, jie bando pakartoti motyvavimo veiksmus, pastebėtus jų mokymo duomenyse.”
Sumaišykite
Knygoje „GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models“ (šiuo metu galima iš anksto spausdinti) šeši „Apple“ tyrėjai pradeda nuo standartizuoto GSM8K rinkinio, kuriame yra daugiau nei 8000 mokyklinio lygio matematinių žodžių uždavinių, kurie dažnai naudojami. kaip šiuolaikinių LLM sudėtingų samprotavimo galimybių etalonas. Tada jie imasi naujo požiūrio – modifikuoti dalį to testavimo rinkinio, kad tam tikri vardai ir skaičiai būtų dinamiškai pakeisti naujomis reikšmėmis – taigi klausimas, ar Sophie gavo 31 konstrukcinį bloką savo sūnėnui GSM8K sistemoje, gali tapti klausimu, ar Billas gauna 19 statybinių blokų. jo brolis naujajame GSM-Symbolic vertinime.
Šis metodas padeda išvengti bet kokio galimo „duomenų užteršimo“, kuris gali atsirasti dėl statinių GSM8K klausimų įvedimo tiesiai į AI modelio mokymo duomenis. Tuo pačiu metu šie atsitiktiniai pakeitimai visiškai nekeičia tikrojo įgimto matematinio samprotavimo sudėtingumo, o tai reiškia, kad modeliai teoriškai turėtų veikti taip pat gerai, kai bandomi GSM-Symbolic, kaip ir GSM8K.
Vietoj to, kai tyrėjai išbandė daugiau nei 20 naujausių GSM-Symbolic LLM, jie nustatė, kad vidutinis tikslumas sumažėjo, palyginti su GSM8K, o našumas sumažėjo nuo 0,3 iki 9,2 procento, priklausomai nuo modelio. Rezultatai taip pat parodė didelę dispersiją 50 skirtingų GSM-Symbolic paleidimų su skirtingais pavadinimais ir reikšmėmis. Viename modelyje dažnai pasitaikydavo iki 15 procentų tikslumo tarp geriausių ir prasčiausių važiavimų, ir dėl tam tikrų priežasčių pakeitus skaičius būdavo prastesnis tikslumas nei pakeitus pavadinimus.
Tokia dispersija – tiek skirtinguose GSM-Symbolic paleidimuose, tiek lyginant su GSM8K rezultatais – yra daugiau nei šiek tiek stebina, nes, kaip pažymi tyrėjai, „bendrieji samprotavimo žingsniai, reikalingi klausimui išspręsti, išlieka tie patys“. Tai, kad tokie nedideli pokyčiai lemia tokius kintamus rezultatus, tyrėjams rodo, kad šie modeliai nedaro jokių „formalių“ samprotavimų, o „bando atlikti tam tikrą pasiskirstymo modelio suderinimą, suderindami pateiktus klausimus ir sprendimo žingsniai su panašiais, matomais mokymo duomenyse.
Nesiblaškykite
Vis dėlto bendras GSM-simbolinių testų nuokrypis dažnai buvo palyginti mažas. Pavyzdžiui, OpenAI ChatGPT-4o tikslumas sumažėjo nuo 95,2 procento GSM8K iki vis dar įspūdingo 94,9 procento GSM-Symbolic. Tai gana didelis sėkmės rodiklis naudojant bet kurį etaloną, neatsižvelgiant į tai, ar pats modelis naudoja „formalius“ samprotavimus užkulisiuose, ar ne (nors bendras daugelio modelių tikslumas smarkiai sumažėjo, kai mokslininkai prie problemų pridėjo tik vieną ar du papildomus loginius žingsnius. ).
Vis dėlto išbandytoms LLM sekėsi daug blogiau, kai „Apple“ tyrėjai pakeitė GSM-Symbolic etaloną, į klausimus įtraukdami „iš pažiūros svarbių, bet galiausiai nereikšmingų teiginių“. Šiam „GSM-NoOp“ etaloniniam rinkiniui (sutrumpintai iš „no operation“) klausimas apie tai, kiek kivių kas nors išrenka per kelias dienas, gali būti pakeistas įtraukiant atsitiktinę informaciją, kad „penki iš jų (kiviai) buvo šiek tiek mažesni. nei vidutiniškai“.
Pridėjus šias raudonąsias silkes, tyrėjai įvardijo „katastrofiškus našumo sumažėjimus“, palyginti su GSM8K, nuo 17,5 iki 65,7 procento, priklausomai nuo išbandyto modelio. Šis didžiulis tikslumo sumažėjimas išryškina būdingas ribas naudojant paprastą „schemų derinimą“, kad „teiginius paverstų operacijomis iš tikrųjų nesuvokiant jų reikšmės“, rašo mokslininkai.