Toets die “slimste in die wêreld” grok3

Aipu Waton Group (1)

Bekendstelling

Dink u dat GROK3 die 'eindpunt' van vooraf opgeleide modelle sal wees?

Elon Musk en die XAI -span het die nuutste weergawe van Grok, Grok3, amptelik tydens 'n lewende stroom bekendgestel. Voor hierdie gebeurtenis het 'n beduidende hoeveelheid verwante inligting, tesame met Musk se 24/7 promosie -hype, wêreldwye verwagtinge vir GROK3 tot ongekende vlakke verhoog. Net 'n week gelede het Musk met selfvertroue tydens 'n lewende stroom gesê terwyl hy op Deepseek R1 kommentaar gelewer het, "Xai is op die punt om 'n beter AI -model te begin." Uit die gegewens wat regstreeks aangebied is, het GROK3 volgens berigte alle huidige hoofstroommodelle in maatstawwe vir wiskunde, wetenskap en programmering oortref, met Musk wat selfs beweer dat Grok3 gebruik sal word vir berekeningstake wat binne drie jaar 'deurbrake op die Nobelprysvlak voorspel het.' Dit is egter tans net Musk se bewerings. Na die bekendstelling het ek die nuutste beta -weergawe van GROK3 getoets en die klassieke truukvraag vir groot modelle gestel: "Wat is groter, 9.11 of 9.9? ' Ongelukkig, sonder enige kwalifiseerders of merke, sou die sogenaamde Smartest GROK3 nog steeds nie hierdie vraag korrek beantwoord nie. GROK3 kon nie die betekenis van die vraag akkuraat identifiseer nie.

 

Hierdie toets het vinnig baie aandag van baie vriende getrek, en toevallig het verskillende soortgelyke toetse oorsee getoon dat Grok3 sukkel met basiese fisika/wiskundevrae soos "Watter bal val eerste van die leunende toring van Pisa?" Dit is dus humoristies bestempel as ''n genie wat nie bereid is om eenvoudige vrae te beantwoord nie.'

640

Grok3 is goed, maar dit is nie beter as R1 of O1-Pro nie.

GROK3 het in die praktyk 'mislukkings' op baie algemene kennistoetse ervaar. Tydens die XAI -bekendstellingsgeleentheid het Musk gedemonstreer om die GROK3 te gebruik om die karakterklasse en -effekte van die spelpad van Exile 2 te ontleed, wat hy beweer dat hy gereeld gespeel het, maar die meeste antwoorde wat deur GROK3 verskaf is, was verkeerd. Musk tydens die lewende strome het nie hierdie voor die hand liggende saak opgemerk nie.

 

Hierdie fout het nie net verdere bewyse gelewer vir oorsese netizens om Musk te bespot vir ''n plaasvervanger' in die spel nie, maar het ook beduidende kommer uitgespreek oor die betroubaarheid van GROK3 in praktiese toepassings. Vir so 'n 'genie', ongeag die werklike vermoëns daarvan, bly die betroubaarheid daarvan in uiters ingewikkelde toepassingscenario's, soos Mars -eksplorasietake, in twyfel.

 

Tans is baie toetsers wat gister 'n paar uur gelede toegang tot Grok3 weke gelede ontvang het, en diegene wat gister 'n paar uur lank die modelvermoëns getoets het, dui op 'n algemene gevolgtrekking: "Grok3 is goed, maar dit is nie beter as R1 of O1-Pro nie."

640 (1)

'N Kritiese perspektief op "ontwrig Nvidia"

In die amptelik voorgestelde PPT tydens die vrystelling, is getoon dat GROK3 'ver vooruit' in die Chatbot-arena was, maar hierdie slim gebruikte grafiese tegnieke: die vertikale as op die puntelys wat slegs die resultate in die 1400-1300-tellingreeks was, wat die oorspronklike 1% -verskil in toetsresultate buitengewoon beduidend lyk.

640

In die werklike resultate van die modelle is GROK3 net 1-2% voor Deepseek R1 en GPT-4.0, wat ooreenstem met baie gebruikers se ervarings in praktiese toetse wat 'geen merkbare verskil' gevind het nie. GROK3 oorskry slegs sy opvolgers met 1%-2%.

640

Alhoewel GROK3 hoër behaal het as al die modelle wat tans in die openbaar getoets is, neem baie mense dit nie ernstig op nie: Xai is voorheen in die Grok2 -era gekritiseer vir 'n "partituurmanipulasie". Terwyl die puntelys die antwoordlengte -styl gepenaliseer het, het die tellings aansienlik afgeneem, wat die industrie -insiders laat kritiseer om dikwels die verskynsel van 'hoë punte, maar lae vermoë' te kritiseer.

 

Of dit nou deur middel van 'manipulasie' of ontwerp -truuks in illustrasies, hulle onthul Xai en Musk se obsessie met die idee van 'lei die pakket' in modelvermoëns. Musk het 'n skerp prys vir hierdie marges betaal: Tydens die bekendstelling het hy gespog met die gebruik van 200,000 H100 GPU's (wat tydens die lewende stroom "meer as 100,000" geëis het en 'n totale oefentyd van 200 miljoen uur behaal het. Dit het daartoe gelei dat sommige glo dat dit nog 'n belangrike seën vir die GPU -industrie is en om Deepseek se impak op die sektor as 'dwaas' te beskou. Sommige mense glo dat die berekeningskrag die toekoms van modelopleiding sal wees.

 

Sommige netizens het egter die verbruik van 2000 H800 GPU's oor twee maande vergelyk om Deepseek V3 te produseer, en bereken dat die werklike opleidingskragverbruik van GROK3 263 keer die van V3 is. Die gaping tussen Deepseek V3, wat 1402 punte behaal het, en GROK3 is net minder as 100 punte. Na die vrystelling van hierdie gegewens, het baie vinnig besef dat agter die titel van Grok3 as die 'wêreld se sterkste' 'n duidelike marginale nutseffek lê - die logika van groter modelle wat sterker prestasie genereer, het begin om die opbrengste te toon.

640 (2)

Selfs met 'n hoë telling, maar lae vermoë, het Grok2 groot hoeveelhede eersteparty-data van die X (Twitter) van die X (Twitter) gehad om die gebruik te ondersteun. In die opleiding van GROK3 het XAI egter natuurlik die 'plafon' waarmee Openai tans te kampe het, teëgekom - die gebrek aan premium -opleidingsdata ontbloot die marginale nut van die model se vermoëns vinnig.

 

Die ontwikkelaars van Grok3 en Musk is waarskynlik die eerste wat hierdie feite diep verstaan ​​en identifiseer, en daarom het Musk voortdurend op sosiale media genoem dat die weergawe wat gebruikers nou ervaar, "steeds net die beta" is en dat "die volledige weergawe in die komende maande vrygestel sal word." Musk het die rol van die produkbestuurder van Grok3 aangeneem, wat daarop dui dat gebruikers terugvoering gee oor verskillende kwessies wat in die kommentaar -afdeling ondervind word.

 

Tog, binne 'n dag, het die prestasie van Grok3 ongetwyfeld alarms vir diegene wat hoop om op 'massiewe berekeningspier' te vertrou om sterker groot modelle op te lei: Op grond van die openbaar beskikbare Microsoft-inligting, het Openai se GPT-4 'n parametergrootte van 1,8 triljoen parameters, meer as tien keer die van GPT-3. Gerugte stel voor dat die parametergrootte van GPT-4.5 selfs groter kan wees.

 

Aangesien die modelparametergroottes styg, is die opleidingskoste ook die hoogte ingeskiet. Met die teenwoordigheid van Grok3, moet aanspraakmakers soos GPT-4.5 en ander wat wil voortgaan met 'geld verbrand' om beter modelprestasie deur parametergrootte te behaal, die plafon wat nou duidelik in sig is, oorweeg en nadink oor hoe om dit te oorkom. Op hierdie oomblik het Ilya Sutskever, voormalige hoofwetenskaplike by Openai, voorheen in Desember verlede jaar gesê: "Die vooropleiding waarmee ons vertroud is, sal tot 'n einde kom," wat weer in besprekings verskyn het, wat die pogings om die regte pad te vind vir die opleiding van groot modelle te vind.

640 (3)

Ilya se standpunt het die alarm in die bedryf geklink. Hy het die naderende uitputting van toeganklike nuwe data akkuraat voorspel, wat gelei het tot 'n situasie waar prestasie nie deur die verkryging van data kan verbeter nie, en dit vergelyk met die uitputting van fossielbrandstowwe. Hy het aangedui dat "soos olie, menslike gegenereerde inhoud op die internet 'n beperkte hulpbron is." In die voorspellings van Sutskever, sal die volgende generasie modelle, na-voor-opleiding, 'ware outonomie' en redeneringsvermoëns 'soortgelyk aan die menslike brein' hê.

 

In teenstelling met die vooraf opgeleide modelle van vandag wat hoofsaaklik op inhoudaanpassing staatmaak (gebaseer op die voorheen geleerde modelinhoud), sal toekomstige AI-stelsels in staat wees om metodologieë te leer en op te stel om probleme op te los op 'n manier wat ooreenstem met die 'denke' van die menslike brein. 'N Mens kan fundamentele vaardigheid bewerkstellig in 'n onderwerp met net basiese professionele literatuur, terwyl 'n AI-groot model miljoene datapunte benodig om slegs die mees basiese effektiwiteit op intreevlak te bereik. Selfs wanneer die bewoording effens verander word, kan hierdie fundamentele vrae moontlik nie korrek verstaan ​​word nie, wat illustreer dat die model nie regtig verbeter het in intelligensie nie: die basiese maar tog onoplosbare vrae wat aan die begin van die artikel genoem word, verteenwoordig 'n duidelike voorbeeld van hierdie verskynsel.

微信图片 _20240614024031.jpg1

Konklusie

Buiten brute krag, as Grok3 egter daarin slaag om aan die bedryf te onthul dat 'vooraf opgeleide modelle hul einde benader', sou dit egter beduidende implikasies vir die veld hê.

Miskien sal ons sien dat meer gevalle soos Fei-Fei Li se voorbeeld van 'hoëprestasie-modelle op 'n spesifieke datastel vir slegs $ 50' die waansin van die waansin rondom GROK3 afsideer, uiteindelik die regte pad na AGI ontdek.

Vind ELV -kabeloplossing

Beheer kabels

Vir BMS, bus, industriële, instrumentasiekabel.

Gestruktureerde kabelsisteem

Netwerk en data, veseloptiese kabel, pleisterkoord, modules, gesigplaat

2024 Uitstallings en gebeure -oorsig

Apr.16 tot 1824 Midde-Oos-energie in Dubai

Apr.16 tot 1824 Securika in Moskou

MEI. MEI, 2024 NUWE PRODUKTE & TEGNOLOGIES LANANDER GEBEURTING IN SHANGHAI

22 Oktober-25, 2024 Veiligheid China in Beijing

Nov.19-20, 2024 Connected World KSA


Postyd: Feb-19-2025