Inleiding

Dink jy Grok3 sal die "eindpunt" van voorafopgeleide modelle wees?

Elon Musk en die xAI-span het amptelik die nuutste weergawe van Grok, Grok3, tydens 'n regstreekse uitsending bekendgestel. Voor hierdie geleentheid het 'n aansienlike hoeveelheid verwante inligting, tesame met Musk se 24/7-promosie-hype, wêreldwye verwagtinge vir Grok3 tot ongekende vlakke verhoog. Net 'n week gelede het Musk vol vertroue tydens 'n regstreekse uitsending gesê terwyl hy kommentaar gelewer het op DeepSeek R1: "xAI is op die punt om 'n beter KI-model te loods." Uit die data wat regstreeks aangebied is, het Grok3 na bewering alle huidige hoofstroommodelle in maatstawwe vir wiskunde, wetenskap en programmering oortref, met Musk wat selfs beweer dat Grok3 gebruik sal word vir berekeningstake wat verband hou met SpaceX se Mars-missies, en "deurbrake op die Nobelprysvlak binne drie jaar" voorspel. Dit is egter tans net Musk se bewerings. Na die bekendstelling het ek die nuutste beta-weergawe van Grok3 getoets en die klassieke strikvraag vir groot modelle gevra: "Watter een is groter, 9.11 of 9.9?" Ongelukkig kon die sogenaamde slimste Grok3, sonder enige kwalifiseerders of merke, steeds nie hierdie vraag korrek beantwoord nie. Grok3 kon nie die betekenis van die vraag akkuraat identifiseer nie.

Hierdie toets het vinnig aansienlike aandag van baie vriende getrek, en toevallig het verskeie soortgelyke toetse oorsee getoon dat Grok3 sukkel met basiese fisika/wiskundevrae soos "Watter bal val eerste van die Leunende Toring van Pisa?" Dus is dit humoristies bestempel as "'n genie wat nie bereid is om eenvoudige vrae te beantwoord nie."

Grok3 is goed, maar dis nie beter as R1 of o1-Pro nie.

Grok3 het "mislukkings" op baie algemene kennistoetse in die praktyk ervaar. Tydens die xAI-bekendstellingsgeleentheid het Musk gedemonstreer hoe om Grok3 te gebruik om die karakterklasse en effekte van die spel Path of Exile 2 te analiseer, wat hy beweer het dat hy gereeld speel, maar die meeste van die antwoorde wat deur Grok3 verskaf is, was verkeerd. Musk het hierdie ooglopende probleem nie tydens die regstreekse uitsending opgemerk nie.

Hierdie fout het nie net verdere bewyse verskaf vir oorsese internetgebruikers om Musk te bespot omdat hy "'n plaasvervanger" in speletjies vind nie, maar het ook beduidende kommer laat ontstaan oor Grok3 se betroubaarheid in praktiese toepassings. Vir so 'n "genie", ongeag sy werklike vermoëns, bly die betroubaarheid daarvan in uiters komplekse toepassingscenario's, soos Mars-verkenningstake, in twyfel.

Tans wys baie toetsers wat weke gelede toegang tot Grok3 gekry het, en diegene wat gister die modelvermoëns vir 'n paar uur getoets het, almal op 'n gemeenskaplike gevolgtrekking: "Grok3 is goed, maar dit is nie beter as R1 of o1-Pro nie."

'n Kritiese perspektief op "Ontwrigting van Nvidia"

In die amptelik aangebiedde PPT tydens die vrystelling, is Grok3 getoon as "ver voor" in die Chatbot Arena, maar dit het slim gebruik gemaak van grafiese tegnieke: die vertikale as op die puntelys het slegs resultate in die 1400-1300-tellingreeks gelys, wat die oorspronklike 1%-verskil in toetsresultate buitengewoon beduidend in hierdie aanbieding laat lyk.

In werklike modeltellingresultate is Grok3 slegs 1-2% voor DeepSeek R1 en GPT-4.0, wat ooreenstem met baie gebruikers se ervarings in praktiese toetse wat "geen merkbare verskil" gevind het nie. Grok3 oortref sy opvolgers slegs met 1%-2%.

Alhoewel Grok3 hoër punte behaal het as alle modelle wat tans in die openbaar getoets word, neem baie dit nie ernstig op nie: xAI is immers voorheen in die Grok2-era gekritiseer vir "tellingmanipulasie". Namate die puntelys die styl van antwoordlengte gepenaliseer het, het die tellings aansienlik afgeneem, wat daartoe gelei het dat bedryfsinsiders dikwels die verskynsel van "hoë telling maar lae vermoë" kritiseer.

Of dit nou deur middel van "manipulasie" van die puntelys of ontwerptruuks in illustrasies is, dit onthul xAI en Musk se obsessie met die idee om "die leiding in die pak" in modelvermoëns te neem. Musk het 'n hoë prys vir hierdie marges betaal: tydens die bekendstelling het hy gespog dat hy 200 000 H100 GPU's gebruik het (en "meer as 100 000" tydens die regstreekse stroom beweer het) en 'n totale opleidingstyd van 200 miljoen uur behaal het. Dit het sommige laat glo dat dit nog 'n beduidende seën vir die GPU-bedryf verteenwoordig en DeepSeek se impak op die sektor as "dwaas" beskou. Dit is opmerklik dat sommige glo dat blote berekeningskrag die toekoms van modelopleiding sal wees.

Sommige internetgebruikers het egter die verbruik van 2000 H800 GPU's oor twee maande vergelyk om DeepSeek V3 te produseer, en bereken dat Grok3 se werklike oefenkragverbruik 263 keer dié van V3 is. Die gaping tussen DeepSeek V3, wat 1402 punte behaal het, en Grok3 is net minder as 100 punte. Na die vrystelling van hierdie data het baie vinnig besef dat agter Grok3 se titel as die "wêreld se sterkste" 'n duidelike marginale nutseffek lê - die logika van groter modelle wat sterker prestasie lewer, het begin afnemende opbrengste toon.

Selfs met "hoë telling maar lae vermoë", het Grok2 groot hoeveelhede hoëgehalte-eersteparty-data van die X (Twitter) platform gehad om gebruik te ondersteun. In die opleiding van Grok3 het xAI egter natuurlik die "plafon" teëgekom wat OpenAI tans in die gesig staar - die gebrek aan premium opleidingsdata ontbloot vinnig die marginale nut van die model se vermoëns.

Die ontwikkelaars van Grok3 en Musk is waarskynlik die eerstes wat hierdie feite diep verstaan en identifiseer, en daarom het Musk voortdurend op sosiale media genoem dat die weergawe wat gebruikers nou ervaar "nog net die beta" is en dat "die volledige weergawe in die komende maande vrygestel sal word." Musk het die rol van Grok3 se produkbestuurder oorgeneem en voorgestel dat gebruikers terugvoer gee oor verskeie probleme wat in die kommentaarafdeling ondervind word. Hy is dalk die mees gevolgde produkbestuurder op Aarde.

Tog, binne 'n dag, het Grok3 se prestasie ongetwyfeld alarm gemaak vir diegene wat hoop om op "massiewe berekeningskrag" staat te maak om sterker groot modelle op te lei: gebaseer op publiek beskikbare Microsoft-inligting, het OpenAI se GPT-4 'n parametergrootte van 1,8 triljoen parameters, meer as tien keer dié van GPT-3. Gerugte dui daarop dat die parametergrootte van GPT-4.5 selfs groter kan wees.

Soos die modelparametergroottes styg, styg die opleidingskoste ook die hoogte in. Met Grok3 se teenwoordigheid moet mededingers soos GPT-4.5 en ander wat wil voortgaan om "geld te verbrand" om beter modelprestasie deur parametergrootte te behaal, die plafon wat nou duidelik in sig is, oorweeg en oorweeg hoe om dit te oorkom. Op hierdie oomblik het Ilya Sutskever, voormalige hoofwetenskaplike by OpenAI, voorheen verlede Desember gesê: "Die vooropleiding waarmee ons vertroud is, sal tot 'n einde kom," wat weer in besprekings na vore gekom het, wat pogings aangespoor het om die ware pad vir die opleiding van groot modelle te vind.

Ilya se standpunt het die alarm in die bedryf laat lui. Hy het die dreigende uitputting van toeganklike nuwe data akkuraat voorsien, wat sou lei tot 'n situasie waar prestasie nie verder deur data-insameling verbeter kan word nie, en dit vergelyk met die uitputting van fossielbrandstowwe. Hy het aangedui dat "soos olie, mensgegenereerde inhoud op die internet 'n beperkte hulpbron is." In Sutskever se voorspellings sal die volgende generasie modelle, na voor-opleiding, "ware outonomie" en redenasievermoëns "soortgelyk aan die menslike brein" besit.

Anders as vandag se voorafopgeleide modelle wat hoofsaaklik staatmaak op inhoudooreenstemming (gebaseer op die voorheen aangeleerde modelinhoud), sal toekomstige KI-stelsels in staat wees om metodologieë te leer en te vestig om probleme op te los op 'n manier soortgelyk aan die "denke" van die menslike brein. 'n Mens kan fundamentele vaardigheid in 'n vak bereik met slegs basiese professionele literatuur, terwyl 'n groot KI-model miljoene datapunte benodig om slegs die mees basiese intreevlak-doeltreffendheid te bereik. Selfs wanneer die bewoording effens verander word, word hierdie fundamentele vrae moontlik nie korrek verstaan nie, wat illustreer dat die model nie werklik in intelligensie verbeter het nie: die basiese maar onoplosbare vrae wat aan die begin van die artikel genoem word, verteenwoordig 'n duidelike voorbeeld van hierdie verskynsel.

Gevolgtrekking

Maar, bo en behalwe brute krag, as Grok3 inderdaad daarin slaag om aan die bedryf te openbaar dat "voorafopgeleide modelle hul einde nader", sal dit beduidende implikasies vir die veld inhou.

Miskien nadat die waansin rondom Grok3 geleidelik bedaar het, sal ons meer gevalle sien soos Fei-Fei Li se voorbeeld van "die afstemming van hoëprestasiemodelle op 'n spesifieke datastel vir slegs $50", wat uiteindelik die ware pad na AGI ontdek.

Vind ELV-kabeloplossing

Beheerkabels

Vir BMS, BUS, Industrieel, Instrumentasiekabel.

Klik Hier

Gestruktureerde kabelstelsel

Netwerk en data, veseloptiese kabel, koppelingskoord, modules, voorplaat

Klik Hier

2024 Uitstallings en Geleenthede Oorsig

Plasingstyd: 19 Februarie 2025

Toets die "Slimste in die Wêreld" Grok3

Inleiding

Grok3 is goed, maar dis nie beter as R1 of o1-Pro nie.

'n Kritiese perspektief op "Ontwrigting van Nvidia"

Gevolgtrekking

Beheerkabels

Gestruktureerde kabelstelsel

16-18 April 2024 Midde-Oosterse Energie in Dubai

16-18 April 2024 Securika in Moskou

9 Mei 2024 NUWE PRODUKTE & TEGNOLOGIEË-BEKENDGELEENTHEID in Sjanghai

22-25 Oktober 2024 VEILIGHEID CHINA in Beijing

19-20 Nov. 2024 VERBONDE WÊRELD KSA