Home Nieuws Ik hield van de nieuwe Gemini AI van Google, behalve toen hij...

Ik hield van de nieuwe Gemini AI van Google, behalve toen hij me omver blies

7
0
Ik hield van de nieuwe Gemini AI van Google, behalve toen hij me omver blies

Nogmaals hallo en welkom terug bij Snel bedrijf‘S Aangesloten.

Op 18 november kondigde Google een nieuw product aan. Meer precies, het verklaard dat het ‘een nieuw tijdperk’ inluidde, wat technologiebedrijven bedoelen Doen wanneer zij Echt Ik wil dat je oplet.

Het product in kwestie is Tweeling 3 Prode nieuwste versie van LLM van Google. Het is niet alleen de basis van Google’s ChatGPT-achtige chatbot, ook wel Gemini genoemd. Het zorgt voor enorme hoeveelheden functionaliteit in vlaggenschipaanbiedingen zoals Google Zoeken, Gmail en Android. Het drijft Antigravity aan, een nieuwe Google NAAR DE codeerplatform dat debuteerde dezelfde dag. En dankzij Google Cloud is het model ook beschikbaar voor externe ontwikkelaars als ingrediënt voor hun apps.

Kortom, Gemini 3 Pro kan nauwelijks belangrijker zijn voor het streven van Google om de grootste speler op het gebied van AI te worden. ALS Demis Hassabis, CEO van Google DeepMind Zoals in de aankondiging staat, ziet het bedrijf het als “een grote stap in de richting van AGI”: kunstmatige intelligentie is minstens zo capabel als mensen bij hoogstens cognitieve taken. In de aankondiging stond al dat de Gemini 3 Pro “redenering op doctoraal niveau demonstreert”.

Google ondersteunde zijn beweringen met een tabel met twintig AI-benchmarks waarin Gemini 3 Pro Gemini 2 Pro, OpenAI’s GPT-5.1 en Anthropic’s Claude Sonnet 4.5 versloeg, en vaak eenvoudigweg versloeg. Het laatste onderzoek naar de mensheidHet is bijvoorbeeld een test met 2500 vragen die wiskunde, natuurkunde, geesteswetenschappen en andere onderwerpen omvat. Het is ontworpen om buitengewoon moeilijk te zijn (vandaar de naam) en dat was het ook discussie als het zo vaag is dat sommige van de theoretisch correcte antwoorden genuanceerd of verkeerd zijn. Volgens de tabel van Google scoorde GPT-5.1 26,5%, terwijl Claude Sonnet 4.5 slechts 13,7% scoorde. De Gemini 3 Pro scoorde daarentegen 37,5 procent en presteerde zelfs nog beter als hij code mocht zoeken en uitvoeren, met een score van 45,8 procent.

Buiten het laboratorium werd Gemini 3 Pro met evenveel enthousiasme begroet als elk nieuw AI-model dat ik me kan herinneren. Ethan Mollick, een van mijn favoriete aanbieders van real-world AI-analyses, uitgesproken Het is “zeer goed”. Anderen zei hij voldeed aan de hoge verwachtingen van OpenAI’s GPT-5 enthousiast maar kon niet tevredenstellen.

Terwijl ik dit schrijf, speel ik al een paar dagen met de Gemini-chatbot. Veel van deze ervaringen zijn positief. Twee schrijfopdrachten die ik hem gaf, zijn bijzonder goed gelukt: een artikel over de toekomst van de centen een gedetailleerd prijsrapport over minicomputers uit de jaren 60 van Digital Equipment Corp. Het is de eerste stap naar een eenvoudig trillingscoderingsproject: het bouwen van een zoekmachine voor Snel bedrijf‘S Volgende Geweldige dingen in de technologie– het was een beetje lastig, maar toen ik het expliciet in de “Build” -modus zette, voltooide het de taak binnen een paar minuten. Het blonk ook uit in het begrijpen van wat er gebeurde in een assortiment foto’s die ik had geüpload.

Maar hoewel alles tot nu toe goed is gegaan, heb ik ook aanzienlijke problemen ondervonden met de Gemini 3 Pro, bijna vanaf het moment dat ik hem probeerde. Ze zorgden ervoor dat ik vooral op mijn hoede was voor de algemene beweringen van Google dat LLM bereid is gebruikers te helpen ‘alles te leren’ en antwoorden te geven die ‘intelligent, beknopt en direct zijn, en clichés en vleierij inruilen voor authentieke informatie’.

Mijn slechte interacties gingen vooral over animatie en strips, onderwerpen waar ik me op richt als ik met de nieuwe AI speel, omdat ik ze goed genoeg ken om fouten te ontdekken. Toen Gemini over deze zaken werd ondervraagd, spuugde Gemini herhaaldelijk hallucinaties uit.

Toen ik bijvoorbeeld vroeg of Walt Disney zelf ooit aan de film had gewerkt Mickey Mouse komisch, de LLM gaf een correct antwoord (ja, al was het maar kort), maar bood toen vrijwillig een reeks feiten aan waar ik niet om had gevraagd en die eigenlijk niet echt waren. Er wordt bijvoorbeeld gezegd dat toen de oude tekenaar van de strip met pensioen ging, Mickey en Minnie Mouse op zijn laatste paneel naar een zonsondergang keken, een subtiele manier om zijn vertrek te markeren. (Een dergelijke strip verscheen niet.) In een andere chat produceerde hij een uitgebreid en volledig fictief achtergrondverhaal over een andere cartoonist die ook een bekend animatiehistoricus was, waarvan hij me vertelde dat het ‘goed gedocumenteerd’ en ‘herkend’ was.

Het waren niet alleen de Gemini-hallucinaties. ChatGPT en Claude doen dit ook nog steeds. Maar meer dan andere modellen had Gemini de neiging zijn mislukkingen te verergeren door mij te misleiden. Het behulpzaam wijzen op de blunders leidde tot enkele van de vreemdste gesprekken die ik met AI heb gehad sinds februari 2023, toen Microsofts Bing zei hij hij wilde niet meer met mij praten.

(Volledige openbaarmaking: ik begrijp dat de AI eenvoudigweg een reeks woorden aan elkaar rijgt die hij niet begrijpt. Al zijn ogenschijnlijk menselijke eigenschappen, of ze nu indrukwekkend of irritant zijn, worden gesimuleerd. Maar het is moeilijk om erover te schrijven zonder in een zekere mate van antropomorfisering te vervallen!)

Herhaaldelijk erkende Gemini zijn onnauwkeurigheden, maar benadrukte dat het ‘tradities’, ‘algemene misvattingen’ of voorbeelden van mijn eigen verwarring waren. In één geval bekende hij uiteindelijk: ‘Ik heb je in dit gesprek in de steek gelaten door details te verzinnen om eerdere fouten te verdoezelen.’ In een ander geval bleef hij volhouden dat hij gelijk had en kwam hij met citaten waarin het onderwerp in kwestie niet eens werd genoemd.

Ik beweer niet dat het lot van AI afhangt van hoeveel de technologie weet over oude tekenfilms. Als er echter één bedrijf is dat de verantwoordelijkheid heeft om ervoor te zorgen dat zijn LLM een betrouwbare bron van algemene informatie is, dan is het Google. Het feit dat ik zo snel in een afgrond van door AI gegenereerde desinformatie ben beland, is geen bemoedigend teken.

Een deel van het probleem ligt in het feit dat de Gemini 3 Pro twee modi biedt: “Snel” en “Denken”. De eerste is de standaard en was verantwoordelijk voor de misstanden die ik tegenkwam, waarvan er minstens één betrekking had op het samenvoegen van twee afzonderlijke onderwerpen die ik naar voren had gebracht. Tot nu toe heeft de denkmodus het beste gewerkt in mijn experimenten. Maar zelfs de snelste AI-modellen moeten voldoen aan een basisniveau van nauwkeurigheid en goed gedrag, tenminste als ze worden gepresenteerd als een manier om ‘iets te leren’. (Zoals veel AI-tools bevat de Gemini-chatbot een disclaimer waarin fouten mogelijk zijn.)

Om mezelf te herhalen, Gemini 3 Pro EN indrukwekkend in veel opzichten. De lancering ervan is echter nog een voorbeeld van hoe de AI-sector een al te rooskleurig beeld schetst van zijn prestaties. Hij wijst er ook op dat benchmarks ons slechts een bepaald deel van de werkelijke prestaties van een model vertellen.

Toen OpenAI deze maand drie jaar geleden ChatGPT introduceerde, deed het dat in een mum van tijd korte blogpost die moeite deed om de beperkingen van de bot in detail te beschrijven en grote verklaringen over zijn toekomst te vermijden. Het revolutionaire nieuwe product voor zichzelf laten spreken bleek behoorlijk effectief marketing strategie. Zelfs als AI-giganten strijden om opscheppen in wat misschien wel de meest hypercompetitieve technologiecategorie aller tijden is, moeten ze die les niet vergeten.

Jij leest Verbonden, snel bedrijfMijn wekelijkse technologienieuwsbrief is geschreven door mij, mondiaal technologieredacteur Harry McCracken. Als een vriend of collega u deze editie heeft doorgestuurd of als u hem leest op fastcompany.com, kunt u dat doen Bekijk eerdere uitgaven en meld u aan om het zelf te krijgen elke vrijdagochtend. Ik hoor graag jouw mening: neem contact met mij op hmccracken@fastcompany.com met uw feedback en ideeën voor toekomstige nieuwsbrieven. Ik ben hier ook Blauwe lucht, MastodontEN Discussiesen dat kan volgen Aangesloten op Flipboard.

Meer toptechverhalen van Fast Company

In deze rijke wijk in New York woedt een strijd tegen de AI-oligarchie
Twee congreskandidaten hebben van kunstmatige intelligentie een belangrijk campagnethema gemaakt. Lees meer →
De weg naar legitimiteit van cryptocurrency hangt af van de sector zelf, en niet alleen van politici
Alleen interne cultuurverandering en rigoureuze zelfcontrole kunnen zorgen voor algemene goedkeuring. Lees meer →
AI-chatbots kunnen de media niet redden. Maar wat hen voedt, kan dat wel zijn
Agenten die zijn gemaakt door uitgevers en zijn gebaseerd op vertrouwde archieven kunnen jarenlange rapportage omzetten in echte producten in plaats van alleen maar een chatwidget. Lees meer →
Dit enorme nieuwe datacenter wordt aangedreven door gebruikte EV-batterijen
Een nieuw project van startup Redwood Materials voor batterijrecycling en datacenterbouwer Crusoe laat zien dat het mogelijk is om datacenters goedkoper en sneller te bouwen en tegelijkertijd de uitstoot te verminderen.Lees meer →
Waarom de AI-diplomatie van Trump gedoemd is te mislukken
Deze week stonden frietjes op het menu van het Witte Huis Lees meer →
Zelfs (vooral) in het tijdperk van AI, is dat de reden waarom ik karakter belangrijker vind dan vaardigheid
Omdat dit het ware talent onthult. Lees meer →

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in