Home Nieuws Ai2’s nieuwe Olmo 3.1 breidt de versterkende leertraining uit voor sterkere redeneerbenchmarks

Ai2’s nieuwe Olmo 3.1 breidt de versterkende leertraining uit voor sterkere redeneerbenchmarks

22
0
Ai2’s nieuwe Olmo 3.1 breidt de versterkende leertraining uit voor sterkere redeneerbenchmarks

Het Allen Institute for AI (Ai2) heeft onlangs wat het zijn krachtigste tot nu toe noemt, uitgebracht ankermodelfamilie, Olmo 3. Maar het bedrijf ging door met het herhalen van patronen en breidde zijn inspanningen op het gebied van versterkend leren (RL) uit om Olmo 3.1 te creëren.

De nieuwe Olmo 3.1-modellen richten zich op efficiëntie, transparantie en controle voor bedrijven.

Ai2 heeft twee van de drie versies van Olmo 2 bijgewerkt: Olmo 3.1 Think 32B, het vlaggenschipmodel dat is geoptimaliseerd voor geavanceerd zoeken, en Olmo 3.1 Instruct 32B, ontworpen voor het volgen van instructies, multi-turn dialoog en gereedschapsgebruik.

Olmo 3 heeft een derde versie, Olmo 3-Base voor programmeren, begrijpen en wiskunde. Het werkt ook goed om door te gaan met afstemmen.

Ai2 zei dat zijn onderzoekers, om de Olmo 3 Think 32B te upgraden naar de Olmo 3.1, hun verbeterde RL-running hebben uitgebreid met een langer trainingsprogramma.

“Na de oorspronkelijke lancering van Olmo 3 hebben we onze RL-trainingsrun voor de Olmo 3 32B Think hervat, waarbij we nog eens 21 dagen trainden op 224 GPU’s met extra tijdperken op onze Dolci-Think-RL-dataset”, zei Ai2 in een blogartikel. “Dit resulteerde in Olmo 3.1 32B Think, dat substantiële verbeteringen oplevert op het gebied van wiskunde, redeneren en instructie volgens benchmarks: verbeteringen van meer dan 5 punten op AIME, meer dan 4 punten op ZebraLogic, meer dan 4 punten op IFEval en meer dan 20 punten op IFBench, evenals hogere prestaties bij het coderen en complexe meerstapstaken.”

Om tot Olmo 3.1 Instruct te komen, zei Ai2 dat zijn onderzoekers het recept achter de kleinste Instruct-grootte, 7B, hadden toegepast op het grotere model.

Olmo 3.1 Instruct 32B is “geoptimaliseerd voor chat, toolgebruik en multi-turn dialoog, waardoor het een veel beter presterende broer of zus is van de Olmo 3 Instruct 7B en klaar is voor toepassingen in de echte wereld”, zei Ai2 in een geplaatst op X.

Voorlopig zijn de nieuwe controlepunten beschikbaar op Ai2 Playground of Hugging Face, en binnenkort komt er API-toegang.

Betere prestaties op benchmarks

De Olmo 3.1-modellen presteerden goed in de benchmarktests en versloegen voorspelbaar de Olmo 3-modellen.

De Olmo 3.1 Think presteerde beter dan de Qwen 3 32B-modellen in de AIME 2025-benchmark en presteerde dicht bij de Gemma 27B.

Olmo 3.1 Instruct presteerde goed in vergelijking met zijn open source-collega’s en versloeg zelfs modellen als Gemma 3 in de Math-benchmark.

Olmo 3.1 Lesbenchmarks

“Wat Olmo 3.1 32B Instruct betreft, het is een model dat is geoptimaliseerd voor grootschalige instructie, gemaakt voor chat, toolgebruik en dialoog met meerdere beurten. Olmo 3.1 32B Instruct is ons meest capabele volledig open chatmodel tot nu toe en, in onze evaluaties, het krachtigste volledig open instructiemodel op 32B-schaal”, aldus het bedrijf.

Ai2 heeft ook zijn RL-Zero 7B-modellen bijgewerkt voor wiskunde en coderen. Het bedrijf zei over de X dat beide modellen profiteerden van langere en stabielere trainingscycli.

Toewijding aan transparantie en open source

Ai2 vertelde VentureBeat eerder dat het de Olmo 3-modellenfamilie heeft ontworpen om bedrijven en onderzoekslaboratoria meer controle en begrip te geven van de gegevens en training die in het model worden ingevoerd.

Organisaties kunnen elementen toevoegen aan de datamix van het model en deze opnieuw trainen om ook te leren van wat er is toegevoegd.

Dit is al lang een verplichting voor Ai2, dat ook een tool genaamd OlmoTrace waarmee wordt bijgehouden hoe de LLM-uitvoer overeenkomt met de trainingsgegevens.

“Samen laten Olmo 3.1 Think 32B en Olmo 3.1 Instruct 32B zien dat openheid en prestaties samen kunnen evolueren. Door dezelfde modelstroom uit te breiden, blijven we de mogelijkheden verbeteren terwijl we de end-to-end transparantie behouden op het gebied van data, code en trainingsbeslissingen”, aldus Ai2.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in