De afgelopen twee jaar was de heersende logica in generatieve AI die van brute kracht: als je beter wilt denken, heb je een groter model nodig.
Terwijl ‘kleine’ modellen (onder de 10 miljard parameters) bekwame gesprekspartners zijn geworden, zijn ze historisch gezien uit elkaar gevallen als hen werd gevraagd logische gevolgtrekkingen in meerdere stappen of complexe wiskundige bewijzen uit te voeren.
Tegenwoordig daagt het Technology Innovation Institute (TII) in Abu Dhabi deze wet van schaalvergroting uit de release van de Falcon H1R 7B.
TII verlaat de pure Transformer-orthodoxie ten gunste van een hybride architectuur en beweert een model van 7 miljard parameters te hebben gebouwd dat niet alleen concurreert met, maar ook beter presteert dan concurrenten die bijna zeven keer zo groot zijn, inclusief de 32B- en 47B-varianten van Alibaba’s Qwen en Nvidia’s Nemotron.
De release markeert een significante verschuiving in het open-weight-ecosysteem, waarbij het slagveld verschuift van het tellen van ruwe parameters naar architecturale efficiëntie en het schalen van gevolgtrekkingstijd.
Vol De modelcode is nu beschikbaar op Hugging Face en kan door individuen worden getest in een live demo-inferentie op Havik Chat (een chatbot-ervaring). TII bracht ook een ogenschijnlijk redelijk uitgebreid programma uit technisch rapport ook over de aanpak en trainingsmethodiek van de Falcon H17B.
Ga verder dan de kerntechnologie van LLM, de transformator
Het bepalende kenmerk van de Falcon H1R 7B is de “hybride” ruggengraat. De meeste moderne LLM’s zijn uitsluitend gebaseerd op de Transformer-architectuur, die voorspelbaar schaalt, maar te kampen heeft met hoge geheugenkosten bij het verwerken van lange reeksen.
Falcon H1R 7B integreert Mamba, een state-space model (SSM) architectuur, samen met standaard Transformer-aandachtsniveaus.
Oorspronkelijk ontwikkeld door onderzoekers Albert Gu en Tri Dao van Carnegie Mellon University en Princeton University, werd Mamba voor het eerst geïntroduceerd in de paper “Mamba: Modellering van lineaire tijdreeksen met selectieve toestandsruimten”gepubliceerd op 1 december 2023.
De architectuur verwerkt reeksen gegevens anders dan Transformers: terwijl Transformers elk stukje gegevens met elk ander stuk vergelijkt (kwadratische schaling), verwerkt Mamba tokens opeenvolgend, waardoor het grote hoeveelheden informatie kan verwerken met lineaire schaling en aanzienlijk lagere verwerkingskosten.
Deze combinatie lost een van de meest hardnekkige knelpunten op bij het implementeren van redeneermodellen: de kosten van ‘denken’. Redeneringspatronen vereisen het genereren van lange ‘gedachtenketens’ – stapsgewijze interne monologen – voordat ze tot een antwoord komen. Bij standaard Transformers zorgen deze lange contexten ervoor dat de rekenkosten exploderen.
Volgens het technische rapport van TII zorgt de hybride aanpak ervoor dat de Falcon H1R 7B hoge prestaties kan behouden, zelfs als de responslengte toeneemt. Met een batchgrootte van 64 verwerkt het model ongeveer 1.500 tokens per seconde per GPU, bijna het dubbele van de snelheid van het concurrerende Qwen3 8B-model.
Referentieprestatie: stoten
In benchmarks gepubliceerd door TII is het verschil tussen de grootte en de prestaties van de Falcon H1R 7B groot. Op AIME 2025 ranking: een rigoureuze test van wiskundig redeneren: de Falcon H1R 7B scoorde 83,1%een resultaat dat de traditionele hiërarchie van modelgrootte ontwricht.
Terwijl het 7B-model uiteraard enorme eigendomsgrenzen volgt, zoals GPT-5.2 (99,0%) e 3Flash-tweelingen (97,0%) ingeschakeld afzonderlijke kunstmatige analyse-index (gerund door de onafhankelijke organisatie met dezelfde naam, die de Falcon H1R 7B nog niet heeft gebenchmarkt), heeft effectief de kloof overbrugd tussen “efficiënte” open gewichten en eigen systemen uit het middensegment.
-
Versla de grotere “denkers”: Falcon H1R 7B (83,1%) overtreft de benchmark van 15 miljard Aprilel-v1.6-Denker (82,7%) en de parameter van 32 miljard OLMo 3 Denk na (73,7%), wat de bewering van TII bevestigt dat hybride architecturen beter kunnen presteren dan grotere Transformers.
-
Eigenaarsleiders achtervolgen: Het ligt op een indrukwekkende afstand van Claude 4.5 Sonnet (88,0%) e Amazon Nova 2.0 Lite (88,7%), wat erop wijst dat dit 7B-model voor specifieke wiskunde-intensieve workflows een levensvatbaar alternatief met lage latentie is voor dure commerciële API’s.
-
De reuzen van de traditie overwinnen: Op basis van deze specifieke redeneerparameter verslaat het zeker grotendeels capabele, maar oudere architecturen Mistral Grande 3 (38,0%) e Vlam 4 Maverick (19,3%), wat benadrukt hoe gespecialiseerde redeneertraining (“Deep Think”) belangrijker is geworden dan de ruwe schaal voor logische taken.
Andere belangrijke overwinningen op het domein zijn onder meer:
-
Codering: Het model is bereikt 68,6% op de LCB v6-benchmark is de door TII aangegeven score de hoogste van alle geteste modellen, inclusief de vier keer grotere.
-
Algemene redenering: Hoewel het domineert op het gebied van wiskunde en programmeren, blijft de score in het algemeen redeneren (49,48%) concurrerend, met een rangschikking net onder de 14B- en 15B-parametermodellen, maar ruim vóór de vergelijkbare 8B-modellen.
Trainingstechnieken
De prestaties van de Falcon H1R 7B zijn niet alleen architectonisch; komt voort uit een rigoureus tweefasig trainingstraject dat is ontworpen om de redeneringsdichtheid te maximaliseren zonder het aantal parameters op te blazen, aldus Het technische rapport van TII op het model.
Fase 1: Begeleide fijnafstelling met koude start (SFT). Het model onderging SFT met een koude start op een samengestelde dataset die werd gedomineerd door wiskunde (56,8% van de tokens) en code (29,8%), met responslengtes tot 48.000 tokens.
-
Weging naar moeilijkheidsgraad: TII heeft de standaardpraktijk om alle gegevens gelijk te behandelen verworpen. In plaats daarvan pasten ze een wegingsschema toe waarbij ‘harde’ problemen 1,25x tot 1,75x werden gewogen, terwijl gemakkelijke problemen werden verminderd of geheel verwijderd om overmatige aanpassing aan alledaagse taken te voorkomen.
-
Consistentie bij één docent: Uit ablatieonderzoek is gebleken dat het mixen van redeneersporen uit meerdere ‘leraar’-modellen feitelijk de prestaties verslechterde als gevolg van tegenstrijdige redeneerstijlen. Als gevolg hiervan heeft TII gekozen voor een aanpak met één docent, om een consistente interne logica te behouden.
-
Evenwichtige tokennormalisatie: Om de enorme variatie in reekslengte (korte instructies versus enorme redeneringsketens) aan te pakken, introduceerde het team een data-parallel gebalanceerde token-normalisatiestrategie. Deze techniek egaliseert de gradiëntbijdrage van elk token over GPU’s, waardoor wordt voorkomen dat rangen met kortere reeksen het verlies destabiliseren, een verandering die een consistente toename van 4-10% in nauwkeurigheid tijdens de training opleverde.
Fase 2: Versterkend leren via groepsrelatieve beleidsoptimalisatie (GRPO). Na SFT werd het model verfijnd met behulp van GRPO, een versterkend leeralgoritme dat correcte resultaten beloont zonder dat er een apart waardemodel nodig is.
-
De “No-KL” -verschuiving: In afwijking van de standaard RLHF heeft TII de KL-divergentiestraf volledig afgeschaft (bèta = 0). Hierdoor kon het model aanzienlijk afwijken van het fundamentele SFT-beleid, wat een agressieve verkenning van nieuwe redeneerpaden aanmoedigde.
-
Curriculum uitsluitend voor wiskunde: Verrassend genoeg ontdekte de TII dat training uitsluitend op wiskundige problemen tijdens de RL-fase een betere generalisatie opleverde over alle domeinen, inclusief coderen en wetenschap, vergeleken met gemengde strategieën. Ablaties toonden aan dat ‘alleen-code’-training de codeerscores verbeterde, maar het algemene redeneren verslechterde, terwijl op wiskunde gerichte RL de prestaties wereldwijd verhoogde.
TII optimaliseerde het model specifiek voor Test-Time Scaling (TTS), een techniek waarbij een model meerdere redeneerpaden parallel genereert om de beste oplossing te vinden.
Het model maakt gebruik van Deep Think with Confidence (DeepConf), dat gebruikmaakt van de interne betrouwbaarheidsscores van het model om redeneringssporen van lage kwaliteit dynamisch te elimineren.
-
Adaptief snoeien: Tijdens het genereren initieert het systeem een “opwarmfase” met 16 sporen om een vertrouwensbasislijn vast te stellen. Vervolgens worden daaropvolgende sporen agressief gefilterd, waarbij alle ketens worden beëindigd die onder het 10e percentiel van het basisvertrouwen vallen.
-
Efficiëntiewinst: Deze methode creëert een nieuwe Pareto-grens voor de distributie. In benchmarktests behaalde Falcon H1R 7B een nauwkeurigheid van 96,7% op AIME 25, terwijl het tokengebruik met 38% werd verminderd in vergelijking met de DeepSeek-R1-0528-Qwen3-8B-basislijn.
Licentie: Open voor commercieel gebruik, maar met beperkingen
TII heeft Falcon H1R 7B uitgebracht met custom Falcon LLM 1.0-licentie gebaseerd op Apache 2.0 — maar met opmerkelijke veranderingen — waarvan de voornaamste de volgende zijn: klaag TII niet aan en geef het altijd de eer.
Voor ontwikkelaars en startups is de licentie grotendeels tolerant:
-
Royaltyvrij: Gebruikers kunnen het model commercieel uitvoeren, wijzigen en implementeren zonder TII te betalen.
-
Toeschrijving: In elk afgeleid werk (inclusief optimalisaties) moet duidelijk het volgende worden vermeld: “(Naam van het werk) is gemaakt met behulp van Falcon LLM-technologie van het Technology Innovation Institute”.
In tegenstelling tot een Open Source Initiative (OSI)-licentie omvat de Falcon-licentie echter een strikt Acceptable Use Policy (AUP).
De licentie eindigt automatisch als het sjabloon wordt gebruikt om een werk te maken dat in strijd is met de AUP of als u een octrooigeschil start tegen TII.
Concreet verbiedt de AUP het gebruik van de Falcon H1R 7B of zijn derivaten voor:
-
Overtreding van wetten: Elk gebruik dat in strijd is met toepasselijke nationale, federale, provinciale, lokale of internationale wetten of voorschriften.
-
Schade aan minderjarigen of levende wezens: het uitbuiten, schaden of proberen te schaden van minderjarigen of enig levend wezen.
-
Desinformatie: het genereren of verspreiden van aantoonbaar valse informatie met als doel anderen schade te berokkenen.
-
Intimidatie: Anderen in diskrediet brengen, in diskrediet brengen of anderszins lastigvallen.
De hybride golf: Nvidia, IBM, AI21 en Mistral
TII is niet de enige die op deze hybride toekomst gokt; de industrie evolueert steeds meer naar architecturen die de sterke punten van SSM en Transformer combineren.
-
Nvidia debuteerde onlangs met de Nemotronfamilie 3 op 15 december 2025, waarbij gebruik wordt gemaakt van een hybride mix van experts (MoE) en Mamba-Transformer-ontwerp om efficiënte AI te bevorderen.
-
IBM hij gooide de zijne Granito 4.0-familie op 2 oktober 2025, met behulp van een hybride Mamba-Transformer-architectuur om de geheugenvereisten met meer dan 70% te verminderen en tegelijkertijd hoge prestaties te behouden ten opzichte van bedrijfsbenchmarks.
-
FW21 volgde deze weg met zijn Jamba-modellen (Joint Attention en Mamba) en bracht de Jamba-familie 1.5 op 22 augustus 2024, om de kunstmatige intelligentiemogelijkheden van agenten te verbeteren via een hybride SSM-Transformer-aanpak.
-
Mistral kwam vroeg de ruimte binnen Codestrale Mamba op 16 juli 2024: een sjabloon die specifiek is geoptimaliseerd voor het sneller en langer genereren van code.
Falcon H1R 7B vertegenwoordigt de nieuwste evolutie van deze trend, specifiek gericht op taken met een compact redeneervermogen in een compacte vormfactor.



