Home Nieuws Mistral brengt Voxtral Transcribe 2 uit, een open source spraakmodel dat voor...

Mistral brengt Voxtral Transcribe 2 uit, een open source spraakmodel dat voor centen op je apparaat draait

2
0
Mistral brengt Voxtral Transcribe 2 uit, een open source spraakmodel dat voor centen op je apparaat draait

Mistral AIde in Parijs gevestigde startup die zichzelf bestempelt als het Europese antwoord op OpenAI heeft woensdag een paar tekst-naar-spraak-modellen uitgebracht waarvan het bedrijf zegt dat ze audio sneller, nauwkeuriger en veel goedkoper kunnen transcriberen dan al het andere op de markt, en dat allemaal terwijl ze volledig op een smartphone of laptop draaien.

De aankondiging markeert de laatste klap in een steeds competitievere strijd om kunstmatige intelligentie, een technologie die zakelijke klanten als essentieel beschouwen voor alles, van geautomatiseerde klantenservice tot realtime vertaling. Maar in tegenstelling tot het aanbod van Amerikaanse technologiegiganten is Mistral nieuw Voxtrale transcriptie 2 de modellen zijn ontworpen om gevoelige audio te verwerken zonder deze ooit naar externe servers te verzenden, een functie die van cruciaal belang zou kunnen zijn voor bedrijven in gereguleerde sectoren zoals de gezondheidszorg, de financiële sector en defensie.

“Je wilt dat je stem en de transcriptie van je stem dichtbij blijven waar je bent, wat betekent dat je wilt dat dit op het apparaat gebeurt: op een laptop, een telefoon of een smartwatch”, zei Pierre Stock, Mistral’s vice-president van wetenschappelijke operaties, in een interview met VentureBeat. “Wij maken dit mogelijk omdat het model slechts 4 miljard parameters bevat. Het is klein genoeg om vrijwel overal te passen.”

Mistral splitst zijn nieuwe AI-transcriptietechnologie op in batch- en realtime verwerkingstoepassingen

Mistral heeft twee verschillende modellen uitgebracht onder de vlag van Voxtral Transcribe 2, elk ontworpen voor verschillende gebruiksscenario’s.

  • Voxtral Mini Transcribe V2 verzorgt batchtranscriptie en verwerkt vooraf opgenomen audiobestanden in bulk. Het bedrijf beweert dat het het laagste woordfoutenpercentage bereikt van alle transcriptiediensten en dat het via API beschikbaar is voor $ 0,003 per minuut, ongeveer een vijfde van de prijs van grote concurrenten. Het model ondersteunt 13 talen, waaronder Engels, Mandarijn Chinees, Japans, Arabisch, Hindi en verschillende Europese talen.

  • Voxtral in realtimezoals de naam al doet vermoeden, verwerkt het live audio met een latentie die kan worden geconfigureerd tot 200 milliseconden – in een oogwenk. Mistral zegt dat dit een game-changer is voor toepassingen waarbij zelfs een vertraging van twee seconden onaanvaardbaar is: live ondertiteling, stemagenten en realtime verbetering van de klantenservice.

DE Realtime model schepen onder een Apache 2.0 open source-licentie, wat betekent dat ontwikkelaars de modelgewichten kunnen downloaden van Knuffelend gezichtwijzigen en distribueren zonder Mistral licentiekosten te betalen. Voor bedrijven die hun eigen infrastructuur liever niet beheren, kost API-toegang $ 0,006 per minuut.

Stock zei dat Mistral erop inzet dat de open source-gemeenschap het bereik van het model zal vergroten. “De open source-gemeenschap is erg fantasierijk als het om toepassingen gaat”, zegt hij. “We zijn benieuwd wat ze doen.”

Waarom AI-verwerking op apparaten belangrijk is voor bedrijven die gevoelige gegevens verwerken

De beslissing om modellen te ontwerpen die klein genoeg zijn om lokaal te kunnen draaien weerspiegelt een berekening over waar de zakelijke markt naartoe gaat. Nu bedrijven AI integreren in steeds gevoeligere workflows – transcriptie van medische consultaties, oproepen voor financieel advies, juridische verklaringen – is de vraag waar de gegevens naartoe reizen een probleem geworden.

Stock schetste tijdens zijn interview een levendig beeld van het probleem. De huidige apps voor het maken van notities met audiomogelijkheden, zo legde hij uit, pikken omgevingsgeluid vaak op problematische manieren op: “Het kan de tekst van muziek op de achtergrond oppikken. Het kan een ander gesprek oppikken. Het kan hallucinerend zijn vanwege achtergrondgeluid.”

Mistral heeft zwaar geïnvesteerd in datacuratie en modelarchitectuurtraining om deze problemen aan te pakken. “Bij dit alles besteden we veel tijd aan het definiëren van de gegevens en aan de manier waarop we het model trainen om deze te versterken”, aldus Stock.

Het bedrijf heeft ook bedrijfsspecifieke functies toegevoegd die de Amerikaanse concurrenten langzamer hebben geïmplementeerd. Door contextdifferentiatie kunnen klanten een lijst met gespecialiseerde terminologie uploaden (medisch jargon, bedrijfseigen productnamen, acroniemen uit de branche) en het model zal automatisch de voorkeur geven aan deze termen bij het transcriberen van dubbelzinnige audio. In tegenstelling tot afstemming, waarvoor modelherscholing vereist is, werkt contextdifferentiatie via een eenvoudige API-parameter.

‘Je hebt alleen een lijst met songteksten nodig’, legde Stock uit. “En dan zal het model de transcriptie automatisch vertekenen in de richting van deze acroniemen of deze rare woorden. En het levert nul hits op, er is geen noodzaak voor omscholing, geen behoefte aan rare dingen.”

Van fabrieken tot callcenters, Mistral richt zich op industriële omgevingen met veel lawaai

Stock beschreef twee scenario’s die weergeven hoe Mistral de implementatie van de technologie voor ogen heeft.

De eerste betreft de industriële audit. Stel je voor dat technici door een fabriek lopen, zware machines inspecteren terwijl ze opmerkingen schreeuwen boven het lawaai van de fabriek uit. “Stel je uiteindelijk perfecte, tijdsgestempelde aantekeningen voor die identificeren wie wat heeft gezegd – vandaar dagboekvorming – terwijl ze super robuust zijn,” zei Stock. De uitdaging is het beheersen van wat hij ‘vreemde technische taal’ noemde die niemand kan schrijven behalve deze mensen.

Het tweede scenario heeft betrekking op klantenserviceactiviteiten. Wanneer een beller contact opneemt met een ondersteuningscentrum, kan Voxtral Realtime het gesprek in realtime transcriberen en de tekst doorsturen naar backendsystemen die relevante klantgegevens ophalen voordat de beller klaar is met het uitleggen van het probleem.

“De status verschijnt op het scherm voor de telefoniste voordat de klant de zin onderbreekt en stopt met klagen”, legt Stock uit. “Dat betekent dat je gewoon kunt communiceren en zeggen: ‘Oké, ik kan de status zien. Laat me het adres corrigeren en de zending opnieuw verzenden.'”

Hij schatte dat dit de typische klantenservice-interacties zou kunnen terugbrengen van meerdere heen-en-weer-uitwisselingen tot slechts twee interacties: de klant legt het probleem uit en de agent lost het onmiddellijk op.

Real-time vertaling tussen talen zou eind 2026 mogelijk kunnen zijn

Ondanks alle aandacht voor transcriptie maakte Stock duidelijk dat Mistral deze modellen beschouwt als fundamentele technologie voor een ambitieuzer doel: realtime spraak-naar-spraakvertaling die natuurlijk aanvoelt.

“Misschien is live vertaling het uiteindelijke doel en waar het model op voortbouwt,” zei hij. “Ik spreek Frans, jij spreekt Engels. Het is essentieel om een ​​minimale latentie te hebben, want anders is er geen empathie. Je gezicht loopt niet uit de pas met wat je een seconde geleden zei.”

Met deze lens concurreert Mistral rechtstreeks Appel EN Googlenbeiden streden om hetzelfde probleem op te lossen. Het nieuwste van Google vertaalmodel het heeft een vertraging van twee seconden, tien keer langzamer dan Mistral beweert Voxtral in realtime.

Mistral positioneert zichzelf als het privacybewuste alternatief voor zakelijke klanten

Mistral neemt een ongebruikelijke positie in in het kunstmatige intelligentielandschap. Het bedrijf, opgericht in 2023 door Meta- en Google DeepMind-alumni, heeft ruim $2 miljard opgehaald en heeft nu een waardering van ongeveer 13,6 miljard dollar. Toch werkt het met een fractie van de computerbronnen die beschikbaar zijn voor Amerikaanse hyperscalers en heeft het zijn strategie gebaseerd op efficiëntie in plaats van op brute kracht.

“De modellen die we uitbrengen zijn op ondernemingsniveau, toonaangevend in de sector, efficiënt, vooral in termen van kosten, kunnen aan de edge worden geïntegreerd, ontsluiten privacy, ontsluiten controle en transparantie”, aldus Stock.

Deze aanpak heeft vooral weerklank gevonden onder Europese klanten die op hun hoede zijn voor de afhankelijkheid van Amerikaanse technologie. Frankrijk in januari Ministerie van de strijdkrachten ondertekende een raamovereenkomst die het leger van het land toegang geeft tot de AI-modellen van Mistral, een overeenkomst die expliciet oproept tot inzet op door Frankrijk gecontroleerde infrastructuur.

Gegevensprivacy blijft een van de grootste obstakels voor de adoptie van AI in ondernemingen. Voor bedrijven die actief zijn in gevoelige sectoren – financiën, productie, gezondheidszorg, verzekeringen – is het verzenden van audiogegevens naar externe cloudservers vaak een mislukking. De informatie moet op het apparaat zelf of binnen de infrastructuur van het bedrijf blijven.

Mistral wordt geconfronteerd met zware concurrentie van OpenAI, Google en een groeiend China

De transcriptiemarkt is uiterst competitief geworden. Open AI Fluistermodel is een soort industriestandaard geworden, zowel beschikbaar via API als als downloadbare open source-gewichten. Googlen, AmazoneEN Microsoft ze bieden allemaal spraakdiensten op ondernemingsniveau. Gespecialiseerde spelers vinden het leuk AI-vergadering EN Diepgram hebben belangrijke bedrijven gecreëerd die ontwikkelaars bedienen die betrouwbare en schaalbare transcriptie nodig hebben.

Mistral beweert dat zijn nieuwe modellen alle benchmarks verslaan in termen van nauwkeurigheid, terwijl ze ze onderbieden in termen van prijs. “Wij zijn beter dan zij in de benchmarks”, aldus Stock. Onafhankelijke verificatie van dergelijke claims zal tijd vergen, maar het bedrijf mikt op prestaties BLOEMENeen veelgebruikte meertalige spraakbenchmark, waarbij Voxtral-modellen woordfoutpercentages behalen die concurrerend of superieur zijn aan alternatieven van OpenAI en Google.

Misschien nog belangrijker is dat Arthur Mensch, CEO van Mistral, heeft gewaarschuwd dat Amerikaanse AI-bedrijven te maken krijgen met druk uit onverwachte richting. Spreken met Wereld Economisch Forum Vorige maand in Davos verwierp Mensch het idee dat de Chinese AI achterloopt op het Westen als ‘een sprookje’.

“De mogelijkheden van China’s open source-technologie zorgen waarschijnlijk voor stress bij Amerikaanse CEO’s”, zei hij.

De Franse startup gokt erop dat vertrouwen de winnaar zal bepalen op het gebied van enterprise voice AI

Stock voorspelde dat 2026 ‘het jaar van het briefje’ zou zijn, en dat is het moment waarop AI-transcriptie betrouwbaar genoeg wordt zodat gebruikers er volledig op kunnen vertrouwen.

“Je moet vertrouwen hebben in het model, en het model mag in principe geen fouten maken, anders verlies je gewoon het vertrouwen in het product en stop je ermee”, zei hij. “De drempel is super, super moeilijk.”

Of Mistral die drempel heeft overschreden, valt nog te bezien. Enterprise-klanten zullen de uiteindelijke beoordelaars zijn en zullen de neiging hebben om langzaam te werk te gaan en claims aan de realiteit te toetsen voordat ze budgetten en workflows aan de nieuwe technologie besteden. De audiospeeltuin in Studio Mistralwaar ontwikkelaars kunnen testen Voxtrale transcriptie 2 met hun eigen bestanden, zijn vandaag live gegaan.

Maar het bredere argument van Stock verdient aandacht. In een markt waar Amerikaanse giganten concurreren door miljarden dollars te investeren in steeds grotere modellen, waagt Mistral een andere gok: dat in het tijdperk van kunstmatige intelligentie de kleinste en meest lokale de grootste en meest afgelegen kunnen verslaan. Voor leidinggevenden die zich de hele dag zorgen maken over datasoevereiniteit, naleving van regelgeving en leveranciersafhankelijkheid, zou dit voorstel overtuigender kunnen blijken dan welke benchmark dan ook.

De race om de voice-AI van ondernemingen te domineren gaat niet langer alleen over wie het krachtigste model bouwt. Het gaat erom wie het model bouwt waarvan jij bereid bent gehoord te worden.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in