Home Nieuws De oprichters van OpenCV lanceren AI-video-startup om OpenAI en Google uit te...

De oprichters van OpenCV lanceren AI-video-startup om OpenAI en Google uit te dagen

6
0
De oprichters van OpenCV lanceren AI-video-startup om OpenAI en Google uit te dagen

Een nieuwe AI-startup opgericht door de makers van de meest gebruikte computervisiebibliotheek ter wereld is uit de schaduw tevoorschijn gekomen met technologie die realistische, mensgerichte video’s van maximaal vijf minuten genereert – een dramatische sprong voorbij de mogelijkheden van rivalen, waaronder OpenAI Sora en die van Google Ik zie.

Ambachtelijk verhaaldinsdag gelanceerd met $2 miljoen aan financiering, introduceert het Model 2.0, een videogeneratiesysteem dat een van de belangrijkste beperkingen aanpakt waarmee de opkomende AI-video-industrie wordt geconfronteerd: de duur. Terwijl OpenAI Soera 2 bereikt een maximum van 25 seconden en de meeste concurrerende modellen clips van 10 seconden of minder genereren, kan het CraftStory-systeem continue, consistente video-uitvoeringen produceren die net zo lang duren als een typische YouTube-tutorial of productdemonstratie.

De doorbraak zou aanzienlijke commerciële waarde kunnen opleveren voor bedrijven die moeite hebben met het opschalen van videoproductie voor training, marketing en klanteneducatie, markten waar korte, door AI gegenereerde clips ondanks hun visuele verfijning ontoereikend zijn gebleken.

“Als je daadwerkelijk een video probeert te maken met een van deze videogeneratiesystemen, merk je dat je vaak een bepaalde creatieve visie wilt implementeren, en hoe gedetailleerd de instructies ook zijn, de systemen negeren in feite een deel van je instructies”, zegt Victor Erukhimov, oprichter en CEO van CraftStory, in een exclusief interview met VentureBeat. “We hebben een systeem ontwikkeld dat vrijwel net zo lang video kan genereren als nodig is.”

Hoe parallelle verwerking het probleem van lange video’s oplost

De vooruitgang van CraftStory is gebaseerd op wat het bedrijf beschrijft als een parallelle leveringsarchitectuur: een fundamenteel andere benadering van de manier waarop AI-modellen video’s genereren vergeleken met de sequentiële methoden die door de meeste concurrenten worden gebruikt.

Traditionele videogeneratiemodellen werken door diffusie-algoritmen uit te voeren op steeds grotere driedimensionale volumes waarbij tijd de derde as vertegenwoordigt. Om een ​​langere video te genereren, hebben deze modellen proportioneel grotere netwerken, meer trainingsgegevens en aanzienlijk hogere rekenbronnen nodig.

Ambachtelijk verhaal in plaats daarvan voert het meerdere kleinere diffusie-algoritmen gelijktijdig uit gedurende de gehele duur van de video, met bidirectionele beperkingen die deze met elkaar verbinden. “Het laatste deel van de video kan ook het eerste deel van de video beïnvloeden”, legde Erukhimov uit. “En dit is heel belangrijk, want als je het één voor één doet, plant een artefact dat in het eerste deel verschijnt zich voort in het tweede deel en stapelt zich vervolgens op.”

In plaats van acht seconden te genereren en vervolgens extra segmenten aan elkaar te plakken, verwerkt het CraftStory-systeem alle vijf minuten in één keer via onderling verbonden diffusieprocessen.

Cruciaal is dat CraftStory zijn model heeft getraind op eigen beeldmateriaal in plaats van uitsluitend te vertrouwen op video’s die van internet zijn opgehaald. Het bedrijf huurde studio’s in om de acteurs vast te leggen met behulp van camerasystemen met een hoge framesnelheid die scherpe details vastleggen, zelfs in snel bewegende elementen zoals vingers, waardoor de bewegingsonscherpte wordt vermeden die inherent is aan standaard YouTube-clips van 30 frames per seconde.

“Wat we hebben laten zien is dat je niet veel data en niet veel trainingsbudget nodig hebt om video’s van hoge kwaliteit te maken”, aldus Erukhimov. “Je hebt alleen data van hoge kwaliteit nodig.”

Het 2.0-model werkt momenteel als een video-naar-video-systeem: gebruikers uploaden een stilstaand beeld om te animeren en een ‘rijdende video’ met daarin een persoon wiens bewegingen de AI zal repliceren. CraftStory biedt kant-en-klare rijvideo’s die zijn opgenomen met professionele acteurs, die inkomstenaandelen ontvangen wanneer hun bewegingsgegevens worden gebruikt, of gebruikers kunnen hun eigen beeldmateriaal uploaden.

Het systeem genereert clips van 30 seconden met een lage resolutie in ongeveer 15 minuten. Een geavanceerd lipsynchronisatiesysteem synchroniseert mondbewegingen met scripts of audiotracks, terwijl algoritmen voor gebarenuitlijning ervoor zorgen dat lichaamstaal overeenkomt met het ritme van de spraak en de emotionele toon.

Een oorlogsstrijd voeren met $2 miljoen versus miljarden

De financiering van CraftStory komt vrijwel volledig uit Andrea Filevdie zijn projectmanagementsoftwarebedrijf Wrike aan Citrix verkocht $ 2,25 miljard in 2021 en racet nu Zencodereen AI-coderingsbedrijf. De bescheiden stijging staat in schril contrast met de miljarden die in concurrerende inspanningen vloeien, zoals OpenAI heeft gedaan ruim 6 miljard dollar opgehaald pas in de laatste financieringsronde.

Erukhimov verwierp het idee dat massaal kapitaal een voorwaarde is voor succes. “Ik geloof niet noodzakelijkerwijs dat calculus de weg naar succes is”, zei hij. “Je hebt zeker hulp als je computers hebt. Maar als je met een PowerPoint een miljard dollar ophaalt, is uiteindelijk niemand blij, niet de oprichters of de investeerders.”

Filev verdedigde de David versus Goliath-aanpak. “Als je in startups investeert, zet je feitelijk in op mensen”, zei hij in een interview met VentureBeat. “Om Margaret Mead te parafraseren: onderschat nooit wat een kleine groep doordachte, toegewijde ingenieurs en wetenschappers kan bouwen.”

Hij betoogde dat CraftStory profiteert van een gerichte strategie. “Grote laboratoria zijn verwikkeld in een wapenwedloop om generieke videobasismodellen te bouwen,” zei Filev. “CraftStory volgt deze golf en verdiept zich in een specifiek format: lange, boeiende, mensgerichte video.”

Waarom expertise op het gebied van computervisie belangrijk is in generatieve AI-video’s

De geloofwaardigheid van Erukhimov komt voort uit zijn diepe wortels in computervisie en niet zozeer uit de transformatorarchitecturen die de recente AI-ontwikkelingen hebben gedomineerd. Hij was een vroege bijdrager aan OpenCV – de open source computer vision-bibliotheek die de de facto standaard is geworden voor computer vision-toepassingen, met meer dan 84.000 sterren op GitHub.

Toen Intel halverwege de jaren 2000 de ondersteuning voor OpenCV verminderde, was Erukhimov medeoprichter van Itseez met het expliciete doel de bibliotheek te onderhouden en vooruit te helpen. Het bedrijf breidde OpenCV aanzienlijk uit en stapte over op autoveiligheidssystemen voordat Intel het in 2016 overnam.

Filev zei dat deze achtergrond precies is wat Erukhimov goed gepositioneerd maakt voor het genereren van video’s. “Wat mensen soms missen is dat generatieve AI-video’s niet alleen over het generatieve deel gaan. Het gaat over het begrijpen van beweging, gezichtsdynamiek, temporele coherentie en hoe mensen daadwerkelijk bewegen”, zegt Filev. “Victor heeft zijn hele carrière besteed aan het aanpakken van deze problemen.”

De focus van het bedrijf ligt op trainingsvideo’s en productdemo’s

Hoewel een groot deel van het publieke enthousiasme rond het genereren van AI-video’s zich heeft geconcentreerd op creatieve tools voor consumenten, volgt CraftStory een beslist ondernemingsgerichte strategie.

“We denken zeker meer aan B2B dan aan consumenten”, zegt Erukhimov. “We denken aan bedrijven, vooral softwarebedrijven, die boeiende trainingsvideo’s, productvideo’s en lanceringsvideo’s kunnen maken.”

De logica is simpel: bedrijfstrainingen, producttutorials en klanttrainingsvideo’s duren vaak enkele minuten en vereisen overal een consistente kwaliteit. Een AI-clip van 10 seconden kan niet effectief demonstreren hoe bedrijfssoftware moet worden gebruikt of hoe een complexe productfunctie kan worden uitgelegd.

“Als je een langere video nodig hebt, moet je met ons meekomen”, zei Erukhimov. “We kunnen tot vijf minuten consistente video’s van hoge kwaliteit maken.”

Filev herhaalde deze beoordeling. “Een groot gat in deze markt is het gebrek aan modellen die coherente video over langere reeksen kunnen genereren – en dit is uiterst belangrijk voor gebruik in de echte wereld”, zei hij. “Als je een reclamespot voor je bedrijf maakt, is een video van tien seconden, hoe goed die ook is, simpelweg niet genoeg. Je hebt dertig seconden, twee minuten of meer nodig.”

Het bedrijf verwacht kostenbesparingen voor klanten. Filev suggereerde dat “een eigenaar van een klein bedrijf binnen enkele minuten inhoud zou kunnen creëren die voorheen $ 20.000 had gekost en twee maanden nodig had om te produceren.”

CraftStory doet ook een beroep op creatieve bureaus die videocontent produceren voor zakelijke klanten, met een waardepropositie gericht op kosten en snelheid: bureaus kunnen een acteur op camera vastleggen en die beelden omzetten in een voltooide AI-video, in plaats van zich bezig te houden met dure meerdaagse shoots.

De volgende belangrijke ontwikkeling op de routekaart van CraftStory is een tekst-naar-video-model waarmee gebruikers rechtstreeks vanuit scripts lange inhoud kunnen genereren. Het team ontwikkelt ook ondersteuning voor bewegende camerascenario’s, waaronder het populaire ‘walk-and-talk’-formaat dat gebruikelijk is in hoogwaardige advertenties.

Waar CraftStory past in een gefragmenteerd concurrentielandschap

CraftStory betreedt een drukke en snel evoluerende markt. Open AI Soera 2hoewel het nog niet beschikbaar is voor het publiek, heeft het voor veel opwinding gezorgd. Die van Google Ik zie patronen ze vorderen snel. Spoor, PikaEN Stabiliteit van kunstmatige intelligentie ze bieden allemaal tools voor het genereren van video’s met verschillende functionaliteiten.

Erukhimov erkende de concurrentiedruk, maar benadrukte dat CraftStory een aparte niche bedient die zich richt op mensgerichte video’s. Hij positioneerde snelle innovatie en marktverovering als de kernstrategie van het bedrijf, in plaats van te vertrouwen op technische sloten.

Filev ziet de markt fragmenteren in verschillende lagen, waarbij grote technologiebedrijven optreden als ‘API-aanbieders van krachtige, generieke modelbouwers’, terwijl gespecialiseerde spelers als CraftStory zich richten op specifieke gebruiksscenario’s. “Als de grote spelers de motoren bouwen, bouwt CraftStory bovenop de productiestudio en de assemblagelijn”, zei hij.

Model 2.0 is nu beschikbaar op app.craftstory.com/model-2.0, waarbij het bedrijf vroege toegang biedt aan gebruikers en bedrijven die geïnteresseerd zijn in het testen van de technologie. Het blijft onzeker of een startup met beperkte financiering een aanzienlijk marktaandeel kan veroveren op de gevestigde exploitanten met grote zakken, maar Erukhimov is karakteristiek optimistisch over de kansen die voor hem liggen.

“Door AI gegenereerde video’s zullen binnenkort de belangrijkste manier worden waarop bedrijven hun verhalen communiceren”, zei hij.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in