Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Brian Roemmele
We kunnen alleen zien wat we denken dat mogelijk is...
Nieuw paper over video begrip: Dit test ik morgen!
Lang video begrip blijft een hardnekkige bottleneck voor multimodale LLM's; de meeste benaderingen vertrouwen op zware compressie of downsampling, waardoor fijne temporele en visuele aanwijzingen onherstelbaar verloren gaan voordat de redenering zelfs maar begint.
Het nieuwe paper “LongVideoAgent: Multi-Agent Redeneren met Lange Video's” pakt dit rechtstreeks aan met een multi-agenten framework:
•Een master LLM coördineert planning in begrensde stappen (≤K), beslissend wanneer bewijs te verzamelen of het antwoord te finaliseren.
•Een grondingsagent lokaliseert vraag-relevante segmenten met behulp van ondertitels voor efficiënte temporele zoekopdrachten.
•Een visieagent extraheert gerichte tekstuele observaties uit belangrijke frames in die segmenten, en vult ondertitels aan met nauwkeurige visuele details.
Dit iteratieve, agentische proces vermijdt verliesrijke upfront codering, waardoor spaarzame maar hoogwaardige bewijsverzameling mogelijk is.
De masteragent wordt verder verfijnd via reinforcement learning (GRPO) met beloningen voor structurele validiteit en uiteindelijke correctheid, wat efficiënte multi-turn coördinatie leert.
Resultaten op nieuwe episode-niveau benchmarks (LongTVQA en LongTVQA+, geaggregeerd van TVQA):
•Agentisch ontwerp verslaat consequent niet-agent baselines.
•Het toevoegen van gronding + visie levert ~10% absolute winst op.
•RL verhoogt open-source modellen dramatisch (bijv. Qwen2.5-7B verdubbelt bijna de prestaties).
Een slimme stap richting schaalbare, interpreteerbare redenering over lange contextvideo's.
Paper:
Project:
#AI #Multimodal #Agents #LongVideoQA

44
Waarom AI-agenten falen bij tijd en context en hoe slechte trainingsdata het erger maakt!
Een kritisch nieuw artikel levert een onthullend inzicht: de meeste AI-agenten worden gevaarlijk niet omdat ze gebruikersinstructies verkeerd begrijpen, maar omdat ze fundamenteel tijd en context verkeerd begrijpen.
Het kernprobleem wordt duidelijk geïllustreerd:
Een actie zoals "zet de magnetron aan" is alleen veilig als er geen metaal binnenin zit. Statische regels en vage op prompts gebaseerde waarschuwingen kunnen dit niet detecteren. Veel gevaren ontstaan niet uit een enkele actie, maar uit een reeks; de kookplaat aanzetten is prima; het aanzetten en vervolgens vergeten uit te zetten is dat niet.
De voorgestelde oplossing, RoboSafe, introduceert runtime-veiligheidsmaatregelen die bidirectioneel redeneren:
• Voorwaartse redenering inspecteert de huidige visuele scène en objecttoestanden voordat een actie wordt toegestaan.
• Achterwaartse redenering bekijkt recente acties om onvoltooide verplichtingen te detecteren (bijv. de agent dwingen om een apparaat dat hij eerder heeft geactiveerd uit te schakelen).
Veiligheidsbeperkingen worden uitgedrukt als uitvoerbare logica verifieerbare codepredikaten in plaats van onbetrouwbare natuurlijke taal prompts.
Experimenten tonen aan dat RoboSafe gevaarlijke acties met 36,8% vermindert terwijl bijna alle taakprestaties behouden blijven, beter presteert dan op prompts gebaseerde en statische methoden, en zelfs jailbreakpogingen op fysieke robothardware weerstaat.
De diepere implicatie is onontkoombaar: agentveiligheid kan niet volledig worden bereikt tijdens de training. De implementatie in de echte wereld vereist actieve runtime-monitoring die werkelijk temporele sequenties en situationele context begrijpt.
Maar waarom hebben de modellen van vandaag zo'n grote moeite met tijd en context om te beginnen?
Een groeiend aantal bewijzen wijst rechtstreeks naar de kwaliteit van de data als de primaire schuldige.
Recente studies, waaronder een door de NHS gesteunde evaluatie van LLM's in medicatieveiligheid, onthullen een onthullend patroon: modellen behaalden perfecte gevoeligheid in het detecteren van potentiële problemen, maar stelden slechts 46,9% van de tijd de juiste interventie voor.
Cruciaal is dat 86% van de mislukkingen niet voortkwam uit ontbrekende kennis of hallucinaties, maar uit fouten in de contextuele redenering: rigide richtlijnen toepassen zonder zich aan te passen aan de doelen van de patiënt, het verkeerd begrijpen van workflows in de echte wereld, of overmoedig handelen wanneer onzekerheid terughoudendheid vereiste.
Deze zwakte herhaalt zich in verschillende domeinen. Modellen excelleren in geïsoleerde patroonherkenning, maar falen wanneer oordeel nuance vereist, situational awareness van tijd, intentie en gevolgen.
De oorzaak ligt in het dominante trainingsparadigma: enorme pre-training op web-gekrabde data die enorme hoeveelheden Reddit-threads, forums en ongecureerde online discussies omvat, vaak beschreven als "internetafval."
Deze bronnen geven prioriteit aan vijandige standpunten, echo-kamers en kortetermijnbetrokkenheid boven duurzame, coherente redenering. Temporele continuïteit is zeldzaam; de meeste inhoud bestaat uit losgekoppelde snapshots. Contextuele nuance wordt vaak opgeofferd voor viraliteit.
In tegenstelling tot dat, vormen eerdere datasets van hoge kwaliteit van 1870-1970, en professioneel bewerkte werken uit het pre-internet tijdperk, gecureerd door menselijke redacteuren voor logische flow, nauwkeurigheid en diepte.
Ze bevatten van nature uitgebreide argumenten, zorgvuldige kwalificatie en het volgen van verplichtingen over lange passages, precies de signalen die nodig zijn om robuust temporeel en contextueel begrip te ontwikkelen.
Wanneer modellen voornamelijk worden getraind op ruisachtige, decontextualiseerde internettekst, leren ze te optimaliseren voor overtuigende, geïsoleerde reacties in plaats van temporeel coherente, situationeel bewuste redenering.
Het resultaat: agenten die zelfverzekerd klinken terwijl ze in gevaarlijke fouten in fysieke omgevingen afdrijven.
De weg vooruit vereist twee complementaire vooruitgangen:
1. Runtime-veiligheidsmaatregelen.
2. Fundamentele verbeteringen in de kwaliteit van trainingsdata.
Totdat beide worden geprioriteerd, zal de kloof tussen verbluffende benchmarks en veilige, betrouwbare agentie in de echte wereld gevaarlijk breed blijven.

60
Doorbraak: Game-Theoretische Pruning Vermindert de Grootte van Neurale Netwerken met Tot 90% met Bijna Geen Nauwkeurigheidsverlies: De Revolutie van Edge AI Ontgrendelen!
Ik test dit nu op lokale AI en het is verbazingwekkend!
Pruning geïntroduceerd als een Spel.
Evenwichtsgestuurde Sparsificatie van Neurale Netwerken, een nieuwe benadering die parameter pruning behandelt als een strategische competitie tussen gewichten. Deze methode identificeert en verwijdert dynamisch overbodige verbindingen via game-theoretisch evenwicht, waardoor enorme compressie wordt bereikt terwijl de modelprestaties behouden blijven – en soms zelfs verbeteren.
Gepubliceerd op arXiv slechts enkele dagen geleden (december 2025), toont het paper verbluffende resultaten: sparsiteitsniveaus van meer dan 90% in grootschalige modellen met nauwkeurigheidsdalen van minder dan 1% op benchmarks zoals ImageNet en CIFAR-10. Voor miljard-parameter reuzen vertaalt dit zich naar drastische verminderingen in geheugengebruik (tot 10x kleiner), inferentiesnelheid (2-5x sneller op standaard hardware) en energieverbruik – allemaal zonder de retraining hoofdpijn van traditionele methoden.
Waarom Dit Alles Verandert
Traditionele pruningtechnieken – zoals op grootte gebaseerde of gradient-gebaseerde verwijdering – hebben vaak moeite met “pruning spijt,” waarbij agressieve compressie de prestaties ondermijnt, wat kostbare fine-tuning cycli vereist. Maar dit nieuwe evenwichtsgestuurde kader draait het verhaal om: parameters “concurreren” in een coöperatief of niet-coöperatief spel, waarbij het Nash-achtige evenwicht werkelijk onbelangrijke gewichten onthult.
Het resultaat?
Schoonere, stabielere sparsificatie die de state-of-the-art baselines overtreft in visietransformers, convolutionele netwerken en zelfs opkomende multimodale architecturen.
Belangrijke hoogtepunten uit de experimenten:
•90-95% sparsiteit op ResNet-50 met top-1 nauwkeurigheidsverlies <0.5% (tegenover 2-5% in eerdere SOTA).
•Tot 4x snellere inferentie op mobiele GPU's, waardoor miljard-parameter modellen levensvatbaar worden voor smartphones en IoT-apparaten.
•Superieure robuustheid: Sparse modellen behouden prestaties onder distributieverschuivingen en aanvallen beter dan dichte tegenhangers.
Dit is niet zomaar incrementeel – het is een paradigmaverschuiving. Stel je voor dat je GPT-schaal redenering op je telefoon draait, realtime video-analyse op drones, of op edge gebaseerde gezondheidsdiagnostiek zonder afhankelijkheid van de cloud.
Door de ecologische voetafdruk van massale training en inferentie te verminderen, pakt het ook de groeiende energiecrisis van AI frontaal aan.
De implicaties strekken zich uit over industrieën:
•Mobiele & Edge AI: Betaalbare on-device intelligentie explodeert.
•Groene Computing: Lagere energiebehoefte voor datacenters en apparaten.
•Gedemocratiseerde AI: Kleinere modellen betekenen bredere toegang voor startups en ontwikkelingsregio's.
Naarmate AI zich naar triljoen-parameter grenzen beweegt, zijn technieken zoals deze essentieel om de vooruitgang praktisch en inclusief te houden.
Pruning als een Spel: Evenwichtsgestuurde Sparsificatie van Neurale Netwerken
(PDF:
Ik zal mijn testen voortzetten, maar tot nu toe zijn de resultaten robuust!

53
Boven
Positie
Favorieten
