Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Santiago
Computerwetenschapper. Ik geef hardcore AI/ML Engineering les aan https://t.co/THCAAZcBMu. YouTube: https://t.co/pROi08OZYJ
Een ding dat LLM-agenten niet goed kunnen:
Elke oude-school chatbot kan zich aan het script houden, terwijl LLM-agenten de neiging hebben om op hol te slaan en klanten in vreemde gesprekken te leiden.
Maar natuurlijk voelen oude chatbots robotachtig aan, en klanten willen niet met hen praten.
Ze zijn betrouwbaar, maar mensen houden niet van hen,
LLM-agenten zijn het tegenovergestelde.
Ze zijn vloeiend en adaptief, maar ze kunnen alles zeggen. Je bent letterlijk één hallucinatie verwijderd van een ramp.
De jongens achter Parlant doen iets echt slim met hun nieuwe versie: Je kunt een agent bouwen met het beste van beide werelden.
De agent kan dynamisch schakelen tussen een LLM-agent en strikte modus, afhankelijk van wat er in het gesprek gebeurt.
Risico is niet uniform in een gesprek:
1. Wanneer een klant een casual productvraag stelt, betrekt Parlant de LLM om een vloeiend en nuttig antwoord te genereren.
2. Wanneer een klant om een terugbetaling vraagt, schakelt Parlant de strikte modus in om alleen goedgekeurde, contextueel gedreven antwoordsjablonen terug te geven.
Je controleert de "compositie modus" van de agent op basis van observaties in natuurlijke taal over de huidige staat van het gesprek.
Dit is een echt cool idee. Het zou de huidige stand van zaken in chatbots aanzienlijk moeten verbeteren.
Je kunt het hier bekijken:
Het bijgevoegde diagram toont hoe de dynamische compositie modus werkt.
73
Een van de eerste agenten die ik bouwde was extreem eenvoudig:
Het haalde informatie op uit een vectoropslag, formatteerde het als HTML en e-mailde het naar de gebruiker.
Het kan niet eenvoudiger dan dit, en toch faalde deze agent ongeveer 1% van de tijd.
Geen fout. Geen waarschuwing. Het gaf gewoon rommel terug.
Hier is de harde waarheid:
Agenten falen vaak. En ze falen stilletjes. De hele tijd. Je kunt gewoon niet vertrouwen dat een LLM elke keer het juiste doet.
Tegenwoordig heb ik een paar dozijn agenten gebouwd en ingezet, en hier zijn enkele dingen die daadwerkelijk werken:
1. Observeerbaarheid vanaf dag één. Als je niet kunt zien wat je agent doet, kun je het niet debuggen, verbeteren of vertrouwen. Elke agent zou sporen moeten produceren die de volledige aanvraagstroom, modelinteracties, tokengebruik en timingmetadata tonen.
2. Beveiligingsrails op invoer en uitvoer. Alles wat in en uit een LLM gaat, moet worden gecontroleerd door deterministische code. Zelfs dingen die waarschijnlijk niet zullen breken, zullen uiteindelijk breken.
3. LLM-als-een-rechter evaluatie. Je kunt een eenvoudige rechter bouwen met behulp van een LLM om automatisch de uitvoer van je agent te evalueren. Label een dataset, schrijf de evaluatieprompt en iteratief totdat je rechter de meeste fouten opvangt.
4. Foutanalyse. Je kunt foutmonsters verzamelen, ze categoriseren en de meest voorkomende fouten diagnosticeren.
5. Contextengineering. Vaak falen agenten omdat hun context ruisachtig, overbelast of irrelevant is. Leren hoe je de context relevant houdt, is enorm.
6. Menselijke feedbackloops. Soms is de beste beveiligingsrail een mens in de lus, vooral voor beslissingen met hoge inzet.
116
De basisprincipes van engineering zijn krachtvermenigvuldigers voor AI.
Als je tests hebt, kan AI deze na elke wijziging uitvoeren en zichzelf corrigeren. Als je die niet hebt, hoop je gewoon dat er niets kapot gaat.
Als je een CI/CD-pijplijn hebt, kun je AI-gegenereerde code met vertrouwen implementeren. Als je die niet hebt, hoop je gewoon dat er niets kapot gaat.
Als je een goed codebeoordelingsproces hebt, kun je eventuele problemen met AI-gegenereerde code opvangen. Als je die niet hebt, hoop je gewoon dat er niets kapot gaat.
Als je solide documentatie hebt, zal AI je codebase begrijpen en veel betere code genereren. Als je die niet hebt, hoop je gewoon dat er niets kapot gaat.
De kloof tussen teams met solide software engineering fundamenten en die zonder gaat enorm worden.
162
Boven
Positie
Favorieten
