Kodsnack 554 - Kontroll på båda sidor av språkmodellen, med Daniel Mauno Pettersson
Kodsnack - Ein Podcast von Kristoffer, Fredrik, Tobias - Dienstags
Kategorien:
Fredrik får besök av Daniel Mauno Pettersson och de diskuterar vad och hur man kan bygga på språkmodeller. Gränssnittstester, till exempel, som Daniel och hans företag ägnar sig åt. Vi är i generativ AI:s absoluta barndom, det finns långt mycket fler saker vi inte vet om vad som kommer att hända än vad vi vet kan hända eller faktiskt har hänt. Varför vill man kombinera AI och testning? Eller omvänt: varför har inte mer hänt kring testning? Varför skriver vi tester på ungefär samma sätt, och ofta från grunden för varje projekt trots att så mycket egentligen är lika? Testning av gränssnitt är också ett sammanhang där man faktiskt kan göra det till en styrka att generativ AI inte ger exakt samma resultat varje gång - istället får du över tid en variation på testerna som kan upptäcka nya saker. (Givetvis med utförlig loggning av vad som gjorts, hur och när.) Ska man skriva något som är helt deterministiskt och alltid ger samma resultat så finns det redan bra verktyg. Hur vidareutvecklar man något som inte är deterministiskt? Hur vet man att ens justeringar faktiskt gör saker bättre? Här finns utrymme för väldigt många bättre verktyg! Man behöver ha kontroll på båda sidor av språkmodellen - man måste ju kunna analysera och försöka justera efter resultaten. Ett stort tack till Cloudnet som sponsrar vår VPS! Har du kommentarer, frågor eller tips? Vi är @kodsnack, @thieta, @krig, och @bjoreman på Mastodon, har en sida på Facebook och epostas på [email protected] om du vill skriva längre. Vi läser allt som skickas. Gillar du Kodsnack får du hemskt gärna recensera oss i iTunes! Du kan också stödja podden genom att ge oss en kaffe (eller två!) på Ko-fi, eller handla något i vår butik. Länkar Daniel Billogram Dooer Memmo QA.tech Cypress Playwright Acceptanskriterier Function calling CI - continuous integration 552 - “förra avsnittet” False positives False negatives Superagent - bygger autonoma agenter Super agent - blockerar cookiepopuper Langchain Portkey - frågar flera språkmodeller “GPT:er” - egna specialversioner av Chatgpt I am rich-appen Titlar AI-baserad testning Hela vägen upp i trappan Den som råkar kunna lite programmering Vår tids stora skifte Generera tester En helt ny typ av testning Börja testa allt Allt som är normalflöden Deterministiskt tänk på något som inte är deterministiskt En kedja av prompts Kontroll på båda sidor av språkmodellen Man vet ingenting om väldigt många saker