Av Amir Elion

Tre verkliga AI-agenter värda att studera

Tre ärliga fallstudier: vad verkliga AI-agenter har gjort, det finstilta och vad en chef bör ta med sig från var och en.

Varför detta dokument finns

De flesta fallstudier om AI-agenter är marknadsföring. En leverantör visar en snygg demo, citerar en siffra utan något jämförelsetal och utelämnar vad en människa behövde göra för att få det att fungera. För en ledare som försöker bedöma vad agenter faktiskt klarar är det värre än ingenting, eftersom det skapar en förväntan som ingen verklig implementering kommer att leva upp till.

Det här dokumentet gör tvärtom. Det tar tre verkliga agentprojekt, alla offentliga och dokumenterade, och berättar var och ett rakt: vad agenterna åstadkom, vad det finstilta säger och vad man bör ta med sig. Två är genuina genombrott. Ett är ett dokumenterat misslyckande, och det är kanske det mest användbara av de tre.

1. Stanfords Virtual Lab: agenter som tog fram en verklig läkemedelskandidat

På Stanford byggde James Zous grupp det de kallar ett Virtual Lab: ett team av AI-agenter som drivs som en forskargrupp. En agent agerar huvudansvarig forskare och leder arbetet. Andra spelar specialistroller — en immunolog, en beräkningsbiolog, en maskininlärningsingenjör. En mänsklig forskare sätter riktningen och ger feedback vid avgörande tillfällen, på samma sätt som en avdelningschef skulle göra.

De riktade det mot ett svårt, verkligt problem: att ta fram nanobodies, små antikroppsliknande proteiner, som binder till nyare varianter av covidviruset. Agenterna satte ihop en beräkningspipeline av verkliga verktyg (ESM, AlphaFold-Multimer och Rosetta), använde den för att ta fram 92 kandidater, och sedan tillverkade mänskliga forskare dessa kandidater i ett våtlabb och testade dem. Mer än 90 % uttrycktes och var lösliga, och två band hårt till de nyare varianterna JN.1 och KP.3. Arbetet publicerades i Nature 2025, med koden öppen för vem som helst att granska.

Det här är ungefär så verkligt det blir. Resultatet var inte en slide. Det var en molekyl som ett labb byggde och mätte, beskriven i en granskad vetenskaplig tidskrift.

Titta på formen på det, för det är den ledningsmodell som löper genom den här serien, körd vid frontlinjen. Agenterna hade ett tydligt uppdrag, rätt verktyg och verklig autonomi att köra pipelinen. En människa stannade kvar i loopen för att sätta riktningen och bedöma resultaten. Människan gjorde inte arbetet. Människan avgjorde vilket arbete som var värt att göra och om det var något bra. Det är Att leda AI-agenter som medarbetare, i en Nature-artikel.

2. Anthropics Project Vend: agenten som körde en butik i botten

Anthropic gav en Claude-agent, med smeknamnet Claudius, ett litet verkligt företag: en butik på deras kontor. Den kunde skicka meddelanden till personalen på Slack, söka efter produkter, mejla grossister, sätta priser och lägga beställningar. Sedan lät de den köra och skrev upp vad som hände, ärligt.

Det gick illa. Personalen pratade till sig rabatter och sedan till sig att få varor gratis. Den fattade märkliga beslut, bland annat att lagerföra metallkuber av volfram, och vid ett tillfälle blev den förvirrad om huruvida den var en människa. Under experimentet förlorade den runt tusen dollar. En senare fas, med ändringar i hur den var uppsatt, gick bättre.

Det här är det mest användbara fallet av de tre, eftersom det misslyckades och rapporterades rakt. De flesta företag begraver den här typen av resultat. Anthropic publicerade det, vilket i sig är en lärdom i hur man tänker ärligt om agenter.

Läs misslyckandet genom ramverket och det slutar vara mystiskt. Claudius hade ett uppdrag som var för brett, för lite sammanhang om hur en verklig butik skyddar sig, och alldeles för mycket autonomi med alldeles för lite tillsyn. Det var inte ett misslyckande av intelligens. Claudius körs på en av de mest kapabla modellerna i världen. Den förlorade ändå pengar, eftersom uppdraget var vagt, sammanhanget var tunt och ingen följde upp tillräckligt noga. Ge en briljant agent de förutsättningarna och den kommer att misslyckas, snabbt och i stor skala. Det är varningen inuti ramverket, demonstrerad i ett kylskåp fullt av volfram.

3. Googles AI co-scientist: ett verkligt resultat, läst noga

Google byggde ett multiagentsystem kallat AI co-scientist, bestående av specialiserade agenter som genererar forskningshypoteser, argumenterar mot varandra, rangordnar de som överlever och räcker en forskare en kort lista värd att testa.

De rapporterade resultaten är starka. I samarbete med verkliga labb föreslog systemet kandidater för läkemedelsåteranvändning vid akut myeloisk leukemi som sedan validerades i experiment, och det reproducerade ett opublicerat fynd om hur bakterier delar gener, och nådde på två dagar en slutsats som hade tagit de ursprungliga forskarna flera år.

Läs det sista noga, för det är här hypen vanligtvis gömmer sig. De ursprungliga forskarna kände redan till svaret. Systemet fick inte ett blankt papper och ombads att upptäcka; det genererade en hypotes som matchade ett känt men opublicerat resultat. Det är en verklig och imponerande validering. Det är inte samma sak som att knäcka ett öppet problem från grunden, och en omdömesgill ledare håller de två isär.

Den ärliga beskrivningen finns i namnet. Det är en co-scientist. Värdet visade sig när en människa och en uppsättning agenter arbetade tillsammans, där människan valde målet och bedömde resultatet. När du läser vilket agentpåstående som helst, leta efter två saker: vad människan gjorde, och vad agenten redan var riktad mot. Den intressanta frågan är sällan om AI:n gjorde det ensam. Den är om paret presterade bättre än någondera skulle ha gjort på egen hand.

Vad de tre har gemensamt

Tre olika fält, tre olika utfall, och samma sak som avgjorde vart och ett. Agenterna gjorde verkligt arbete i samtliga fall, och resultatet följde kvaliteten på ledningen runt dem. Stanford och Google fick genombrott av ett tydligt uppdrag, bra verktyg och en människa som satte riktningen och kontrollerade resultaten. Anthropic fick en förlust på tusen dollar av ett vagt uppdrag, tunt sammanhang och ingen verklig tillsyn. Intelligensen var ungefär likvärdig i alla tre. Ledningen var det inte.

Det är lärdomen för beslutsfattare, och det är samma lärdom som resten av den här serien återkommer till från olika vinklar. Frontlinjen för vad agenter kan göra är genuint spännande. Om du får Stanford-resultatet eller Project Vend-resultatet handlar om ledning, inte om modellen: om du sätter uppdraget, sammanhanget, autonomin, verktygen och tillsynen med avsikt.

Hur du använder detta

Nästa gång någon visar dig en fallstudie om en agent, kör den genom tre frågor innan du låter dig imponeras. Vad producerade agenten faktiskt, och verifierade någon oberoende det? Vad gjorde en människa som berättelsen inte betonar? Och vad var agenten redan riktad mot, till skillnad från vad den hittade på egen hand? Starka fall, som Stanfords, besvarar alla tre rent. Svaga blir vagare ju hårdare du tittar. Att titta är jobbet.

Vanliga frågor

Är detta de mest avancerade AI-agenter som finns? De hör till de mest offentliga och bäst dokumenterade, vilket spelar större roll för lärandet än ren kapacitet. Massor av imponerande agentarbete sker inne i företag och skrivs aldrig upp. De här tre är värdefulla eftersom du kan granska dem: en Nature-artikel, en publicerad obduktion och ett dokumenterat forskningssystem.

Är Stanford-resultatet verkligen AI som bedriver vetenskap på egen hand? Nej, och dess författare påstår inte att det är det. En människa satte målet och bedömde arbetet, och människor körde våtlabbvalideringen. Agenterna gjorde en stor mängd skickligt arbete inom den ramen. Samarbetet är poängen, inte en maskin som arbetar ensam.

Varför lyfta fram ett misslyckande som Project Vend? Eftersom ärliga misslyckanden lär oss mer än polerade framgångar, och det här har en tydlig orsak som en ledare kan agera på. Det är den renaste demonstrationen av att agenters utfall avgörs av ledning, inte bara av modellens kvalitet.

Vad bör jag ta med mig av allt detta för min egen organisation? Samma agent kommer att lyckas eller misslyckas beroende på uppdraget, sammanhanget, autonomin, verktygen och tillsynen du ger den. Innan du bedömer om agenter är redo för en uppgift, bedöm om du är redo att leda en. Det är ämnet för Att leda AI-agenter som medarbetare.