De fleste utviklere har nå en viss erfaring med ChatGPT, GitHub Copilot eller Claude. Vi bruker dem til å skrive kode, brainstorme ideer, oppsummere tekster og løse problemer, og de fungerer imponerende godt. Så bra at det nesten føles som magi.
Men sannheten er at det ikke er noe magi her - bare mye matematikk, maskinlæring og smart ingeniørkunst.
Så hvorfor gidder du å forstå det?
Det er fristende å tro at det er nok å være god til å bruke AI. Og i mange tilfeller er det også det. Men for utviklere er det virkelig verdifullt å forstå hvordan disse modellene fungerer - selv om det bare er på et grunnleggende nivå.
- Hvordan fungerer en transformator?
- Hva er egentlig en token - og hvordan påvirker antallet tokens regningen din når du blir belastet per token?
- Hva betyr det at modellen bare ser tidligere tokens?
- Hva skjer når vi "finjusterer"?
- Hva er en oppmerksomhetsmekanisme?
Fordeler med å forstå hvordan en LLM fungerer
Med en bedre forståelse av de underliggende mekanismene blir det lettere å vurdere hvor LLM-er kan brukes effektivt - og hvor de ikke bør brukes. Dette kan bidra til å unngå både å undervurdere modellenes evner og å overdrive potensialet deres.
Å forstå konsepter som tokenisering og kontekstvinduer gjør det også mulig:
-
Skrive mer kortfattede og effektive instruksjoner
-
Estimere API-brukskostnader mer nøyaktig
-
Velge riktig strategi - enten det er prompt engineering, RAG (retrieval-augmented generation) eller finjustering
Innsikt i hvordan modeller forutser neste ord, kan også forklare hvorfor de noen ganger gir sikre, men likevel feilaktige svar. Modellen vet rett og slett ikke når den lyver. Dette hjelper deg med å bygge inn validering før hallusinasjoner når produksjonen.
Mange LLM-verktøy og API-er eksponerer parametere som temperatur og top-p. Uten å kjenne til matematikken bak dem (logiter og sannsynlighetsfordelinger) kan det føles som gjetting å justere disse innstillingene. Med forståelse kan utviklere styre resultatene på en mer pålitelig måte - alt fra presise og deterministiske til kreative og utforskende.
Dette handler ikke bare om nerdete nysgjerrighet (selv om det også er mye av det). Det handler om å bruke disse verktøyene med selvtillit og bevissthet. Når du forstår hvordan LLM-er fungerer, blir det lettere å oppdage begrensninger, lage bedre instruksjoner, redusere feilmodi og ta bedre arkitektoniske beslutninger når du integrerer språkmodeller i systemer.
Så selv om du ikke har planer om å bygge din egen LLM med det første, gir det utviklere en betydelig fordel å ha en mental modell for hvordan de fungerer.
Roger Gullhaug, direktør for utvikling og drift i RamBase
Forstår vi egentlig hvordan AI fungerer?
En vanlig påstand er: "Ingen vet egentlig hvordan disse modellene fungerer." Men er det sant?
Moderne, store språkmodeller er bygget opp ved hjelp av velkjente prinsipper - transformatorarkitekturer, gradient descent, backpropagation og massive tekstkorpora. Prosessene bak hvordan de lærer og fungerer, er basert på håndgripelige mekanismer som lineær algebra, sannsynlighetsfordelinger og design av nevrale nettverk.
Det som fortsatt er utfordrende, er å tolke nøyaktig hvorfor en modell gir et bestemt resultat. Kunnskapen den lærer, er fordelt over milliarder av parametere. Det betyr at vi ikke kan isolere spesifikke fakta eller atferd i en enkelt node. Men dette betyr ikke at modellene er svarte bokser - det betyr bare at kompleksiteten er spredt ut og vanskelig å løse på mikronivå.
Så selv om det kanskje ikke er mulig å forklare hver enkelt beslutning en modell tar, er arkitekturen, opplæringsprosessene og atferdsmønstrene i stor grad forstått.
Oppsummert
Å forstå hvordan store språkmodeller fungerer, handler ikke bare om nysgjerrighet. Det er en del av det å være en kompetent utvikler i møte med en teknologi som allerede er i ferd med å endre hvordan programvare bygges, testes og brukes. Å ha en solid mental modell av hvordan LLM-er fungerer, gjør det lettere å navigere i begrensningene, utnytte styrkene deres og bygge smartere løsninger.
Tidligere i år bestemte jeg meg for å ta et dypdykk i hvordan store språkmodeller faktisk fungerer. Denne reisen førte til at jeg skrev en kort bok: The Inner Workings of Large Language Models - How Neural Networks Learn Language. Det er en gratis e-bok,skrevet for alle med teknisk nysgjerrighet som ønskerå forstå hva som foregår under panseret, og ikke bare bruke det på overflaten.
Jeg håper du liker å lese den - og lykke til med din neste oppgave!
Om forfatteren:Roger Gullhaug er Director of Development and Operations i RamBase og en lidenskapelig teknolog med over 20 års bransjeerfaring. Han er kjent for sin tydelige kommunikasjon og dype tekniske innsikt, og han er opptatt av å dele kunnskap og utforske hvordan nye teknologier, som LLM, former fremtidens programvareutvikling. Hos RamBase er vi stolte av å ha fremtidsrettede eksperter som Roger som driver både innovasjon og læring. |