Taalmodellen


De meervoudige schok van DeepSeek

Twee versies van DeepSeek

Een dag na kerst vorig jaar kwam DeepSeek V3 uit. En dat zorgde voor een schok. Uit de gebruikelijke tests die gedaan worden op taalmodellen kwam naar voren dat het model vergelijkbaar presteerde aan die van de Amerikaanse tech-giganten. Een fundamentele vraag kwam naar voren. Gaat China meespelen op het toneel van AI? Een nog grotere schok volgde echter in januari. De nieuwe versie DeepSeek V1 kwam uit. Dit model was volledig open source. En de mobiele app werd binnen een week de meest gedownloade AI-app. Open source betekent dat andere spelers deze technologie kunnen repliceren en verbeteren. Hoe kunnen OpenAI en Google dan nog (veel) geld voor hun modellen vragen?

What to know about DeepSeek and how it is upending A.I.

Bijbehorende paper

Tegelijk met model R1 publiceerde DeepSeek een paper met een toelichting over hoe ze het hadden aangepakt. Deze veroorzaakte zeker zo’n grote schok als het model zelf. Voor dit moment werd er gespeculeerd over hoe DeepSeek misschien wel vals gespeeld had. Gelogen over welke chips en data ze hadden gebruikt of welke investering nodig was geweest. Uit de paper bleek dat ze vooral veel slimmigheid hadden toegepast. Slimmigheid die sommige experts bij de spelers met eigen AI-modellen en gesloten technologie misschien ook wel toepasten. En tegelijkertijd waren ook veel AI-experts uit Silicon Valley verrast, of zelfs overdonderd.

DeepSeek-R1 - Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Goed nieuws of slecht nieuws?

Omdat uit de paper bleek dat DeepSeek meerdere slimme nieuwigheden had toegepast, werd het geloofwaardig dat ze dat hadden weten te bereiken met minder (geavanceerde) chips. De precieze slimmigheid gaat voor dit artikel te diep. Als je interesse hebt, kijk dan bijgaande video, of zoek op ‘mixture of experts’ en distillatie. Vervolgens is er de vraag of deze ontwikkeling goed of slecht nieuws is. De Amerikaanse techpartijen verwachten uiteindelijk een positieve invloed omdat het de vraag zal stimuleren. Voor bedrijven in Europa biedt het meer hoop om aan te haken in de AI-ontwikkelingen zonder de grootschalige investeringen die in de V.S. gedaan worden.

How did DeepSeek build its A.I. with less money

Meer lezen?


"Design thinking symposium @a.s.r."

Ga naar artikel