BEGIN:VCALENDAR
VERSION:2.0
CALSCALE:GREGORIAN
PRODID:adamgibbons/ics
METHOD:PUBLISH
X-PUBLISHED-TTL:PT1H
BEGIN:VEVENT
UID:ORIimoKalKsJ5M6yK2EFw
SUMMARY:How not to blow up: Training a 400B MoE to 17T tokens without loss 
	spikes
DTSTAMP:20260513T113354Z
DTSTART:20260522T114500Z
DESCRIPTION:Beschreibung:\nDer Fortschritt bei LLMs hängt inzwischen stark 
	von einem praktischen Aspekt ab: der Trainingsstabilität bei der Skalierun
	g. Sparse Mixture-of-Experts (MoE)-Modelle sind besonders anfällig\, da Ro
	uting Drift zu einer Überlastung der Experten\, einem Einbruch der Auslast
	ung und einem Stillstand des Lernprozesses führen können. In diesem Vortra
	g stellt Lucas Atkins ein „Anti-Loss-Spike“-Playbook aus einem kürzlich du
	rchgeführten Open-Weights-Durchlauf vor: ein MoE-Modell mit 400 Milliarden
	 Parametern und 13 Milliarden aktiven Parametern pro Token\, trainiert für
	 17 Billionen Token mit einer ungeglätteten Loss-Kurve und ohne einzige Lo
	ss-Spike. Lucas Atkins wird zunächst auf die beobachteten Fehlermuster ein
	gehen – Routing-Drift\, Überlastung\, MaxVio-Divergenz und Plateaubildung.
	 Anschließend erklärt er die Gegenmaßnahmen\, die eine stetige Konvergenz 
	wiederhergestellt haben: Bounded und Momentum-Expert-Bias-Updates (SMEBU)\
	, z-Loss zur Logit-Stabilisierung\, ein Präzisions-Fallback von MXFP8 auf 
	BF16\, besser ausbalancierte Optimierungsziele sowie Daten-/Packing-Strate
	gien zur Reduktion der Schritt-zu-Schritt-Varianz.\n----------------------
	----------\n\nSpeaker:\n- Lucas Atkins\n\n--------------------------------
	\n\nVortragsdetails:\n- Link zur Big Techday-Website: https://bigtechday.c
	om/vortraege#rjWSp9OWUDaluj3rDFbor\n
LOCATION:Dampfdom
DURATION:PT50M
END:VEVENT
END:VCALENDAR
