BEGIN:VCALENDAR
VERSION:2.0
CALSCALE:GREGORIAN
PRODID:adamgibbons/ics
METHOD:PUBLISH
X-PUBLISHED-TTL:PT1H
BEGIN:VEVENT
UID:LF_WqhCqc6-tg1rSPqSKe
SUMMARY:How not to blow up: Training a 400B MoE to 17T tokens without loss 
	spikes
DTSTAMP:20260430T075052Z
DTSTART:20260522T114500Z
DESCRIPTION:Beschreibung:\nDer Fortschritt bei LLMs hängt inzwischen stark 
	von einem praktischen Aspekt ab: der Trainingsstabilität bei der Skalierun
	g. Sparse Mixture-of-Experts (MoE)-Modelle sind besonders anfällig\, da Ro
	uting Drift zu einer Überlastung der Experten\, einem Einbruch der Auslast
	ung und einem Stillstand des Lernprozesses führen können.In diesem Vortrag
	 stellt Lucas Atkins ein „Anti-Loss-Spike“-Playbook aus einem kürzlich dur
	chgeführten Open-Weights-Durchlauf vor: ein MoE-Modell mit 400 Milliarden 
	Parametern und 13 Milliarden aktiven Parametern pro Token\, trainiert für 
	17 Billionen Token mit einer ungeglätteten Loss-Kurve und ohne einzige Los
	s-Spike. Lucas Atkins wird zunächst auf die beobachteten Fehlermuster eing
	ehen – Routing-Drift\, Überlastung\, MaxVio-Divergenz und Plateaubildung. 
	Anschließend erklärt er die Gegenmaßnahmen\, die eine stetige Konvergenz w
	iederhergestellt haben: Bounded und Momentum-Expert-Bias-Updates (SMEBU)\,
	 z-Loss zur Logit-Stabilisierung\, ein Präzisions-Fallback von MXFP8 auf B
	F16\, besser ausbalancierte Optimierungsziele sowie Daten-/Packing-Strateg
	ien zur Reduktion der Schritt-zu-Schritt-Varianz.\n-----------------------
	---------\n\nSpeaker:\n- Lucas Atkins\n\n--------------------------------\
	n\nVortragsdetails:\n- Link zur Big Techday-Website: https://bigtechday.co
	m/vortraege#rjWSp9OWUDaluj3rDFbor\n
LOCATION:Dampfdom
DURATION:PT50M
END:VEVENT
END:VCALENDAR
