BEGIN:VCALENDAR
VERSION:2.0
CALSCALE:GREGORIAN
PRODID:adamgibbons/ics
METHOD:PUBLISH
X-PUBLISHED-TTL:PT1H
BEGIN:VEVENT
UID:o8QBpS6Gel77z74wWQNOY
SUMMARY:Scaling LLM-RL for the age of agents
DTSTAMP:20260513T113353Z
DTSTART:20260522T114500Z
DESCRIPTION:Beschreibung:\nReinforcement Learning (RL) hat sich als das zen
	trale Paradigma etabliert\, um Basismodelle in autonome Agenten zu skalier
	en - in Bereichen wie Softwareentwicklung\, Forschung und darüber hinaus. 
	Doch das Skalieren von RL bringt grundlegend andere Herausforderungen mit 
	sich als das Pretraining. Der asynchron und online geprägte Charakter führ
	t zu neuen Problemen: von der Gestaltung eines geeigneten Lerncurriculums 
	und der Erzeugung synthetischer Aufgaben über Off‑Policy‑Trainingsdynamike
	n bis hin zur großangelegten\, isolierten Ausführung von Rollouts. \n\nIn 
	diesem Vortrag zeichnet Konstantin Dunas nach\, wie sich das Skalieren von
	 Reinforcement Learning seit den frühen Ansätzen entwickelt hat und warum 
	dieser Wandel neue infrastrukturelle Engpässe erzeugt. Er beleuchtet Herau
	sforderungen wie Trainingsstabilität\, Unterschiede zwischen Trainings‑ un
	d Inferenzrichtlinien (Policy Mismatch) sowie Off‑Policy‑Lernen – und zeig
	t\, wie prime‑rl\, das Open‑Source‑Trainingsframework von Prime Intellect\
	, anderen ermöglicht\, diese Ansätze für das Training eigener Agenten zu n
	utzen. Abschließend wird er einen Ausblick darauf geben\, welche nächsten 
	Schritte im großskaligen LLM‑Reinforcement‑Learning zu erwarten sind.\n---
	-----------------------------\n\nSpeaker:\n- Konstantin Dunas\n\n---------
	-----------------------\n\nVortragsdetails:\n- Link zur Big Techday-Websit
	e: https://bigtechday.com/vortraege#7Bzb87sZbHksbnpcYOf6fK\n
LOCATION:Stellwerk
DURATION:PT50M
END:VEVENT
END:VCALENDAR