BEGIN:VCALENDAR
VERSION:2.0
CALSCALE:GREGORIAN
PRODID:adamgibbons/ics
METHOD:PUBLISH
X-PUBLISHED-TTL:PT1H
BEGIN:VEVENT
UID:ZAtUYfIcLMLJQ8WPu_gkt
SUMMARY:LLM benchmarks in the time of agents
DTSTAMP:20260430T075052Z
DTSTART:20260522T125000Z
DESCRIPTION:Beschreibung:\nBei jedem Release von großen Sprachmodellen (LLM
	s) wird sich oft direkt auf die Performance in einschlägigen Benchmarks wi
	e GPQA oder SWE-bench Verified gestürzt. Der Unterschied von wenigen Proze
	ntpunkten gegenüber der Konkurrenz werden schnell als Fortschritt\, Rückst
	and oder Durchbruch interpretiert. Kritische Stimmen sagen jedoch\, dass v
	iele Benchmarks wenig oder gar keine Aussagekraft haben und von der Realit
	ät entkoppelt sind.\n\nIn diesem Vortrag geht Florian Brand auf die Heraus
	forderungen von LLM Evaluationen ein: von den Unterschieden in der Impleme
	ntierung von Benchmarks\, Auswirkungen von unterschiedlichen Parametern bi
	s hin zur nötigen Infrastruktur. Zudem weist er auf Probleme bei der Erste
	llung von Benchmarks\, insbesondere von agentischen Systemen\, hin\, da di
	ese neue Herausforderungen an das Design der Evaluationen und die Infrastr
	uktur stellen.\n--------------------------------\n\nSpeaker:\n- Florian Br
	and\n\n--------------------------------\n\nVortragsdetails:\n- Link zur Bi
	g Techday-Website: https://bigtechday.com/vortraege#1EJqNFlxEnRoQCbVA91WBs
	\n
LOCATION:Stellwerk
DURATION:PT50M
END:VEVENT
END:VCALENDAR