KI-Modelle treten gegeneinander an bei WM-Ergebnisprognosen
Ein neues Projekt der Ludwig-Maximilians-Universität München (LMU) vergleicht die Vorhersagefähigkeiten großer Sprachmodelle für die Fußball-WM 2026. LLM SoccerArena misst die Treffsicherheit von KI bei der Prognose realer Sportergebnisse.

An der Ludwig-Maximilians-Universität München (LMU) startet das Projekt LLM SoccerArena, das die Vorhersagefähigkeiten großer Sprachmodelle (LLMs) für die Fußball-Weltmeisterschaft 2026 untersucht. In Kooperation mit Forschenden der Universität zu Köln und der Universität Paderborn tritt die Initiative gegen bekannte KI-Systeme wie GPT, Claude und Mistral an, um deren Treffsicherheit bei der Prognose von Spielergebnissen und Turnierausgängen zu bewerten.
Die Ergebnisse werden auf einem täglich aktualisierten Live-Leaderboard dargestellt, das einen direkten Vergleich der Vorhersageleistungen der Modelle ermöglicht. Projektleiter Professor Stefan Feuerriegel von der LMU Munich School of Management hebt hervor, dass die Unterschiede in den Prognosen verschiedener KI-Modelle – beispielsweise wer Weltmeister wird – wissenschaftlich aufschlussreich sind. Sie können Hinweise darauf geben, welche Informationen die Modelle nutzen und welche Verzerrungen aus Trainingsdaten oder sprachlichen Mustern resultieren könnten.
Die Fußball-Weltmeisterschaft dient als realistischer und überprüfbarer Benchmark für die wissenschaftliche Evaluation. Im Gegensatz zu abstrakten Testaufgaben, die moderne Modelle oft gut meistern, können die Prognosen für ein Fußballturnier anhand realer Ergebnisse eindeutig verifiziert werden. Dies erfordert von der KI die Fähigkeit, komplexe und unsichere Informationen wie Teamform, Spielerbeschwerden oder Trainerentscheidungen zu interpretieren und zu gewichten.
Die Erkenntnisse aus LLM SoccerArena sind auch für die Management-Forschung relevant, da Führungskräfte zunehmend LLMs zur Informationsstrukturierung und Szenariobewertung einsetzen. Feuerriegel betont die Notwendigkeit von Benchmarks, die den Umgang mit dynamischen Informationen und Unsicherheit in realen Entscheidungssituationen testen.
Das Projekt vergleicht verschiedene KI-Ansätze: Modelle, die Vorhersagen aus ihrem internen Wissen generieren, und solche, die externe Online-Informationen abrufen und verarbeiten können. Die Fähigkeit, aktuelle Daten wie Verletzungsberichte oder Wettquoten sinnvoll zu gewichten, stellt eine signifikante Herausforderung dar, die untersucht wird.