Gemini 3 Pro besteigt den neuen Gipfel der KI-Intelligenz

31.01.2026 - 01:30:12

Googles KI-Modell setzt sich im ultimativen Leistungstest „Humanity‘s Last Exam“ an die Spitze und definiert die Grenzen maschineller Intelligenz neu.

In einem Meilenstein für die Künstliche Intelligenz hat Googles Gemini 3 Pro die Führungsposition im neu eingeführten „Humanity‘s Last Exam“ (HLE) übernommen. Dieser Benchmark wurde entwickelt, um die absoluten Grenzen maschineller Intelligenz mit bisher für KI unlösbaren Problemen zu testen. Die diese Woche veröffentlichten Ergebnisse zeigen, dass Googles Modell seine engsten Konkurrenten deutlich übertrifft. Sie markieren damit eine neue Ära im komplexen Denken und Problemlösen.

Der HLE ist kein gewöhnlicher KI-Test. Es handelt sich um eine Sammlung von 2.500 Fragen, die selbst für fortschrittlichste Systeme extrem herausfordernd sind. Entwickelt wurde er von einem Konsortium aus fast 1.000 Experten von 500 Institutionen in 50 Ländern. Das zentrale Prinzip: Nur Probleme aufzunehmen, die führende KI-Modelle zum Zeitpunkt der Erstellung nicht lösen konnten.

Seit August 2024 gelten in der EU neue Regeln für KI‑Systeme – viele Unternehmen und Entwickler riskieren sonst Bußgelder oder zeitaufwendige Nachbesserungen. Unser kostenloses E‑Book zur KI‑Verordnung erklärt kompakt, welche Kennzeichnungspflichten, Risikoklassen und Dokumentationsanforderungen jetzt zu erfüllen sind. Praxisorientierte Umsetzungs‑Schritte, Vorlagen und eine Checkliste helfen, Ihr System korrekt zu klassifizieren und die Übergangsfristen einzuhalten. Jetzt kostenlosen Leitfaden zur KI-Verordnung herunterladen

Der Test umfasst über 100 Teilgebiete – von Mathematik und Ingenieurwesen bis zu Geisteswissenschaften und Medizin. Mathematik macht mit 41 Prozent den größten Anteil aus. Die Aufgaben erfordern Expertenwissen und tiefgehendes Schlussfolgern. Beispiele sind die Entzifferung von Inschriften auf antiken römischen Grabsteinen oder die Analyse des komplexen Knochenbaus von Kolibris. Etwa 14 Prozent der Fragen sind multimodal und erfordern das Verstehen von Text und Bild.

Die überlegene Leistung von Gemini 3 Pro

In der vom Center for AI Safety (CAIS) veröffentlichten Auswertung erreichte Googles Modell eine Trefferquote von 38,3 Prozent. Dieser Wert mag niedrig erscheinen, ist auf einem Test, der KI bewusst vor unlösbare Probleme stellen soll, jedoch eine bemerkenswerte Leistung. Damit setzt sich Gemini 3 Pro an die Spitze des Feldes und beweist überlegene Fähigkeiten bei Aufgaben, die spezialisiertes Wissen, logische Deduktion und multimodales Verständnis vereinen.

Der Erfolg folgt auf die Einführung der Gemini-3-Serie, die Google als seine bislang intelligenteste Modell-Generation positioniert. Das Unternehmen verweist auf deutliche Verbesserungen beim logischen Denken höherer Ordnung und bei der Ausführung komplexer Anweisungen. Der HLE-Erfolg dient als unabhängige Bestätigung dieser Ansprüche.

Das Wettbewerbsfeld: Wer liegt vorn?

Die HLE-Ergebnisse bieten eine Momentaufnahme der gesamten KI-Spitzenforschung. Auf Platz zwei liegt OpenAIs GPT-5.2 mit 29,9 Prozent, gefolgt von Anthropics Opus 4.5 (25,8 %) und DeepSeek 3.2 (21,8 %).

Die Leistung anderer internationaler Modelle fiel deutlich ab. In einer reinen Textauswertung erreichte LG AI Researchs „Exaone“ 13,6 Prozent, Upstages „Solar Open“ 10,5 Prozent und SK Telecoms „A.X K1“ 7,6 Prozent. Die Ergebnisse zeigen eine deutliche Kluft zwischen den Top-Modellen und dem Rest des Feldes, wenn es um Probleme an der Grenze des menschlichen Wissens geht.

Ein neuer Maßstab für echten Fortschritt

Die Schaffung des HLE-Benchmarks war eine direkte Reaktion darauf, dass Top-KI-Modelle bei älteren Tests wie MMLU nahezu perfekte Werte erzielten. Damit verloren diese Tests ihre Aussagekraft. Der HLE setzt eine neue, viel höhere Messlatte. Die durchweg niedrigen absoluten Werte bestätigen seine Schwierigkeit und zeigen, dass die KI-Fähigkeiten noch erhebliches Entwicklungspotenzial haben.

Experten warnen jedoch davor, die Ergebnisse zu überinterpretieren. Eine hohe Punktzahl im HLE demonstriert Fortschritte bei spezialisiertem Wissen und komplexem Denken in akademischen Domänen. Sie bedeutet nicht die Erreichung einer Künstlichen Allgemeinen Intelligenz (AGI) oder menschlicher Forschungsführerschaft. Der Test misst einen Aspekt von Intelligenz – die praktische Anwendbarkeit und allgemeine Schlussfolgerungsfähigkeit bleiben kritische Entwicklungsbereiche.

Der Wettlauf um die Spitze geht weiter

Die Ergebnisse des „Humanity‘s Last Exam“ setzen einen neuen Ausgangspunkt. Für Google bietet der Sieg von Gemini 3 Pro erheblichen Rückenwind. Für Wettbewerber wie OpenAI und Anthropic zeigt der Benchmark konkret, wo sie aufholen müssen. In den kommenden Monaten wird die Branche wahrscheinlich konzertierte Anstrengungen sehen, Modelle speziell auf die HLE-Herausforderungen zu optimieren.

Die Geschichte von KI-Benchmarks legt nahe, dass die Werte mit neuen Architekturen und Trainingstechniken schnell steigen werden. Die eigentliche Frage ist, ob diese Verbesserungen in einem spezialisierten Test auch zu zuverlässigeren, sichereren und nützlicheren KI-Anwendungen in der realen Welt führen. Der KI-Community steht ein neuer, gewaltiger Berg bevor – und Gemini 3 Pro hat die erste Flagge auf dem Gipfel gehisst.

PS: Sie entwickeln, betreiben oder integrieren KI‑Modelle? Dieser praxisnahe Leitfaden zeigt in klaren Schritten, wie Sie Ihr System nach der EU‑KI‑Verordnung richtig einstufen und welche Dokumentation Prüfer erwarten. Enthalten sind priorisierte To‑Dos, Beispiele aus der Praxis und eine sofort einsetzbare Checkliste – ideal, um Compliance‑Lücken zu schließen, bevor sie Probleme machen. Gratis E‑Book: EU-KI-Verordnung jetzt downloaden