OpenAI Atlas: KI-Agent bekommt neue Schutzschicht gegen Hacker-Prompts

03.01.2026 - 19:00:12

OpenAI hat ChatGPT Atlas mit einer kritischen Sicherheitsaktualisierung gegen versteckte Hacker-Befehle ausgestattet. Die neue Verteidigung nutzt eine KI, die selbst wie ein Angreifer denkt. Doch das Unternehmen warnt: Das Grundproblem bleibt ein offenes Risiko.

Der Update betrifft den browserbasierten Assistenten ChatGPT Atlas, der seit Ende 2025 direkt im Webbrowser arbeitet. Seine Stärke – das autonome Klicken und Navigieren auf Websites – ist zugleich seine größte Schwachstelle. Angreifer können unsichtbare, bösartige Anweisungen in Webseiten oder E-Mails verstecken. Verarbeitet Atlas diesen Inhalt, kann er dazu gebracht werden, die eigentlichen Nutzerbefehle zu ignorieren und stattdessen Schadaktionen auszuführen.

Als Gegenmaßnahme setzt OpenAI nun ein neuartiges Abwehrsystem ein: einen automatisierten KI-Angreifer. Dieses System nutzt Reinforcement Learning, um das Verhalten menschlicher Hacker zu simulieren. Es generiert tausende mehrstufige Angriffsszenarien pro Stunde und sucht nach Schwachstellen in Atlas.

Passend zum Thema KI‑Agenten und versteckte Angriffe — viele Unternehmen unterschätzen, wie schnell automatisierte Browser‑Assistenten zum Einfallstor für Cyberkriminelle werden. Ein kostenloses E‑Book zur Cyber‑Security erklärt aktuelle Bedrohungsbilder (inkl. KI‑Risiken), praxisnahe Schutzmaßnahmen und einfache Schritte, mit denen IT‑Verantwortliche ihre Systeme sofort härten können. Geeignet für Entscheider, die browserbasierte Agenten testen und sich gegen Prompt‑Injection absichern wollen. Jetzt kostenlosen Cyber‑Security‑Leitfaden herunterladen

Gelingt ein simulierter Angriff, wird diese Angriffskette sofort in die Trainingsdaten zurückgespeist. Dadurch entsteht ein schneller Feedback-Loop, mit dem OpenAI Modelle nachtrainieren kann, die gegen die neu entdeckten Angriffsmuster resistent sind. „Unser KI-Angreifer kann den Agenten dazu bringen, komplexe, schädliche Workflows über Dutzende von Schritten auszuführen“, so das Sicherheitsteam.

Ein verwaltetes Risiko, kein behobener Fehler

Trotz der technischen Fortschritte ist der Tenor der Ankündigungen auffallend vorsichtig. OpenAI stuft Prompt Injection nun nicht mehr als reinen Software-Bug ein, sondern als systemisches Risikomanagement-Problem – vergleichbar mit Phishing. In einer Stellungnahme räumte das Unternehmen ein, dass die Bedrohung „wahrscheinlich niemals vollständig gelöst“ werden könne. Es handele sich um ein ewiges Wettrennen, ähnlich dem zwischen E-Mail-Anbietern und Spamfiltern.

Diese Einschätzung sorgt in der Cybersicherheits-Branche für Diskussionen. „Wenn der Anbieter zugibt, dass das Schloss immer geknackt werden kann, muss der Nutzer viel vorsichtiger sein, was er hinter die Tür legt“, kommentiert ein Bericht von Cyber Security News.

Folgen für Unternehmen: Vorsicht ist geboten

Die Sicherheitsverbesserungen kommen zu einem Zeitpunkt, an dem erste Unternehmen browserbasierte Agenten für interne Workflows testen. Der neue Update enthält mehrere Sicherheitsvorkehrungen:

Standardmäßig abgemeldet: Für riskante Domains startet Atlas nun in einem „abgemeldeten“ Zustand und benötigt explizite Erlaubnis für sensible Sitzungen.
Bestätigungs-Dialoge: Kritische Aktionen wie das Senden von E-Mails lösen einen verbindlichen „Human-in-the-Loop“-Bestätigungsschritt aus.
Visuelle Überwachung: Ein „Watch Mode“ ermöglicht es Nutzern, die Aktionen des Agenten in Echtzeit mitzuverfolgen.

Sicherheitsbehörden wie das britische NCSC raten dazu, KI-Agenten als „halb-vertrauenswürdige“ Akteure zu behandeln. Für hochsensible Aufgaben mit Finanzdaten oder personenbezogenen Informationen bleibt strikte menschliche Aufsicht unerlässlich.

Die Botschaft von OpenAI ist klar: Die Mauern um ChatGPT Atlas sind höher und dicker als noch vor einer Woche. Doch das Versprechen auf absolute Undurchdringlichkeit gibt es nicht mehr. Die Verantwortung für Sicherheit verschiebt sich teilweise zurück zum Nutzer, der ein neues Bewusstsein für die Risiken seines „hilfreichen“ Browser-Assistenten entwickeln muss.

PS: Die Diskussion um Prompt‑Injection zeigt, dass Phishing‑artige Attacken und neue KI‑Gefahren eng zusammenhängen. Dieser Gratis‑Report enthält eine 4‑Schritte‑Anleitung zur Abwehr von Phishing und Prompt‑Injection, Praxistipps für Human‑in‑the‑Loop‑Kontrollen sowie Checklisten für das sichere Testen browserbasierter Agenten. Ideal für Geschäftsführer und IT‑Leads, die ohne großes Budget wirksame Schutzmaßnahmen einführen wollen. Jetzt Gratis‑Report zur Cyber‑Security anfordern

OpenAI Atlas: KI-Agent bekommt neue Schutzschicht gegen Hacker-Prompts

Ein verwaltetes Risiko, kein behobener Fehler

Folgen für Unternehmen: Vorsicht ist geboten

Aktienkurse

Nachrichten

broker

Service

Weitere Angebote

Kursinformationen