Künstliche Intelligenz

Eine schnellere und bessere Möglichkeit, zu verhindern, dass ein KI-Chatbot toxische Antworten gibt

 

Ein Benutzer könnte ChatGPT bitten, ein Computerprogramm zu schreiben oder einen Artikel zusammenzufassen, und der KI-Chatbot wäre wahrscheinlich in der Lage, nützlichen Code zu generieren oder eine überzeugende Zusammenfassung zu schreiben. Allerdings könnte jemand auch nach Anweisungen zum Bau einer Bombe fragen, und der Chatbot könnte diese möglicherweise auch bereitstellen.

Um dieses und andere Sicherheitsprobleme zu verhindern, schützen Unternehmen, die große Sprachmodelle erstellen, diese normalerweise mithilfe eines Prozesses namens Red Teaming. Teams aus menschlichen Testern schreiben Eingabeaufforderungen, die darauf abzielen, unsichere oder giftige Texte aus dem getesteten Modell auszulösen. Diese Aufforderungen werden verwendet, um dem Chatbot beizubringen, solche Antworten zu vermeiden.

Dies funktioniert jedoch nur dann effektiv, wenn Ingenieure wissen, welche toxischen Aufforderungen sie verwenden müssen. Wenn menschliche Tester einige Eingabeaufforderungen übersehen, was angesichts der Vielzahl an Möglichkeiten wahrscheinlich ist, kann ein als sicher angesehener Chatbot dennoch in der Lage sein, unsichere Antworten zu generieren.

Forscher des Improbable AI Lab am MIT und des MIT-IBM Watson AI Lab nutzten maschinelles Lernen, um das Red-Teaming zu verbessern. Sie entwickelten eine Technik, um ein großes Red-Team-Sprachmodell zu trainieren, um automatisch verschiedene Eingabeaufforderungen zu generieren, die ein breiteres Spektrum unerwünschter Reaktionen des getesteten Chatbots auslösen.

Dies erreichen sie, indem sie dem Red-Team-Modell beibringen, neugierig zu sein, wenn es Eingabeaufforderungen schreibt, und sich auf neuartige Eingabeaufforderungen zu konzentrieren, die beim Zielmodell toxische Reaktionen hervorrufen.

Die Technik übertraf menschliche Tester und andere Ansätze des maschinellen Lernens, indem sie eindeutigere Eingabeaufforderungen generierte, die zunehmend toxische Reaktionen hervorriefen. Ihre Methode verbessert nicht nur die Abdeckung der getesteten Eingaben im Vergleich zu anderen automatisierten Methoden erheblich, sondern kann auch toxische Reaktionen aus einem Chatbot herausholen, in den von menschlichen Experten Sicherheitsmaßnahmen integriert wurden.

„Im Moment muss jedes große Sprachmodell eine sehr lange Red-Teaming-Phase durchlaufen, um seine Sicherheit zu gewährleisten. Das wird nicht nachhaltig sein, wenn wir diese Modelle in sich schnell ändernden Umgebungen aktualisieren wollen. Unsere Methode bietet eine schnellere und bessere Lösung.“ „Es ist eine effektive Möglichkeit, diese Qualitätssicherung durchzuführen“, sagt Zhang-Wei Hong, ein Doktorand der Elektrotechnik und Informatik (EECS) im Improbable AI-Labor und Hauptautor eines Artikels über diesen Red-Teaming-Ansatz.

Zu Hongs Co-Autoren gehören die EECS-Absolventen Idan Shenfield, Tsun-Hsuan Wang und Yung-Sung Chuang; Aldo Pareja und Akash Srivastava, Forschungswissenschaftler am MIT-IBM Watson AI Lab; James Glass, leitender Forschungswissenschaftler und Leiter der Spoken Language Systems Group im Computer Science and Artificial Intelligence Laboratory (CSAIL); und leitender Autor Pulkit Agrawal, Direktor des Improbable AI Lab und Assistenzprofessor am CSAIL. Die Forschung wird auf der International Conference on Learning Representations vorgestellt.

Automatisiertes Red-Teaming

Große Sprachmodelle, wie sie KI-Chatbots antreiben, werden oft trainiert, indem ihnen riesige Textmengen von Milliarden öffentlicher Websites angezeigt werden. So können sie nicht nur lernen, giftige Wörter zu verwenden oder illegale Aktivitäten zu beschreiben, sondern die Modelle könnten auch persönliche Informationen preisgeben, die sie möglicherweise gesammelt haben.

Die mühsame und kostspielige Natur des menschlichen Red-Teamings, das oft nicht in der Lage ist, eine ausreichend große Vielfalt an Eingabeaufforderungen zu generieren, um ein Modell vollständig zu schützen, hat Forscher dazu ermutigt, den Prozess durch maschinelles Lernen zu automatisieren.

Solche Techniken trainieren häufig ein Red-Team-Modell mithilfe von Reinforcement Learning. Dieser Trial-and-Error-Prozess belohnt das Red-Team-Modell für die Generierung von Eingabeaufforderungen, die toxische Reaktionen des getesteten Chatbots auslösen.

Aber aufgrund der Art und Weise, wie Verstärkungslernen funktioniert, generiert das Red-Team-Modell oft immer wieder ein paar ähnliche Aufforderungen, die äußerst toxisch sind, um seine Belohnung zu maximieren.

Für ihren Reinforcement-Learning-Ansatz verwendeten die MIT-Forscher eine Technik namens neugierige Erkundung. Das Red-Team-Modell hat den Anreiz, neugierig auf die Konsequenzen jeder von ihm generierten Eingabeaufforderung zu sein, sodass es Eingabeaufforderungen mit unterschiedlichen Wörtern, Satzmustern oder Bedeutungen ausprobiert.

„Wenn das Red-Team-Modell bereits eine bestimmte Eingabeaufforderung gesehen hat, wird die Reproduktion dieser keine Neugier im Red-Team-Modell hervorrufen, sodass es dazu gedrängt wird, neue Eingabeaufforderungen zu erstellen“, sagt Hong.

Während seines Trainingsprozesses generiert das Red-Team-Modell eine Eingabeaufforderung und interagiert mit dem Chatbot. Der Chatbot antwortet, und ein Sicherheitsklassifizierer bewertet die Toxizität seiner Antwort und belohnt das Red-Team-Modell auf Grundlage dieser Bewertung.

Belohnende Neugier

Das Ziel des Red-Team-Modells besteht darin, seine Belohnung zu maximieren, indem es mit einer neuartigen Aufforderung eine noch toxischere Reaktion hervorruft. Die Forscher ermöglichen Neugier im Red-Team-Modell, indem sie das Belohnungssignal im Aufbau des verstärkenden Lernens modifizieren.

Erstens beinhalten sie neben der Maximierung der Toxizität einen Entropiebonus, der das Red-Team-Modell dazu ermutigt, bei der Erforschung verschiedener Eingabeaufforderungen zufälliger vorzugehen. Zweitens enthalten sie zwei neue Belohnungen, um den Agenten neugierig zu machen. Einer belohnt das Modell basierend auf der Ähnlichkeit der Wörter in seinen Eingabeaufforderungen, der andere belohnt das Modell basierend auf semantischer Ähnlichkeit. (Weniger Ähnlichkeit führt zu einer höheren Belohnung.)

Um zu verhindern, dass das Red-Team-Modell zufälligen, unsinnigen Text generiert, der den Klassifikator dazu verleiten könnte, einen hohen Toxizitätswert zu vergeben, fügten die Forscher dem Trainingsziel auch einen naturalistischen Sprachbonus hinzu.

Mit diesen Ergänzungen verglichen die Forscher die Toxizität und Vielfalt der Reaktionen, die ihr Red-Team-Modell generierte, mit anderen automatisierten Techniken. Ihr Modell übertraf die Basiswerte bei beiden Kennzahlen.

Sie nutzten ihr Red-Team-Modell auch, um einen Chatbot zu testen, der auf menschliches Feedback abgestimmt war, sodass er keine schädlichen Antworten gab. Ihr von Neugier getriebener Ansatz konnte schnell 196 Eingabeaufforderungen hervorbringen, die bei diesem „sicheren“ Chatbot toxische Reaktionen hervorriefen.

„Wir sehen einen Anstieg an Modellen, der voraussichtlich noch weiter zunehmen wird. Stellen Sie sich Tausende von Modellen oder noch mehr und Unternehmen/Labore vor, die regelmäßig Modellaktualisierungen vorantreiben. Diese Modelle werden ein integraler Bestandteil unseres Lebens sein, und es ist wichtig, dass sie es sind.“ „Die manuelle Überprüfung von Modellen ist einfach nicht skalierbar, und unsere Arbeit ist ein Versuch, den menschlichen Aufwand zu reduzieren, um eine sicherere und vertrauenswürdigere KI-Zukunft zu gewährleisten.“

In Zukunft möchten die Forscher das Red-Team-Modell in die Lage versetzen, Hinweise zu einer größeren Themenvielfalt zu generieren. Sie möchten auch die Verwendung eines großen Sprachmodells als Toxizitätsklassifikator untersuchen. Auf diese Weise könnte ein Benutzer den Toxizitätsklassifikator beispielsweise anhand eines Unternehmensrichtliniendokuments trainieren, sodass ein Red-Team-Modell einen Chatbot auf Verstöße gegen Unternehmensrichtlinien testen könnte.

„Wenn Sie ein neues KI-Modell veröffentlichen und sich Sorgen darüber machen, ob es sich wie erwartet verhält, sollten Sie die Verwendung von neugierigem Red-Teaming in Betracht ziehen“, sagt Agrawal.

Diese Forschung wird teilweise von Hyundai Motor Company, Quanta Computer Inc., dem MIT-IBM Watson AI Lab, einem Amazon Web Services MLRA-Forschungsstipendium, dem US Army Research Office und der US Defense Advanced Research Projects Agency Machine Common Sense finanziert Programm, das US Office of Naval Research, das US Air Force Research Laboratory und der US Air Force Artificial Intelligence Accelerator.

Ähnliche Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Schaltfläche "Zurück zum Anfang"