Forscher am MIT und am MIT-IBM Watson AI Lab haben eine Technik entwickelt, um die Zuverlässigkeit von Foundation-Modellen zu bewerten, bevor sie auf eine spezifische Aufgabe angewendet werden. Dies erreichen sie, indem sie eine Reihe von Foundation-Modellen analysieren, die sich leicht voneinander unterscheiden. Der Algorithmus bewertet die Konsistenz der Repräsentationen, die jedes Modell über dieselben Testdaten lernt. Wenn die Repräsentationen konsistent sind, wird das Modell als zuverlässig angesehen.
Im Vergleich zu den modernsten Methoden stellten die Forscher fest, dass ihre Methode besser in der Lage ist, die Zuverlässigkeit von Foundation-Modellen bei verschiedenen Klassifikationsaufgaben zu erfassen.
Diese Technik ermöglicht es den Nutzern, zu entscheiden, ob das Modell in einer bestimmten Umgebung angewendet werden soll, ohne dass Tests mit realen Daten erforderlich sind. Dies ist besonders nützlich in Situationen, in denen Daten aufgrund von Datenschutzproblemen möglicherweise nicht verfügbar sind, wie z. B. Gesundheitsdaten. Darüber hinaus kann die Technik Modelle nach ihren Zuverlässigkeitsergebnissen ranken, sodass die Nutzer das beste Modell für ihre Aufgabe auswählen können.
„Alle Modelle können Fehler machen, aber Modelle, die wissen, wann sie falsch liegen, sind nützlicher. Das Problem der Quantifizierung von Unsicherheit oder Zuverlässigkeit ist bei diesen Foundation-Modellen schwieriger, da ihre abstrakten Repräsentationen schwer zu vergleichen sind. Unsere Methode ermöglicht es, zu quantifizieren, wie zuverlässig die Repräsentation eines Modells für beliebige Eingabedaten ist,” sagt Hauptautor Navid Azizan, Professor am MIT und Mitglied des Laboratory for Information and Decision Systems (LIDS).
Zusammen mit ihm arbeiteten auch Hauptautor Young-Jin Park, Doktorand am LIDS; Hao Wang, Forschungswissenschaftler am MIT-IBM Watson AI Lab; und Shervin Ardeshir, leitender Forschungswissenschaftler bei Netflix. Die Arbeit wird auf der Konferenz über Unsicherheit in der Künstlichen Intelligenz vorgestellt.
Konsensmessung
Traditionelle Modelle des maschinellen Lernens werden darauf trainiert, eine spezifische Aufgabe zu erfüllen. Diese Modelle liefern in der Regel eine konkrete Vorhersage basierend auf den Eingaben. Ein Beispiel: Ein Modell könnte sagen, ob ein bestimmtes Bild eine Katze oder einen Hund enthält. In diesem Fall kann die Bewertung der Zuverlässigkeit so einfach sein wie das Überprüfen der endgültigen Vorhersage.
Aber Foundation-Modelle sind anders. Das Modell wird vorab mit allgemeinen Daten trainiert, in einer Umgebung, in der die Entwickler nicht alle Aufgaben kennen, auf die es angewendet wird. Benutzer passen es an ihre spezifischen Aufgaben an, nachdem es bereits trainiert wurde.
Um die Zuverlässigkeit von Foundation-Modellen zu bewerten, verwendeten die Forscher einen Ensemble-Ansatz, indem sie mehrere Modelle trainierten, die viele Merkmale teilen, aber sich geringfügig unterscheiden.
„Unsere Idee ist wie das Messen des Konsenses. Wenn all diese Foundation-Modelle für beliebige Daten in unserem Datensatz konsistente Repräsentationen liefern, können wir sagen, dass dieses Modell zuverlässig ist,” sagt Park.
Aber sie stießen auf ein Problem: Wie vergleicht man abstrakte Repräsentationen?
„Diese Modelle liefern nur einen Vektor, der aus einigen Zahlen besteht, daher können wir sie nicht leicht vergleichen,” fügt er hinzu.
Sie lösten das Problem mit einer Idee namens Nachbarschaftskonsistenz.
Für ihren Ansatz bereiten die Forscher einen Satz zuverlässiger Referenzpunkte für Tests am Ensemble der Modelle vor. Dann untersuchen sie für jedes Modell die Referenzpunkte, die sich nahe der Repräsentation des Modells für den Testpunkt befinden.
Indem sie die Konsistenz benachbarter Punkte betrachten, können sie die Zuverlässigkeit des Modells bewerten.
Repräsentationen ausrichten
Foundation-Modelle kartieren Datenpunkte in das, was als Repräsentationsraum bekannt ist. Eine Möglichkeit, diesen Raum zu betrachten, ist als eine Kugel. Jedes Modell kartiert ähnliche Datenpunkte an denselben Ort in seiner Kugel, sodass Bilder von Katzen an einen Ort gehen und Bilder von Hunden an einen anderen.
Aber jedes Modell würde Tiere unterschiedlich in seiner Kugel kartieren, sodass während Katzen in der Nähe des Südpols einer Kugel gruppiert sein könnten, ein anderes Modell Katzen irgendwo in der Nordhalbkugel kartieren könnte.
Forscher verwenden benachbarte Punkte als Anker, um diese Kugeln auszurichten, damit sie Repräsentationen vergleichen können. Wenn die Nachbarn eines Datenpunkts über mehrere Repräsentationen konsistent sind, können wir sicher sein, dass das Modell für diesen Punkt zuverlässig ist.
Als sie diesen Ansatz bei einer breiten Palette von Klassifikationsaufgaben testeten, stellten sie fest, dass er viel konsistenter war als die Grundmethoden. Darüber hinaus wurde er nicht von herausfordernden Testpunkten verwirrt, die andere Methoden verwirrten.
Darüber hinaus kann ihr Ansatz verwendet werden, um die Zuverlässigkeit für beliebige Eingabedaten zu bewerten, sodass beurteilt werden kann, wie gut das Modell für eine bestimmte Art von Individuum funktioniert, z. B. einen Patienten mit bestimmten Merkmalen.
„Selbst wenn alle Modelle durchschnittliche Leistungen erbringen, werden Sie aus individueller Perspektive das Modell bevorzugen, das für dieses Individuum am besten funktioniert,” sagt Wang.
Eine Einschränkung ergibt sich aus der Notwendigkeit, ein Ensemble von Foundation-Modellen zu trainieren, was rechnerisch aufwendig ist. In Zukunft planen sie, effizientere Wege zu finden, um mehrere Modelle zu erstellen, möglicherweise durch die Verwendung kleiner Störungen eines einzigen Modells.
„Mit dem aktuellen Trend, Foundation-Modelle für ihre Repräsentationen zu verwenden, um verschiedene Aufgaben zu unterstützen – von der Feinabstimmung bis zur Generierung mit angereicherten Abrufansätzen – wird das Thema der Quantifizierung von Unsicherheit auf der Repräsentationsebene immer wichtiger, aber herausfordernd, da die Repräsentationen selbst keine Verankerung haben. Stattdessen geht es darum, wie die Repräsentationen verschiedener Eingaben miteinander verbunden sind, eine Idee, die diese Arbeit durch den vorgeschlagenen Nachbarschaftskonsistenz-Score sauber umsetzt,” sagt Marco Pavone, außerordentlicher Professor in der Abteilung für Luft- und Raumfahrttechnik an der Stanford University, der nicht an dieser Arbeit beteiligt war. „Dies ist ein vielversprechender Schritt in Richtung einer hochwertigen Unsicherheitsquantifizierung für Repräsentationsmodelle, und ich bin gespannt auf zukünftige Erweiterungen, die ohne die Notwendigkeit eines Modell-Ensembles funktionieren können, um diesen Ansatz wirklich in Foundation-Größe zu ermöglichen.”
Diese Arbeit wurde teilweise vom MIT-IBM Watson AI Lab, MathWorks und Amazon finanziert.
Erstellungszeitpunkt: 17 Juli, 2024
Hinweis für unsere Leser:
Das Portal Karlobag.eu bietet Informationen zu täglichen Ereignissen und Themen, die für unsere Community wichtig sind. Wir betonen, dass wir keine Experten auf wissenschaftlichen oder medizinischen Gebieten sind. Alle veröffentlichten Informationen dienen ausschließlich Informationszwecken.
Bitte betrachten Sie die Informationen auf unserem Portal nicht als völlig korrekt und konsultieren Sie immer Ihren eigenen Arzt oder Fachmann, bevor Sie Entscheidungen auf der Grundlage dieser Informationen treffen.
Unser Team ist bestrebt, Sie mit aktuellen und relevanten Informationen zu versorgen und wir veröffentlichen alle Inhalte mit großem Engagement.
Wir laden Sie ein, Ihre Geschichten aus Karlobag mit uns zu teilen!
Ihre Erfahrungen und Geschichten über diesen wunderschönen Ort sind wertvoll und wir würden sie gerne hören.
Sie können sie gerne senden an uns unter karlobag@karlobag.eu.
Ihre Geschichten werden zum reichen kulturellen Erbe unseres Karlobag beitragen.
Vielen Dank, dass Sie Ihre Erinnerungen mit uns teilen!