Forscher am MIT standen vor der Herausforderung, große Sprachmodelle (LLMs) zu bewerten, da sie breit eingesetzt werden. Traditionelle Ansätze tun sich schwer damit, alle Arten von Fragen zu erfassen, die Modelle beantworten können. Um dieses Problem zu lösen, konzentrierten sie sich auf menschliche Wahrnehmungen und Überzeugungen über die Fähigkeiten dieser Modelle. Ein Schlüsselkonzept in ihrer Forschung ist die menschliche Generalisierungsfunktion, die modelliert, wie Menschen ihre Überzeugungen über LLMs nach der Interaktion mit ihnen aktualisieren.
Zum Beispiel muss ein Student entscheiden, ob ein Modell beim Verfassen einer bestimmten E-Mail hilft, während ein Arzt einschätzen muss, wann ein Modell bei der Diagnose von Patienten nützlich ist. Die Forscher entwickelten einen Rahmen zur Bewertung von LLMs basierend auf ihrer Übereinstimmung mit den menschlichen Überzeugungen über die Leistung bei bestimmten Aufgaben.
Forschung zur menschlichen Generalisierungsfunktion
Während wir mit anderen kommunizieren, bilden wir Überzeugungen über ihr Wissen. Wenn ein Freund dazu neigt, Grammatik zu korrigieren, könnten wir annehmen, dass er gut im Satzbau ist, obwohl wir ihn nie danach gefragt haben. In ähnlicher Weise wollten die Forscher zeigen, dass derselbe Prozess stattfindet, wenn wir Überzeugungen über Sprachmodelle bilden.
Sie definierten die menschliche Generalisierungsfunktion als das Stellen von Fragen, das Beobachten von Antworten und das Schließen auf die Fähigkeit der Person oder des Modells für ähnliche Fragen. Wenn jemand sieht, dass ein LLM Fragen zur Matrizeninversion korrekt beantwortet, könnte er annehmen, dass es auch gut in einfacher Arithmetik ist. Ein Modell, das dieser Funktion nicht entspricht, kann versagen, wenn es verwendet wird.
Die Forscher führten eine Umfrage durch, um zu messen, wie Menschen generalisieren, wenn sie mit LLMs und anderen Menschen interagieren. Sie zeigten den Teilnehmern Fragen, die von Personen oder LLMs richtig oder falsch beantwortet wurden, und fragten sie, ob sie glauben, dass die Person oder das LLM eine verwandte Frage richtig beantworten würde. Die Ergebnisse zeigten, dass die Teilnehmer ziemlich gut darin waren, die Leistung von Menschen vorherzusagen, aber schlechter darin waren, die Leistung von LLMs vorherzusagen.
Messung der Diskrepanz
Die Forschung ergab, dass die Teilnehmer eher bereit waren, ihre Überzeugungen über LLMs zu aktualisieren, wenn Modelle falsche Antworten gaben, als wenn sie korrekt antworteten. Sie glaubten auch, dass die Leistung von LLMs bei einfachen Fragen keinen Einfluss auf ihre Leistung bei komplexeren Fragen hat. In Situationen, in denen die Teilnehmer falschen Antworten mehr Gewicht beimaßen, übertrafen einfachere Modelle größere Modelle wie GPT-4.
Weitere Forschung und Entwicklung
Eine mögliche Erklärung dafür, warum Menschen schlechter darin sind, für LLMs zu generalisieren, könnte deren Neuheit sein – Menschen haben viel weniger Erfahrung im Umgang mit LLMs als mit anderen Menschen. In Zukunft möchten die Forscher zusätzliche Studien darüber durchführen, wie sich menschliche Überzeugungen über LLMs im Laufe der Zeit mit zunehmender Interaktion mit den Modellen entwickeln. Sie möchten auch untersuchen, wie die menschliche Generalisierung in die Entwicklung von LLMs einbezogen werden könnte.
Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen.
Die praktischen Implikationen dieser Forschung sind bedeutend. Wenn Menschen kein richtiges Verständnis dafür haben, wann LLMs genau sind und wann sie Fehler machen, werden sie eher Fehler bemerken und möglicherweise entmutigt werden, sie weiter zu verwenden. Diese Studie betont die Bedeutung der Angleichung von Modellen an das menschliche Verständnis von Generalisierung. Da immer komplexere Sprachmodelle entwickelt werden, ist es notwendig, die menschliche Perspektive in ihre Entwicklung und Bewertung zu integrieren.
Praktische Implikationen
Diese Forschung wird teilweise von der Harvard Data Science Initiative und dem Center for Applied AI an der University of Chicago Booth School of Business finanziert. Es ist wichtig zu beachten, dass die Forscher auch beabsichtigen, ihren Datensatz als Referenzpunkt für den Vergleich der Leistung von LLMs mit der menschlichen Generalisierungsfunktion zu verwenden, was dazu beitragen könnte, die Leistung der Modelle in realen Situationen zu verbessern.
Darüber hinaus planen die Forscher weitere Studien, um zu verstehen, wie sich menschliche Überzeugungen über LLMs im Laufe der Zeit durch die Interaktion mit Modellen entwickeln. Sie möchten untersuchen, wie die menschliche Generalisierung in die Entwicklung von LLMs integriert werden kann, um deren Leistung zu verbessern und das Vertrauen der Benutzer zu erhöhen. Die praktischen Implikationen dieser Forschung sind weitreichend, insbesondere im Kontext der Anwendung von LLMs in verschiedenen Branchen, wo das Verständnis und das Vertrauen der Benutzer entscheidend für die erfolgreiche Einführung der Technologie sind.
Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen. Es ist wichtig zu betonen, dass die praktischen Implikationen dieser Forschung bedeutend sind. Wenn Menschen kein richtiges Verständnis dafür haben, wann LLMs genau sind und wann sie Fehler machen, werden sie eher Fehler bemerken und möglicherweise entmutigt werden, sie weiter zu verwenden.
Diese Studie betont die Bedeutung der Angleichung von Modellen an das menschliche Verständnis von Generalisierung. Da immer komplexere Sprachmodelle entwickelt werden, ist es notwendig, die menschliche Perspektive in ihre Entwicklung und Bewertung zu integrieren. Diese Forschung wird teilweise von der Harvard Data Science Initiative und dem Center for Applied AI an der University of Chicago Booth School of Business finanziert. Es ist wichtig zu beachten, dass die Forscher auch beabsichtigen, ihren Datensatz als Referenzpunkt für den Vergleich der Leistung von LLMs mit der menschlichen Generalisierungsfunktion zu verwenden, was dazu beitragen könnte, die Leistung der Modelle in realen Situationen zu verbessern.
Die praktischen Implikationen dieser Forschung sind weitreichend, insbesondere im Kontext der Anwendung von LLMs in verschiedenen Branchen, wo das Verständnis und das Vertrauen der Benutzer entscheidend für die erfolgreiche Einführung der Technologie sind. Ein wichtiger Punkt der Forschung ist die Notwendigkeit eines besseren Verständnisses und der Integration der menschlichen Generalisierung in die Entwicklung und Bewertung von LLMs. Der vorgeschlagene Rahmen berücksichtigt menschliche Faktoren bei der Anwendung allgemeiner LLMs, um ihre Leistung in der realen Welt zu verbessern und das Vertrauen der Benutzer zu erhöhen.
Quelle: Massachusetts Institute of Technology
Erstellungszeitpunkt: 29 Juli, 2024
Hinweis für unsere Leser:
Das Portal Karlobag.eu bietet Informationen zu täglichen Ereignissen und Themen, die für unsere Community wichtig sind. Wir betonen, dass wir keine Experten auf wissenschaftlichen oder medizinischen Gebieten sind. Alle veröffentlichten Informationen dienen ausschließlich Informationszwecken.
Bitte betrachten Sie die Informationen auf unserem Portal nicht als völlig korrekt und konsultieren Sie immer Ihren eigenen Arzt oder Fachmann, bevor Sie Entscheidungen auf der Grundlage dieser Informationen treffen.
Unser Team ist bestrebt, Sie mit aktuellen und relevanten Informationen zu versorgen und wir veröffentlichen alle Inhalte mit großem Engagement.
Wir laden Sie ein, Ihre Geschichten aus Karlobag mit uns zu teilen!
Ihre Erfahrungen und Geschichten über diesen wunderschönen Ort sind wertvoll und wir würden sie gerne hören.
Sie können sie gerne senden an uns unter karlobag@karlobag.eu.
Ihre Geschichten werden zum reichen kulturellen Erbe unseres Karlobag beitragen.
Vielen Dank, dass Sie Ihre Erinnerungen mit uns teilen!