Badacze z MIT stanęli przed wyzwaniem oceny dużych modeli językowych (LLM) ze względu na ich szerokie zastosowanie. Tradycyjne podejścia mają trudności z objęciem wszystkich typów pytań, na które modele mogą odpowiedzieć. Aby rozwiązać ten problem, skupili się na ludzkich postrzeganiach i przekonaniach dotyczących zdolności tych modeli. Kluczowym pojęciem w ich badaniach jest funkcja generalizacji ludzkiej, która modeluje sposób, w jaki ludzie aktualizują swoje przekonania na temat LLM-ów po interakcji z nimi.
Na przykład student musi zdecydować, czy model pomoże w skomponowaniu konkretnego e-maila, podczas gdy lekarz musi ocenić, kiedy model będzie przydatny w diagnozowaniu pacjentów. Badacze opracowali ramy oceny LLM-ów w oparciu o ich zgodność z ludzkimi przekonaniami na temat wydajności w określonych zadaniach.
Badanie funkcji generalizacji ludzkiej
Komunikując się z innymi, tworzymy przekonania na temat ich wiedzy. Jeśli przyjaciel ma skłonność do poprawiania gramatyki, możemy założyć, że jest dobry w komponowaniu zdań, chociaż nigdy go o to nie pytaliśmy. Podobnie badacze chcieli pokazać, że ten sam proces zachodzi, gdy tworzymy przekonania na temat modeli językowych.
Zdefiniowali funkcję generalizacji ludzkiej jako zadawanie pytań, obserwowanie odpowiedzi i wnioskowanie na temat zdolności osoby lub modelu do podobnych pytań. Jeśli ktoś zobaczy, że LLM poprawnie odpowiada na pytania dotyczące inwersji macierzy, może założyć, że jest również dobry w prostej arytmetyce. Model, który nie odpowiada tej funkcji, może zawieść podczas użycia.
Badacze przeprowadzili ankietę, aby zmierzyć, jak ludzie generalizują podczas interakcji z LLM-ami i innymi ludźmi. Pokazali uczestnikom pytania, na które osoby lub LLM-y odpowiedziały poprawnie lub błędnie, i zapytali ich, czy uważają, że osoba lub LLM odpowiedzieliby poprawnie na powiązane pytanie. Wyniki pokazały, że uczestnicy byli całkiem dobrzy w przewidywaniu wydajności ludzi, ale gorzej w przewidywaniu wydajności LLM-ów.
Pomiar niezgodności
Badania wykazały, że uczestnicy byli bardziej skłonni do aktualizacji swoich przekonań na temat LLM-ów, gdy modele udzielały błędnych odpowiedzi, niż gdy odpowiadały poprawnie. Uważali również, że wydajność LLM-ów w prostych pytaniach nie wpływa na ich wydajność w bardziej złożonych pytaniach. W sytuacjach, w których uczestnicy przywiązywali większą wagę do błędnych odpowiedzi, prostsze modele przewyższały większe modele, takie jak GPT-4.
Dalsze badania i rozwój
Jednym z możliwych wyjaśnień, dlaczego ludzie są gorsi w generalizacji dla LLM-ów, może być ich nowość – ludzie mają znacznie mniej doświadczenia w interakcji z LLM-ami niż z innymi ludźmi. W przyszłości badacze chcą przeprowadzić dodatkowe badania nad tym, jak ludzkie przekonania na temat LLM-ów rozwijają się w czasie wraz ze zwiększoną interakcją z modelami. Chcą również zbadać, jak generalizacja ludzka mogłaby zostać włączona do rozwoju LLM-ów.
Jednym z kluczowych punktów badań jest potrzeba lepszego zrozumienia i integracji generalizacji ludzkiej w rozwój i ocenę LLM-ów. Proponowane ramy uwzględniają czynniki ludzkie podczas stosowania ogólnych LLM-ów w celu poprawy ich wydajności w rzeczywistych warunkach i zwiększenia zaufania użytkowników.
Praktyczne implikacje tych badań są znaczące. Jeśli ludzie nie mają właściwego zrozumienia, kiedy LLM-y będą dokładne, a kiedy popełnią błąd, są bardziej skłonni zauważyć błędy i mogą zostać zniechęceni do dalszego użytkowania. To badanie podkreśla znaczenie dostosowywania modeli do ludzkiego rozumienia generalizacji. W miarę rozwoju coraz bardziej złożonych modeli językowych, konieczne jest uwzględnienie ludzkiej perspektywy w ich rozwój i ocenę.
Praktyczne implikacje
Te badania są częściowo finansowane przez Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Ważne jest, aby zauważyć, że badacze chcą również używać swojego zestawu danych jako punktu odniesienia do porównania wydajności LLM-ów w stosunku do funkcji generalizacji ludzkiej, co mogłoby pomóc w poprawie wydajności modeli w rzeczywistych sytuacjach.
Ponadto badacze planują dalsze badania, aby zrozumieć, jak ludzkie przekonania na temat LLM-ów rozwijają się z czasem dzięki interakcji z modelami. Chcą zbadać, jak generalizacja ludzka może być zintegrowana z rozwojem LLM-ów, aby poprawić ich wydajność i zwiększyć zaufanie użytkowników. Praktyczne implikacje tych badań są dalekosiężne, szczególnie w kontekście zastosowania LLM-ów w różnych branżach, gdzie zrozumienie i zaufanie użytkowników są kluczowe dla pomyślnego wdrożenia technologii.
Jednym z kluczowych punktów badań jest potrzeba lepszego zrozumienia i integracji generalizacji ludzkiej w rozwój i ocenę LLM-ów. Proponowane ramy uwzględniają czynniki ludzkie podczas stosowania ogólnych LLM-ów w celu poprawy ich wydajności w rzeczywistych warunkach i zwiększenia zaufania użytkowników. Ważne jest podkreślenie, że praktyczne implikacje tych badań są znaczące. Jeśli ludzie nie mają właściwego zrozumienia, kiedy LLM-y będą dokładne, a kiedy popełnią błąd, są bardziej skłonni zauważyć błędy i mogą zostać zniechęceni do dalszego użytkowania.
To badanie podkreśla znaczenie dostosowywania modeli do ludzkiego rozumienia generalizacji. W miarę rozwoju coraz bardziej złożonych modeli językowych, konieczne jest uwzględnienie ludzkiej perspektywy w ich rozwój i ocenę. Te badania są częściowo finansowane przez Harvard Data Science Initiative i Center for Applied AI na University of Chicago Booth School of Business. Ważne jest, aby zauważyć, że badacze chcą również używać swojego zestawu danych jako punktu odniesienia do porównania wydajności LLM-ów w stosunku do funkcji generalizacji ludzkiej, co mogłoby pomóc w poprawie wydajności modeli w rzeczywistych sytuacjach.
Praktyczne implikacje tych badań są dalekosiężne, szczególnie w kontekście zastosowania LLM-ów w różnych branżach, gdzie zrozumienie i zaufanie użytkowników są kluczowe dla pomyślnego wdrożenia technologii. Jednym z kluczowych punktów badań jest potrzeba lepszego zrozumienia i integracji generalizacji ludzkiej w rozwój i ocenę LLM-ów. Proponowane ramy uwzględniają czynniki ludzkie podczas stosowania ogólnych LLM-ów w celu poprawy ich wydajności w rzeczywistych warunkach i zwiększenia zaufania użytkowników.
Źródło: Massachusetts Institute of Technology
Heure de création: 29 juillet, 2024
Note pour nos lecteurs :
Le portail Karlobag.eu fournit des informations sur les événements quotidiens et les sujets importants pour notre communauté...
Nous vous invitons à partager vos histoires de Karlobag avec nous !...