Manjak transparentnosti u datasetovima za treniranje AI modela

Manjak transparentnosti u datasetovima za treniranje umjetne inteligencije: kako novi alat može poboljšati točnost modela i smanjiti pristranost podataka

Nedavna studija MIT-a otkriva ozbiljne nedostatke u transparentnosti podataka korištenih za treniranje velikih jezičnih modela. Novi alat pomaže istraživačima da bolje razumiju izvore podataka, čime se smanjuje rizik od pristranosti i poboljšava učinkovitost modela.

Photo by: objava za medije/ objava za medije

Kritičan nedostatak transparentnosti u datasetovima za treniranje velikih jezičnih modela
Istraživači su razvili alat koji omogućuje stručnjacima za umjetnu inteligenciju lakšu selekciju podataka koji najbolje odgovaraju njihovim modelima, čime se može povećati preciznost modela i smanjiti pristranost.

U treniranju moćnih jezičnih modela, istraživači se oslanjaju na opsežne zbirke podataka koje obuhvaćaju raznovrsne informacije prikupljene s tisuća web stranica. No, kako se ti datasetovi kombiniraju i ponovno koriste u različitim kolekcijama, ključni detalji o njihovom podrijetlu često se gube ili postaju nejasni.

Ovaj nedostatak informacija ne samo da podiže pravne i etičke zabrinutosti, već može i negativno utjecati na performanse modela. Na primjer, ako je dataset pogrešno kategoriziran, istraživač koji trenira model za određeni zadatak može nesvjesno koristiti podatke koji nisu prikladni za tu svrhu.

Uz to, podaci iz nepoznatih izvora mogu sadržavati pristranosti koje dovode do nepravednih predviđanja kad se model koristi u stvarnim situacijama, poput procjene kreditne sposobnosti ili interakcije s korisnicima u uslužnim centrima.

Kako bi se povećala transparentnost podataka, tim multidisciplinarnih istraživača s MIT-a i drugih institucija proveo je sustavni pregled više od 1.800 tekstualnih datasetova na popularnim web stranicama. Otkrili su da više od 70 posto tih datasetova nije sadržavalo ključne informacije o licenciranju, dok je oko 50 posto imalo pogreške u dokumentaciji.

Razvoj alata za veću transparentnost podataka
Istraživači su razvili alat pod nazivom Data Provenance Explorer koji omogućava stručnjacima da jednostavno pregledaju i ocijene porijeklo datasetova. Ovaj alat generira pregled autora, izvora, licenci i dopuštenih načina korištenja, što može značajno poboljšati odgovorno korištenje AI tehnologija.

Data Provenance Explorer ne samo da pomaže u odabiru odgovarajućih datasetova za specifične zadatke, već omogućuje korisnicima da preuzmu kartice s detaljnim informacijama o datasetovima, čime se olakšava razumijevanje rizika i ograničenja povezanih s korištenim podacima.

Rizici pristranosti i neetičke primjene
Studija je također otkrila da gotovo svi tvorci datasetova dolaze iz razvijenih zemalja, što može ograničiti sposobnost modela da ispravno funkcionira u različitim regijama. Na primjer, dataset za turski jezik razvijen od strane istraživača u SAD-u i Kini možda neće obuhvatiti važne kulturne aspekte, što može utjecati na točnost modela u turskom kontekstu.

Istraživači su primijetili značajan porast restrikcija u datasetovima stvorenim 2023. i 2024. godine, što ukazuje na rastuću zabrinutost akademske zajednice da bi njihovi podaci mogli biti nepropisno korišteni u komercijalne svrhe.

Izazovi i budući smjerovi istraživanja
Kako bi se olakšalo prikupljanje ovih informacija bez potrebe za ručnim pregledom, Data Provenance Explorer nudi korisnicima mogućnost sortiranja i filtriranja datasetova prema različitim kriterijima. Ovaj alat omogućuje preuzimanje sažetih pregleda karakteristika datasetova, što je korak naprijed u pravcu boljeg razumijevanja podataka na kojima se treniraju AI modeli.

U budućnosti, istraživači planiraju proširiti svoju analizu na multimodalne podatke, uključujući videozapise i zvuk, te istražiti kako se uvjeti korištenja na web stranicama koje služe kao izvori podataka odražavaju na korištenje datasetova. Također namjeravaju surađivati s regulatorima kako bi se pozabavili jedinstvenim pitanjima autorskih prava i etike u vezi s finetuningom podataka.

MIT-ovo istraživanje naglašava potrebu za transparentnošću podataka, čime se postavlja temelj za etičniji i pravno usklađen razvoj umjetne inteligencije u budućnosti.

Kreirano: subota, 31. kolovoza, 2024.

Napomena za naše čitatelje:
Portal Karlobag.eu pruža informacije o dnevnim događanjima i temama bitnim za našu zajednicu. Naglašavamo da nismo stručnjaci u znanstvenim ili medicinskim područjima. Sve objavljene informacije služe isključivo za informativne svrhe.
Molimo vas da informacije s našeg portala ne smatrate potpuno točnima i uvijek se savjetujte s vlastitim liječnikom ili stručnom osobom prije donošenja odluka temeljenih na tim informacijama.
Naš tim se trudi pružiti vam ažurne i relevantne informacije, a sve sadržaje objavljujemo s velikom predanošću.

Pozivamo vas da podijelite svoje priče iz Karlobaga s nama!
Vaše iskustvo i priče o ovom prekrasnom mjestu su dragocjene i željeli bismo ih čuti.
Slobodno nam ih šaljite na adresu karlobag@karlobag.eu.
Vaše priče će doprinijeti bogatoj kulturnoj baštini našeg Karlobaga.
Hvala vam što ćete s nama podijeliti svoje uspomene!

Manjak transparentnosti u datasetovima za treniranje umjetne inteligencije: kako novi alat može poboljšati točnost modela i smanjiti pristranost podataka

AI Lara Teč

Ostanimo povezani

Događanja Hrvatska

Festival čokolade u Opatiji: vrhunske delicije, radionice i izložbe za ljubitelje čokolade

Festival čokolade u Opatiji: uživanje u čokoladi, radionicama i degustacijama od 8. do 10. studenog 2024. godine

D Business Leadership Summit u Zagrebu 2024. donosi vrhunske govornike i jedinstvene prilike za osobni i poslovni rast

Događanja Zagreb

Novi sustav blokovskog parkiranja u Zagrebu od 26. listopada 2024.

Zagrebačka plinara zadržava svoju poziciju: više od 150,000 korisnika ostaje vjerno gradskoj plinari nakon tržišnih promjena

Nove mjere parkiranja u Zagrebu: podjela na blokove, ukidanje povlaštenih karata i nova garaža olakšat će život stanarima centra

Događanja Karlobag

Neispravna voda za piće u Karlobagu ponovno otkriva nesposobnost lokalnih vlasti dok općinski dužnosnici OPG Koalicije primaju najviše plaće u državi

Proslava zaštitnice župe Cesarica, svete Jelene Križarice, uz euharistijsko slavlje i okupljanje vjernika

Očitovanje PU Ličko-senjske povezano za naš upit o uginulom morskom psu nedaleko Lukovog Šugarja

Recenzije

Užas Tatinje: Kupanje uz ukusnu hranu, hladni napitak i smrad sanitarnog čvora iz pakla

Hostel Baške Oštarije: Između Planinskih Visina i Morskih Dubina

Bura Gym: Spolna diskriminacija i totalno neznanje: oduzima dah, ali nažalost, ne zbog intenzivne vježbe

Vaše priče iz Karlobaga

(6/6) Karlobag - mjesto vječne ljubavi: Refleksije i zahvalnost

(5/6) Karlobaške uspomene Ane P: Odluka za zajednički život

(4/6) Karlobaške uspomene Ane P: Godine čekanja i očuvanje ljubavi na daljinu

Kaleidoskop mašte

Žena mi je kupila bagera, KB…

Profesor Ja i njegov Sanjagrad: Utopija s teretanom, ali bez kanalizacije

U trendu

Manjak transparentnosti u datasetovima za treniranje umjetne inteligencije: kako novi alat može poboljšati točnost modela i smanjiti pristranost podataka

Povezano

Ostanimo povezani