НАУКА И ТЕХНОЛОГИЈА

Стручњаци упозоравају: Свету понестаје података за вештачку интелигенцију

Вештачка интелигенција (АИ) достиже врхунац своје популарности, а истраживачи упозоравају да индустрији понестаје података – горива које покреће моћне АИ системе. То може да успори раст АИ модела, посебно великих језичких модела, а може и да промени путању АИ револуције.
Sputnik
Потребно нам је много података за обуку моћних, тачних и висококвалитетних АИ алгоритама. На пример, „Чат ГПТ“ је обучен на 570 гигабајта текстуалних података, што је око 300 милијарди речи.
Слично томе, алгоритам стабилне дифузије (који стоји иза многих апликација за генерисање АИ слика као што су „ДАЛ-И“, „Ленса“ и „Мидџурни“) обучен је на скупу података ЛИАОН-5Б који се састоји од 5,8 милијарди парова слика-текст. Ако је алгоритам обучен на недовољној количини података, он ће произвести нетачне или нискоквалитетне резултате.
Квалитет података о обуци је такође важан. Податке ниског квалитета, као што су постови на друштвеним мрежама или замућене фотографије лако је набавити, али нису довољни за обуку АИ модела високих перформанси.
Текст преузет са платформи друштвених медија може бити пристрасан или са предрасудама, или може укључивати дезинформације или илегални садржај који би модел могао реплицирати. На пример, када је „Мајкрософт“ покушао да обучи свог АИ бота користећи садржај са Твитера, научио је да производи расистичке и мизогине резултате.
Због тога програмери вештачке интелигенције траже садржај високог квалитета као што су текстови из књига, онлајн чланци, научни радови, Википедија и одређени филтрирани веб-садржај.
Гугл помоћник је трениран на 11.000 љубавних романа преузетих са самоиздавачког сајта „Смешвордс“ како би био разговорљивији.

Имамо ли довољно података?

Индустрија вештачке интелигенције обучава АИ системе на све већим скуповима података, због чега сада имамо моделе високих перформанси као што су „Чат ГПТ“ или „ДАЛ-И 3“. У исто време, истраживања показују да залихе података на мрежи расту много спорије од скупова података који се користе за тренирање АИ.
У раду објављеном прошле године, група истраживача је предвидела да ћемо остати без висококвалитетних текстуалних података пре 2026. ако се наставе тренутни трендови обуке АИ. Такође су проценили да ће подаци о језику лошег квалитета бити исцрпљени негде између 2030. и 2050. године, а подаци о сликама ниског квалитета између 2030. и 2060. године.
Постоји много непознаница о томе како ће се модели вештачке интелигенције развијати у будућности, али и неколико начина за решавање ризика од недостатка података.
Један је да програмери вештачке интелигенције побољшају алгоритме како би ефикасније користили податке које већ имају.
Вероватно ће у наредним годинама моћи да тренирају АИ системе високих перформанси користећи мање података, а можда и мање рачунарске снаге. Ово би такође помогло да се смањи угљенични отисак АИ.
Друга опција је коришћење вештачке интелигенције за креирање синтетичких података за обуку система. Другим речима, програмери могу једноставно да генеришу податке који су им потребни, креирани да одговарају њиховом конкретном АИ моделу. Неколико пројеката већ користи синтетички садржај, који се често добија из услуга за генерисање података као што је „Мостли АИ“. Ово ће постати све чешће у будућности.
Jедан од највећих светских власника садржаја вести „Њуз корп“ недавно је рекао да преговара о уговорима о садржају са програмерима вештачке интелигенције. Такви договори би приморали компаније са вештачком интелигенцијом да плате за податке које користе – док су их до сада углавном бесплатно скидали са интернета.
Креатори садржаја протестовали су против неовлашћеног коришћења њиховог садржаја за обуку АИ модела, а неки су тужили компаније као што су Мајкрософт, Опен АИ и Стабилити АИ, преноси „Сајенс алерт“.
НАУКА И ТЕХНОЛОГИЈА
Вештачка интелигенција за понети: Представљен нови уређај /видео, фото/
Коментар