https://sputnikportal.rs/20231112/strucnjaci-upozoravaju-svetu-ponestaje-podataka-za-vestacku-inteligenciju-1163644068.html

Стручњаци упозоравају: Свету понестаје података за вештачку интелигенцију

Sputnik Србија

Вештачка интелигенција (АИ) достиже врхунац своје популарности, а истраживачи упозоравају да индустрији понестаје података – горива које покреће моћне АИ... 12.11.2023, Sputnik Србија

2023-11-12T16:27+0100

наука и технологија

друштво

https://cdn1.img.sputnikportal.rs/img/07e7/0b/0b/1163643924_5:0:972:544_1920x0_80_0_0_63180783919546426e3a844ddb2111ec.jpg

Потребно нам је много података за обуку моћних, тачних и висококвалитетних АИ алгоритама. На пример, „Чат ГПТ“ је обучен на 570 гигабајта текстуалних података, што је око 300 милијарди речи.Слично томе, алгоритам стабилне дифузије (који стоји иза многих апликација за генерисање АИ слика као што су „ДАЛ-И“, „Ленса“ и „Мидџурни“) обучен је на скупу података ЛИАОН-5Б који се састоји од 5,8 милијарди парова слика-текст. Ако је алгоритам обучен на недовољној количини података, он ће произвести нетачне или нискоквалитетне резултате.Квалитет података о обуци је такође важан. Податке ниског квалитета, као што су постови на друштвеним мрежама или замућене фотографије лако је набавити, али нису довољни за обуку АИ модела високих перформанси.Текст преузет са платформи друштвених медија може бити пристрасан или са предрасудама, или може укључивати дезинформације или илегални садржај који би модел могао реплицирати. На пример, када је „Мајкрософт“ покушао да обучи свог АИ бота користећи садржај са Твитера, научио је да производи расистичке и мизогине резултате.Због тога програмери вештачке интелигенције траже садржај високог квалитета као што су текстови из књига, онлајн чланци, научни радови, Википедија и одређени филтрирани веб-садржај. Гугл помоћник је трениран на 11.000 љубавних романа преузетих са самоиздавачког сајта „Смешвордс“ како би био разговорљивији. Имамо ли довољно података? Индустрија вештачке интелигенције обучава АИ системе на све већим скуповима података, због чега сада имамо моделе високих перформанси као што су „Чат ГПТ“ или „ДАЛ-И 3“. У исто време, истраживања показују да залихе података на мрежи расту много спорије од скупова података који се користе за тренирање АИ. У раду објављеном прошле године, група истраживача је предвидела да ћемо остати без висококвалитетних текстуалних података пре 2026. ако се наставе тренутни трендови обуке АИ. Такође су проценили да ће подаци о језику лошег квалитета бити исцрпљени негде између 2030. и 2050. године, а подаци о сликама ниског квалитета између 2030. и 2060. године.Постоји много непознаница о томе како ће се модели вештачке интелигенције развијати у будућности, али и неколико начина за решавање ризика од недостатка података. Један је да програмери вештачке интелигенције побољшају алгоритме како би ефикасније користили податке које већ имају.Вероватно ће у наредним годинама моћи да тренирају АИ системе високих перформанси користећи мање података, а можда и мање рачунарске снаге. Ово би такође помогло да се смањи угљенични отисак АИ.Друга опција је коришћење вештачке интелигенције за креирање синтетичких података за обуку система. Другим речима, програмери могу једноставно да генеришу податке који су им потребни, креирани да одговарају њиховом конкретном АИ моделу. Неколико пројеката већ користи синтетички садржај, који се често добија из услуга за генерисање података као што је „Мостли АИ“. Ово ће постати све чешће у будућности.Jедан од највећих светских власника садржаја вести „Њуз корп“ недавно је рекао да преговара о уговорима о садржају са програмерима вештачке интелигенције. Такви договори би приморали компаније са вештачком интелигенцијом да плате за податке које користе – док су их до сада углавном бесплатно скидали са интернета.Креатори садржаја протестовали су против неовлашћеног коришћења њиховог садржаја за обуку АИ модела, а неки су тужили компаније као што су Мајкрософт, Опен АИ и Стабилити АИ, преноси „Сајенс алерт“.

https://sputnikportal.rs/20231110/sta-sve-moze-prenosivi-bedz-koji-koristi-vestacku-inteligenciju-1163572108.html

Sputnik Србија

feedback.rs@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

2023

Sputnik Србија

feedback.rs@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

Вести

sr_RS

Sputnik Србија

feedback.rs@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

1920

1080

true

1920

1440

true

https://cdn1.img.sputnikportal.rs/img/07e7/0b/0b/1163643924_126:0:851:544_1920x0_80_0_0_843b7747897cd7c3da25168fbc4f2f21.jpg

1920

true

Sputnik Србија

feedback.rs@sputniknews.com

+74956456601

MIA „Rossiya Segodnya“

252

Sputnik Србија

наука и технологија, друштво

Стручњаци упозоравају: Свету понестаје података за вештачку интелигенцију

16:27 12.11.2023

CC0 / / Вештачка интелигенција – илустрација

Вештачка интелигенција – илустрација - Sputnik Србија, 1920, 12.11.2023

CC0 / /

Вештачка интелигенција (АИ) достиже врхунац своје популарности, а истраживачи упозоравају да индустрији понестаје података – горива које покреће моћне АИ системе. То може да успори раст АИ модела, посебно великих језичких модела, а може и да промени путању АИ револуције.

Слично томе, алгоритам стабилне дифузије (који стоји иза многих апликација за генерисање АИ слика као што су „ДАЛ-И“, „Ленса“ и „Мидџурни“) обучен је на скупу података ЛИАОН-5Б који се састоји од 5,8 милијарди парова слика-текст. Ако је алгоритам обучен на недовољној количини података, он ће произвести нетачне или нискоквалитетне резултате.

Квалитет података о обуци је такође важан. Податке ниског квалитета, као што су постови на друштвеним мрежама или замућене фотографије лако је набавити, али нису довољни за обуку АИ модела високих перформанси.

Текст преузет са платформи друштвених медија може бити пристрасан или са предрасудама, или може укључивати дезинформације или илегални садржај који би модел могао реплицирати. На пример, када је „Мајкрософт“ покушао да обучи свог АИ бота користећи садржај са Твитера, научио је да производи расистичке и мизогине резултате.

Због тога програмери вештачке интелигенције траже садржај високог квалитета као што су текстови из књига, онлајн чланци, научни радови, Википедија и одређени филтрирани веб-садржај.

Гугл помоћник је трениран на 11.000 љубавних романа преузетих са самоиздавачког сајта „Смешвордс“ како би био разговорљивији.

Имамо ли довољно података?

Индустрија вештачке интелигенције обучава АИ системе на све већим скуповима података, због чега сада имамо моделе високих перформанси као што су „Чат ГПТ“ или „ДАЛ-И 3“. У исто време, истраживања показују да залихе података на мрежи расту много спорије од скупова података који се користе за тренирање АИ.

У раду објављеном прошле године, група истраживача је предвидела да ћемо остати без висококвалитетних текстуалних података пре 2026. ако се наставе тренутни трендови обуке АИ. Такође су проценили да ће подаци о језику лошег квалитета бити исцрпљени негде између 2030. и 2050. године, а подаци о сликама ниског квалитета између 2030. и 2060. године.

Постоји много непознаница о томе како ће се модели вештачке интелигенције развијати у будућности, али и неколико начина за решавање ризика од недостатка података.

Један је да програмери вештачке интелигенције побољшају алгоритме како би ефикасније користили податке које већ имају.

Вероватно ће у наредним годинама моћи да тренирају АИ системе високих перформанси користећи мање података, а можда и мање рачунарске снаге. Ово би такође помогло да се смањи угљенични отисак АИ.

Друга опција је коришћење вештачке интелигенције за креирање синтетичких података за обуку система. Другим речима, програмери могу једноставно да генеришу податке који су им потребни, креирани да одговарају њиховом конкретном АИ моделу. Неколико пројеката већ користи синтетички садржај, који се често добија из услуга за генерисање података као што је „Мостли АИ“. Ово ће постати све чешће у будућности.

Jедан од највећих светских власника садржаја вести „Њуз корп“ недавно је рекао да преговара о уговорима о садржају са програмерима вештачке интелигенције. Такви договори би приморали компаније са вештачком интелигенцијом да плате за податке које користе – док су их до сада углавном бесплатно скидали са интернета.

Креатори садржаја протестовали су против неовлашћеног коришћења њиховог садржаја за обуку АИ модела, а неки су тужили компаније као што су Мајкрософт, Опен АИ и Стабилити АИ, преноси „Сајенс алерт“.

Вештачка интелигенција - илустрација - Sputnik Србија, 1920, 10.11.2023

НАУКА И ТЕХНОЛОГИЈА

Вештачка интелигенција за понети: Представљен нови уређај /видео, фото/

10 Новембар 2023, 22:29