Док Гуглов преводилац нуди више од 100 језика, његов руски конкурент има „свега“ 94 језика у понуди. Али, оно што Гугл за разлику од Јандекса засад не нуди јесте превод на ретке језике.
Како би се програмирало превођење на један од ретких или чак изумрлих језика, руски Јандекс сарађује са лингвистима. Према Унесковој евиденцији, постоји готово 2.500 језика који спадају у ову категорију. Сваки изумрли језик представља велики губитак за глобално културно наслеђе.
Када машине могу самостално да уче
Јандекс је покренуо свој преводилачки онлајн сервис још 2011. године и тада је у понуди имао свега три језика: енглески, руски и украјински. У међувремену је Јандексов преводилац постао прави полиглота, и то не само зато што сада може да преводи на много више језика, већ најпре зато што у својој понуди има и језике који су веома ретки, као што је на пример, папијаменто, креолско-карипски језик који говори мање од 300 хиљада душа на јужним острвима Карипсог архипелага.
Јандексови стручњаци кажу да је систему прилично тешко да „научи“ један редак језик. Проблем се састоји у томе што на језицима које говори мало људи и који се ретко употребљавају има мало текстова на интеренту. Па ипак, Јандексов преводилац је „права паметница“. Програмери кажу да њихов онлајн преводилац користи постојећа „знања“ односно алгоритме како би освојио превођење са нових језика.
Какаво је стање са ретким језицима?
Програмери ове велике руске ај-ти компаније истичу да и мали језици које говори свега неколико десетина хиљада људи заслужују да буду заступљени у њиховој понуди аутоматског превођења.
„Као прво, ако је регион где се говори тај неки ретки језик, на пример, позната туристичка дестинација, онда и гости и мештани могу имати бројне користи од сервиса аутоматског превођења. А као друго, на овај начин се и тај језик који користи мали број људи може чешће и више користити, што је за његов опстанак значајно, јер би у супротном био замењен, рецимо, енглеским“, објашњавају Јандексови програмери.
Како би преводилац могао да „стекне знање“ новог језика на којем још нема много текстова на интернету, програмери су направили алгоритме који помажу онлајн преовдиоцу да препозна „породичне везе“ између језика. Па тако, на пример, јидиш има много лексичких веза са немачким, а креолски језик папијаменто са потугалским. У татрском и башкирском језику су сличне синтакса и морфологија.
Тако рачунар, односно машина, „учи“ нови језик кроз две фазе. Прво се моделира односно програмира језгро језика са најчешће коришћеним речима и познатим морфолошким и синтаксичким карактеристикама. Да би се направило овакво једно „језгро“ неопходан је један сасвим мали текст на оригиналном језику.
„То би могао бити на пример део из Библије или Курана, а ове су књиге преведене на практично све постојеће језике. Језгро се касније обогаћује подацима из других сродних језика, које преводилац већ поседује“, објашњавају програмери.
Лингвисти и програмери који заједно раде у оквиру Јандексовог преводилачког онлајн-сервиса кажу да програмирање превођења једног новог језика подсећа на коцке које се слажу једна на другу. Такав систем они користе и успешно уводе нове језике у употребу. Конкретно, у последње време су машину „научили“ да преводи са башкирског, јидиша, марати, непали и узбечког језика.