Az Újtestamentum alapján tanult meg több ezer nyelvet felismerni a mesterséges intelligencia.

Több ezer nyelv létezik a világon, míg különféle dialektusokból mintegy húszezer létezik. A  Facebook anyacége, a Meta több mint ezer nyelvet felismerni képes, és azokon kommunikáló MI modellt épített, és ezt nyilvánosan elérhetővé tette. Ez közel tízszeres növekedés az eddigiekhez képest (a Google Translate például 133 nyelven tud), és a vállalat  szerint

jelentős előrelépés a kihalásra ítélt nyelvek megmentéséhez.

Nemrég egy észt egyetemen készült fordítómotor 23 finnugor nyelv számára, melyek többsége (pl. livóniai, komi, mansi) először elérhető nyilvános fordítóprogramban.

No de térjünk vissza a Metához, ami a GitHub kódtárhelyen teszi elérhetővé a modelljét. A lépéstől több terület fejlődésnek indulását reméli, kezdve a beszédalkalmazások fejlődésével, a mindenkit megértő üzenetküldésen át a bármilyen nyelven használható virtuálisvalóság rendszerekig.

Egyszeri userként is tudjuk, hogy a jó nyelvi programokhoz hatalmas adatbázis szükséges, ezért „tudnak jobban” a sokak által beszélt nyelveken (angol, spanyol, kínai) a szoftverek. A probléma megkerülése érdekében a Meta kutatói „átképezték” a 2020-as fejlesztésű modelljüket, hogy hang alapon tanulja meg az új nyelveket, nagy mennyiségű címkézett adat szükségessége nélkül.

És honnan vették a forrást? Az Újszövetség hangfelvételeit 1107 nyelven tartalmazó internetes adatbázisból, illetve az Újszövetség hangfelvételeit 3809 nyelven tartalmazó címkézetlen forrásból.

Először javították a beszédhangot és a szöveges adatokat, majd egy algoritmussal a kísérő szöveghez igazították a hangfelvételeket. Ezután megismételték a folyamatot egy másik, az új adatokra tanított algoritmussal. Így további szövegek nélkül meg tudtak tanítani egy új nyelvet.

Ezzel a módszerrel „gyorsan, nagyon-nagyon kevés adatból” építhetnek beszédrendszereket olyan nyelvekből is, amelyeket „mondjuk csak ezren beszélnek”, foglalta össze a projektben részt vevő egyik kutató, Michael Auli. A modell több mint ezer nyelven képes beszélgetni, de több mint négyezret ismer fel.

Másfelől a csapat figyelmeztet, hogy még előfordulnak pontatlanul használt szavak és kifejezések a rendszerben, és azt is elismerik, hogy ez a modell több „elfogult” szóhasználatot tartalmaz más modelleknél, bár „csak 0,7 százalékkal”.

„Vallási szövegek használata MI modellek képzésére ellentmondásos lehet” – mondja az afrikai nyelvek feldolgozásával foglalkozó kutató, Chris Emezue, aki nem vett részt a Meta kutatásában.

(Forrás: MIT Technology Review, fejléckép: Getty Images)

Ez is érdekelhet:

Finnugor nyelvekre specializálta magát egy észt fordítóprogram

Komi, mansi, magyar, finn... fordítómotor készült 23 finnugor nyelv számára, a többségük most először elérhető nyilvános fordítóprogramban.

Ha eddig nem tojtál be az MI-től, most fogsz

Ha valami tényleg félelmetes, az az, amennyit egy év alatt fejlődött a mesterséges intelligencia.

Támogatott és ajánlott tartalmaink

Valóban létezik a tökéletes robotporszívó? Kipróbáltuk a gépet, ami helyettünk is megcsinál mindent

Kvíz: mondunk három várost, melyik országban vannak?

Súlyos bajt jelez a NASA műholdja: elképesztő tempóban roskad össze a világ egyik legnagyobb városa

A Player kérdése: Jönnek vissza a V8-as motorok az F1-be. Mit gondolsz erről?
70% Végre! Minél előbb, annál jobb!
26% Ettől nem lesz izgalmasabb a bajnokság, de ártani nem fog.
5% Szerintem rossz döntés.
A limitált champagne-ritkaság, ami felkavarhatja a piacot és a gyűjtők egyik kedvence lehet
Hirdetés