Az Újtestamentum alapján tanult meg több ezer nyelvet felismerni a mesterséges intelligencia.

Több ezer nyelv létezik a világon, míg különféle dialektusokból mintegy húszezer létezik. A  Facebook anyacége, a Meta több mint ezer nyelvet felismerni képes, és azokon kommunikáló MI modellt épített, és ezt nyilvánosan elérhetővé tette. Ez közel tízszeres növekedés az eddigiekhez képest (a Google Translate például 133 nyelven tud), és a vállalat  szerint

jelentős előrelépés a kihalásra ítélt nyelvek megmentéséhez.

Nemrég egy észt egyetemen készült fordítómotor 23 finnugor nyelv számára, melyek többsége (pl. livóniai, komi, mansi) először elérhető nyilvános fordítóprogramban.

No de térjünk vissza a Metához, ami a GitHub kódtárhelyen teszi elérhetővé a modelljét. A lépéstől több terület fejlődésnek indulását reméli, kezdve a beszédalkalmazások fejlődésével, a mindenkit megértő üzenetküldésen át a bármilyen nyelven használható virtuálisvalóság rendszerekig.

Egyszeri userként is tudjuk, hogy a jó nyelvi programokhoz hatalmas adatbázis szükséges, ezért „tudnak jobban” a sokak által beszélt nyelveken (angol, spanyol, kínai) a szoftverek. A probléma megkerülése érdekében a Meta kutatói „átképezték” a 2020-as fejlesztésű modelljüket, hogy hang alapon tanulja meg az új nyelveket, nagy mennyiségű címkézett adat szükségessége nélkül.

És honnan vették a forrást? Az Újszövetség hangfelvételeit 1107 nyelven tartalmazó internetes adatbázisból, illetve az Újszövetség hangfelvételeit 3809 nyelven tartalmazó címkézetlen forrásból.

Először javították a beszédhangot és a szöveges adatokat, majd egy algoritmussal a kísérő szöveghez igazították a hangfelvételeket. Ezután megismételték a folyamatot egy másik, az új adatokra tanított algoritmussal. Így további szövegek nélkül meg tudtak tanítani egy új nyelvet.

Ezzel a módszerrel „gyorsan, nagyon-nagyon kevés adatból” építhetnek beszédrendszereket olyan nyelvekből is, amelyeket „mondjuk csak ezren beszélnek”, foglalta össze a projektben részt vevő egyik kutató, Michael Auli. A modell több mint ezer nyelven képes beszélgetni, de több mint négyezret ismer fel.

Másfelől a csapat figyelmeztet, hogy még előfordulnak pontatlanul használt szavak és kifejezések a rendszerben, és azt is elismerik, hogy ez a modell több „elfogult” szóhasználatot tartalmaz más modelleknél, bár „csak 0,7 százalékkal”.

„Vallási szövegek használata MI modellek képzésére ellentmondásos lehet” – mondja az afrikai nyelvek feldolgozásával foglalkozó kutató, Chris Emezue, aki nem vett részt a Meta kutatásában.

(Forrás: MIT Technology Review, fejléckép: Getty Images)

Ez is érdekelhet:

Finnugor nyelvekre specializálta magát egy észt fordítóprogram

Komi, mansi, magyar, finn... fordítómotor készült 23 finnugor nyelv számára, a többségük most először elérhető nyilvános fordítóprogramban.

Ha eddig nem tojtál be az MI-től, most fogsz

Ha valami tényleg félelmetes, az az, amennyit egy év alatt fejlődött a mesterséges intelligencia.

Támogatott és ajánlott tartalmaink

Így néz ki egy rejtett galaxis a Földtől 11 millió fényévre

Van egy szó, amit a világ szinte minden nyelvén hasonlóan értenek és használnak

Erre a tíz egyszerű kérdésre iskolásként tudtad a választ – vajon most is menne?

További cikkeink a témában