Az Újtestamentum alapján tanult meg több ezer nyelvet felismerni a mesterséges intelligencia.

Legújabb cikkeinkért kövess minket a Player Google News oldalán is! Foci-vb 2026
Kövesd velünk a vb legfontosabb pillanatait!

Több ezer nyelv létezik a világon, míg különféle dialektusokból mintegy húszezer létezik. A  Facebook anyacége, a Meta több mint ezer nyelvet felismerni képes, és azokon kommunikáló MI modellt épített, és ezt nyilvánosan elérhetővé tette. Ez közel tízszeres növekedés az eddigiekhez képest (a Google Translate például 133 nyelven tud), és a vállalat  szerint

jelentős előrelépés a kihalásra ítélt nyelvek megmentéséhez.

Nemrég egy észt egyetemen készült fordítómotor 23 finnugor nyelv számára, melyek többsége (pl. livóniai, komi, mansi) először elérhető nyilvános fordítóprogramban.

No de térjünk vissza a Metához, ami a GitHub kódtárhelyen teszi elérhetővé a modelljét. A lépéstől több terület fejlődésnek indulását reméli, kezdve a beszédalkalmazások fejlődésével, a mindenkit megértő üzenetküldésen át a bármilyen nyelven használható virtuálisvalóság rendszerekig.

Egyszeri userként is tudjuk, hogy a jó nyelvi programokhoz hatalmas adatbázis szükséges, ezért „tudnak jobban” a sokak által beszélt nyelveken (angol, spanyol, kínai) a szoftverek. A probléma megkerülése érdekében a Meta kutatói „átképezték” a 2020-as fejlesztésű modelljüket, hogy hang alapon tanulja meg az új nyelveket, nagy mennyiségű címkézett adat szükségessége nélkül.

És honnan vették a forrást? Az Újszövetség hangfelvételeit 1107 nyelven tartalmazó internetes adatbázisból, illetve az Újszövetség hangfelvételeit 3809 nyelven tartalmazó címkézetlen forrásból.

Először javították a beszédhangot és a szöveges adatokat, majd egy algoritmussal a kísérő szöveghez igazították a hangfelvételeket. Ezután megismételték a folyamatot egy másik, az új adatokra tanított algoritmussal. Így további szövegek nélkül meg tudtak tanítani egy új nyelvet.

Ezzel a módszerrel „gyorsan, nagyon-nagyon kevés adatból” építhetnek beszédrendszereket olyan nyelvekből is, amelyeket „mondjuk csak ezren beszélnek”, foglalta össze a projektben részt vevő egyik kutató, Michael Auli. A modell több mint ezer nyelven képes beszélgetni, de több mint négyezret ismer fel.

Másfelől a csapat figyelmeztet, hogy még előfordulnak pontatlanul használt szavak és kifejezések a rendszerben, és azt is elismerik, hogy ez a modell több „elfogult” szóhasználatot tartalmaz más modelleknél, bár „csak 0,7 százalékkal”.

„Vallási szövegek használata MI modellek képzésére ellentmondásos lehet” – mondja az afrikai nyelvek feldolgozásával foglalkozó kutató, Chris Emezue, aki nem vett részt a Meta kutatásában.

(Forrás: MIT Technology Review, fejléckép: Getty Images)

Ez is érdekelhet:

Finnugor nyelvekre specializálta magát egy észt fordítóprogram

Komi, mansi, magyar, finn... fordítómotor készült 23 finnugor nyelv számára, a többségük most először elérhető nyilvános fordítóprogramban.

Ha eddig nem tojtál be az MI-től, most fogsz

Ha valami tényleg félelmetes, az az, amennyit egy év alatt fejlődött a mesterséges intelligencia.

Itt állíthatod be, hogy a Player az elsők között legyen a Google keresőben
Támogatott és ajánlott tartalmaink

A meccsnézés utáni rendrakást erre az ügyes takarítógépre bíztuk

A Hold körüli infrastruktúra egyik alapkövét rakhatja le egy magyar vállalat

Mágneses drónnal szedték ki a kést egy bűnöző kezéből a kaliforniai rendőrök

További cikkeink a témában
A Player kérdése: Szerinted melyik válogatott lesz a világbajnok?
33% Argentína
19% Franciaország
17% Spanyolország
9% Anglia
5% Brazília
18% Egy másik válogatott
Liverpool után az otthonodban találkozhat a csúcsteljesítmény és a prémium életmód
Hirdetés