Az Újtestamentum alapján tanult meg több ezer nyelvet felismerni a mesterséges intelligencia.
Több ezer nyelv létezik a világon, míg különféle dialektusokból mintegy húszezer létezik. A Facebook anyacége, a Meta több mint ezer nyelvet felismerni képes, és azokon kommunikáló MI modellt épített, és ezt nyilvánosan elérhetővé tette. Ez közel tízszeres növekedés az eddigiekhez képest (a Google Translate például 133 nyelven tud), és a vállalat szerint
jelentős előrelépés a kihalásra ítélt nyelvek megmentéséhez.
Nemrég egy észt egyetemen készült fordítómotor 23 finnugor nyelv számára, melyek többsége (pl. livóniai, komi, mansi) először elérhető nyilvános fordítóprogramban.
No de térjünk vissza a Metához, ami a GitHub kódtárhelyen teszi elérhetővé a modelljét. A lépéstől több terület fejlődésnek indulását reméli, kezdve a beszédalkalmazások fejlődésével, a mindenkit megértő üzenetküldésen át a bármilyen nyelven használható virtuálisvalóság rendszerekig.
Egyszeri userként is tudjuk, hogy a jó nyelvi programokhoz hatalmas adatbázis szükséges, ezért „tudnak jobban” a sokak által beszélt nyelveken (angol, spanyol, kínai) a szoftverek. A probléma megkerülése érdekében a Meta kutatói „átképezték” a 2020-as fejlesztésű modelljüket, hogy hang alapon tanulja meg az új nyelveket, nagy mennyiségű címkézett adat szükségessége nélkül.
És honnan vették a forrást? Az Újszövetség hangfelvételeit 1107 nyelven tartalmazó internetes adatbázisból, illetve az Újszövetség hangfelvételeit 3809 nyelven tartalmazó címkézetlen forrásból.
Először javították a beszédhangot és a szöveges adatokat, majd egy algoritmussal a kísérő szöveghez igazították a hangfelvételeket. Ezután megismételték a folyamatot egy másik, az új adatokra tanított algoritmussal. Így további szövegek nélkül meg tudtak tanítani egy új nyelvet.
Ezzel a módszerrel „gyorsan, nagyon-nagyon kevés adatból” építhetnek beszédrendszereket olyan nyelvekből is, amelyeket „mondjuk csak ezren beszélnek”, foglalta össze a projektben részt vevő egyik kutató, Michael Auli. A modell több mint ezer nyelven képes beszélgetni, de több mint négyezret ismer fel.
Másfelől a csapat figyelmeztet, hogy még előfordulnak pontatlanul használt szavak és kifejezések a rendszerben, és azt is elismerik, hogy ez a modell több „elfogult” szóhasználatot tartalmaz más modelleknél, bár „csak 0,7 százalékkal”.
„Vallási szövegek használata MI modellek képzésére ellentmondásos lehet” – mondja az afrikai nyelvek feldolgozásával foglalkozó kutató, Chris Emezue, aki nem vett részt a Meta kutatásában.
(Forrás: MIT Technology Review, fejléckép: Getty Images)
Ez is érdekelhet: