2016. január 5., kedd

Az olyan statisztikai alapú fordítók, mint a Google Translate rögzített szabályok helyett minták sokaságából...

Az olyan statisztikai alapú fordítók, mint a Google Translate rögzített szabályok helyett minták sokaságából "találják ki" a szabályokat. Elméletileg bármilyen nyelvi modell felépíthető így, ha van megfelelő számú minta. Magyarul tehát nem azért ilyen suta még szegény, mert a "gépek nem elég okosak még, hogy fordítsanak", egyszerűen csak nincs elég minta, a szabályrendszer pedig bonyolult. Ha valaki tanítaná kicsit a rendszert, az itt megteheti. Így a fordító is okosabb lesz, plusz nyelvgyakorlásnak sem rossz. Átnyomogattam párat én is. Sokszor az ember is vakarja a fejét, hogy adott mondatnak mi a legjobb magyar megfelelője, vagy fordítva. Esetenként más a nyelv logikája, ugyanaz a kifejezés/szó/mondat többféleképpen fordítható magyarra, vagy visszafelé angolra. Ilyenkor látja az ember, hogy mennyire nem triviális a dolog. Ehhez képest a Google Translate meglepően jól fordít, és elméletben csak minták kérdése, hogy egyszer majd megközelítse az emberi szintet.  
http://g.co/translate/community

5 megjegyzés:

  1. Szerintem az sem mindegy milyen mintákat keres. Például, ha minden szóközök és határolójelek közti szót önállónak tekint, akkor sokkal nehezebb dolga van, mintha keres szótövet és toldalékolást. De ez utóbbi meg a magyarban elég bonyolult a szótőváltozások miatt.

    VálaszTörlés
  2. Elvileg ezeket is meg tudja tanulni, csak ehhez kell a rengeteg minta. Olyasmin agyaltam amúgy én is, hogy valami hibrid megoldás kellene. Elő kellene emészteni a szöveget, pl. szétrobbantani a szavakat szótőre meg toldalékokra, és azt benyomni a fordítónak.

    VálaszTörlés
  3. Meg tudja, ha ilyen minták keresésére is be van tanítva. De akkor is gond, hogy ilyen minta nagyságrendekkel kevesebb van.

    VálaszTörlés
  4. A Google-ön belül az angol-arab nyelvpárnál volt először egy nagy felismerés, hogy a nyelvtani előfeldolgozásnál sokkal többet jelent a minták számának növelése. Nyilván segít a nyelvtani klasszifikáció is, de (nem meglepő módon) a nagy mintából azt is megtanulhatja a rendszer.

    VálaszTörlés
  5. Persze, csak pl. magyarnál nincs elég minta (gondolom), így ott pl. lenne értelme ennek, kiküszöbölendő a kevés mintából eredő pontatlanságot. Esetleg olyat lehetne, hogy egy külön rendszer leprogramozott szabályok alapján generálna fordításokat, és azokat is betanítanák a rendszernek, így nem kellene hibrid rendszert fejleszteni. Konvolúciós hálóknál olvastam ilyet, hogy a mintákat direkt betanítják transzformálgatva, forgatva, nagyítva, eltolva, átszínezve, zajjal, stb. így mesterségesen megnövelve a mintaszámot, és ezzel edzik pontosabbá a rendszert. Itt is lehetne valami ilyet. Amúgy a magyar <-> angol fordítás tényleg elég kemény diónak tűnik, bonyolult szabályrendszerrel. Gondolom pl. az angol<->német fordításoknak sokkal jobb a minősége.

    VálaszTörlés