2014. május 17., szombat

Univerzális fordítás mesterséges nyelvvel

Univerzális fordítás mesterséges nyelvvel

Nem tudom, hogy ez a gépi fordítás dolog hogy áll, de a Google Translate teljesítményét elnézve azért még van hová fejlődni, legalábbis angol-magyar viszonylatban biztosan. Nem is az a gond vele, hogy nem lehet folyékonyan olvasni a generált szöveget, hanem sok esetben egyszerűen értelmezhetetlen a fordítás, pedig a Google Translate még messze a legjobb az ilyen megoldások közt (legalábbis amit én ismerek). Az itt szerintem a probléma, hogy a fordításhoz egy számítógépes algoritmus szempontjából nem elég input maga a szöveg. Egy emberi fordításnál ehhez még nagyon sok metaadat társul, amiből végül előáll a fordítás. Magyarán érteni kell a szöveget ahhoz, hogy normálisan le lehessen fordítani. Innentől viszont a gépi fordítás nagyon komoly MI-be csap át.

Azon gondolkodtam, hogy talán létre lehetne hozni valamilyen reprezentációt erre, valamilyen mesterséges nyelvet ami a mondatok teljes értelmét hordozza. Olyasmire gondolok amikkel a szakértői rendszerek esetén is le szokták írni a tudást. Így a szöveget először erre a mesterséges nyelvre (ezek ilyen fogalom gráfok szoktak lenni) fordítanánk, amiből aztán értelmes mondatokat tudnánk generálni bármilyen nyelvre, hiszen ezek már hordoznák mindazt a tudást amire szüksége van az algoritmusnak ahhoz, hogy tökéletes (vagy legalábbis az eddigieknél sokkal jobb) fordítást állítson elő úgy, hogy e közben nem "érti" a szöveget. Ettől még persze a gráf előállításához intelligencia kell. Itt viszont újra bejöhetne a képbe az ember. Úgy képzelem az egészet, hogy a helyett, hogy valaki lefordítana egy szöveget mondjuk angolra, inkább erre a mesterséges nyelvre fordítja le, ahonnan már egy gombnyomással generálható angol, német, francia, stb. fordítás. Persze kézzel gráfokat leírni azért elég bonyodalmas, illetve a folyamat részben automatizálható lenne, így egy fordító program valamilyen szinten legenerálhatná a gráfot, amit aztán például kérdések feltevésével pontosíthatna, vagy a fordító grafikusan szerkeszthetne, kiegészíthetne, stb.

Rengeteg előnye lenne egy ilyen megoldásnak. Először is a fordítónak nem kellene ismernie semmilyen idegen nyelvet, bárki képes lenne ezzel a módszerrel lefordítani az általa előállított tartalmat. Ha eleve ebben a formában illeszthetnénk be a szövegeket a weboldalakba, akkor azok automatikusan az adott nyelven jelennének meg mindenkinek. De ami a legjobb lenne az egészben, hogy így a kereső motorok értelmezni tudnák a tartalmat, hisz azt a tartalom előállítója kvázi gépi tudássá konvertálta. Egy ilyen tartalmakból felépülő web olyan lenne mint egy szakértői rendszer memóriája, mint egy hatalmas agy, aminek kérdéseket tehetünk fel, amire ő a tudása alapján válaszolni tud. Egy ilyen kezdeményezést talán a Google-nek érné meg felkarolni több szempontból is. Talán már dolgoznak is valami hasonlón ... 

#blog

6 megjegyzés:

  1. Ötlet jó, talán csinálnak is hasonlót. Itthon Prószéky Gábor csapata foglalkozik ilyesmivel, de a MorphoLogic fordítás se túl fényes még sajnos. Kérdés, hogy a mondat szerkezeti modelljén alapuló, vagy a rengeteg szöveg statisztikus elemzésén alapuló modell lesz-e a nyerő. Netán valami más, öntanuló algoritmus?

    VálaszTörlés
  2. A statisztikai modellel szerintem az a baj, amit írtam is, hogy akármilyen sok mondatot is töltesz bele, akkor sem fogja érteni, és ezért nem fog jól fordítani. Mindenképp kell valami plusz tudás az írott szöveghez, amit az embernek kell hozzáadni, hogy ez rendesen működjön. Legalábbis addig, amíg a gépek nem lesznek képesek "megérteni" amit olvasnak. Mondjuk ez a laikus véleményem, lehet egy szakember mást mondana. Olyan sokat nem fordítottam, de az a tapasztalatom, hogy ezt csak úgy lehet jól, hogy elolvasod a szöveget, megérted, aztán a másik nyelven leírod, nem lehet rá algoritmust írni. Vagy legalábbis nem olyat, ami csak valami nyers statisztikák alapján dolgozik.

    VálaszTörlés
  3. Szóval elvileg kellően nagy corpusszal emberi minőségű fordítást lehetne elérni? Kicsit nehezen tudom elképzelni, hogy a szöveg értelmezése nélkül jó minőségű fordítást lehessen csinálni, de ettől még lehet, hogy mégis így van.

    VálaszTörlés
  4. A statisztikai modell ereje abban van, hogy nem kell jó modell, nem kell semmilyen tanulási algoritmus. De elfogadható eredményt csak akkor ad, ha a fordítandóhoz hasonló szöveget elég sokat talál. Emiatt egy verset szinte biztosan nem fog tudni jól fordítani, de egy újsághírt igen.

    Angolórán magyaráz a tanár.
    - Az angolban a dupla tagadás helyeslést jelent, a magyarban viszont tagadást. De nincs olyan nyelv, ahol a dupla helyeslés tagadás lenne.
    Hátulról egy hang:
    - Igen, persze.

    A megértésen alapuló fordítás nehézsége abban áll, hogy a szavaknak nem jelentése van, hanem használata, ahogy Wittgenstein mondotta volt. Gondolom a statisztikus fordításnál is azt a legnehezebb belőni, melyik mintákhoz hasonló a szöveg.

    VálaszTörlés
  5. Nagy kérdés, hogy pontos fordítást akarunk, vagy csak az információ átadása a cél. Utóbbi esetben jó lehet egy mesterséges nyelv, de ezzel nem fogsz tudni átadni nyelvi finomságokat: verseket, szólásokat, jelzők tarkaságát. Tények közlésére jo lehet, de azzal a google translate is jól megbírkózik.

    VálaszTörlés
  6. Árpád Erdős Elég lenne, ha csak a weboldalak elérhetőek lennének minden nyelven. Azért egy Google Translate-el fordított Wikipedia oldal sokszor teljesen értelmezhetetlen. Ha csak a Wikipedia meg lenne csinálva így, már az is hatalmas dolog lenne.

    VálaszTörlés