2014. július 4., péntek

YouTube-on kipróbáltam az automatikus feliratozást.

YouTube-on kipróbáltam az automatikus feliratozást. Sima angol szöveg, angol felirat. Mindenhonnan az folyik, hogy nemsokára már beszélhetünk a géphez, így gondoltam, hogy ez már egész jól kéne, hogy menjen, de igazából kiábrándító. Az a furcsa, hogy olyan szóösszetételeket is rosszul ismer fel, ami angolban gyakori, pl. 'deal with' helyett valami két másik szót ismer fel, pedig az ilyesmiket elvileg statisztikai alapon ki lehetne szűrni. A Google-nél sok okos enber dolgozik, szóval valószínűleg megvan ennek az oka, és ez a legjobb, amit össze lehet hozni, csak meglepett, hogy ez még ennyire nem működik jól. Kíváncsiságból rányomtam még az auto translate-et is. Na, az már totál káosz. Mint ha nem is nagyon lenne köze ahhoz, amit beszélnek. Ezek mindig kicsit kiábrándítanak, hogy elvileg már karnyújtásnyira van az agy modellezése, de egy videóra még mindig nem tudunk automatikusan feliratot generálni. Persze lehet a másik oldalról is nézni a dolgokat. Ezeknek a jelenleg használt "egyszerű", "buta" statisztikus módszereknek talán ez a határa, és pont az intelligencia hiányzik, hogy ezek normálisan működhessenek.

9 megjegyzés:

  1. Ezért mondom én, hogy messze vannak még azok a szép viziók. Ügyvéd ügyfeleinket próbálják folyamatosan diktálós rendszerrel befűzni, egyikük egy demóig is eljutott és nevetve konstatálta, hogy igazam volt, kidobott pénz lenne, alkalmatlan mondjuk egy szerződés megszerkesztésére, pláne formázásokkal együtt.

    Én ezért nagyon nem temetem még sokáig a billentyűzetet.

    Hangutasítások szintje már esetleg lassan használható szinten lesz, bizonyos hibaaránnyal.

    VálaszTörlés
  2. Az az érdekes hogy ugyan ez a felismerő rendszer van a Google now-bam és elég jó felismerési aránnyal dolgozik. Pedig az én angolom hajjajjj .... :)

    VálaszTörlés
  3. Érdekes, mert magyarul is egész elfogadhatóan lehet diktálni az Androidnak.

    VálaszTörlés
  4. Még annyit Attila Csongor Kiss történetéhez:
    Az Androidnak nagyon szavanként és szépen tagolva kell diktálni, minden háttérzaj nélkül. Ez szerintem egy hosszabb szöveg diktálásakor nem jellemző. Arról nem is beszélve, hogy hosszabb szöveg diktálása tele van ismétlésekkel, ööö-zésekkel, hosszabb mondatokban illesztési hibákkal. Ezeket egy jó titkárnő javítja leíráskor. Sőt, ha nagyon jó, akkor kapásból, diktálás közben, azonnal gépbe írva is. Amikor ilyet először láttam úgy néztem rá, mint valami varázslatra.

    VálaszTörlés
  5. Horváth Gyula pontosan, és közben a tetszetős formát is kialakítja. Sőt, az igazán profi röptében át is fogalmazza a főnök hülyeségét, pongyolaságát, szóismétlését vagy tárgyi tévedéseit. Ad abszurdum akár diktálni sem kell, elég a témát, célt és az adatokat megadni. Mindezektől a technológia még fényévekre van.

    VálaszTörlés
  6. Hihetetlenül összetett dolog az emberi beszéd. Most erről eszembe jutott, hogy 1996-ban be volt már építve a beszédfelismerés az OS/2-be. 8MB rendszermemória kellett hozzá. Ha akkor megkérdeztek volna bárkit, hogy mi lesz 20 év múlva, kapásból azt mondtam volna én is, hogy mindenhol fog működni bármilyen nyelven, minden probléma nélkül.
    Most azt mondanám, hogy 20 év múlva jó lesz az, minden nyelven, minden célra :)

    VálaszTörlés
  7. Próbáltam domborítani, hogy a beszéd felismerése a dolgoknak csak az egyik része, az input.

    Ám azzal önmagában még messze nincs kész egy újságcikk, egy szerződés, egy szakdolgozat vagy akár csak egy blogbejegyzés.

    VálaszTörlés
  8. Papp Zsolt Horváth Gyula Engem is azért lepett meg a dolog, mert az Androidos beszédfelismerést mindenki dicséri, és elvileg ugyanaz az engine.

    Kemény Zsolt Az is lehet, hogy csak még valami kell, és akkor "összekattan" az egész, és mondjuk 2 év múlva már tökéletesek lesznek ezek a rendszerek. Számítástechnikában van ilyen, hogy megigazítanak valami algoritmust, vagy betanítanak még pár ezer mintát, és akkor hirtelen ugrásszerűen megnő a dolog hatásfoka. Szóval lehet nem fog kelleni ennek 20 év.

    A gépi fordítás kapcsán mondta Istvan Soos, hogy ezeknél a statisztikai módszereknél csak az számít, hogy legyen elég minta. Viszont pont a Google az szerintem, akinek van lehetősége ezt összeszedni. Az automatikus filmfeliratozáshoz például be lehetne nyomni a világ összes DVD-jét, amin van angol felirat. Az összes TED videót, és még biztos fel lehetne sorolni egy csomó lehetőséget. Ugyanígy a fordítás esetén az összes könyvet, amihez készült fordítás. Ez azért jelentős mintahalmaz. Az is lehet, hogy egyszerűen csak nem foglalkoztak vele, bár ezt sem hiszem, mivel mind a fordításban, mind a videó szövegének kinyerésében hatalmas potenciál lenne keresés szempontjából. E mellet náluk dolgozik a terület szakértőinek egy jó része. Szóval e miatt is fura, hogy ezek a dolgok "csak" ennyire hatékonyan működnek.

    VálaszTörlés
  9. En azt olvastam hogy a "betanitast" valodi emberek vegzik, altalaban egyetemistak egy csoportja es mindig a valos emberi hang az alapja. Ha jol tudon nem hasznalnak bedigitalizalt hangokat. A magyar nyelvet is egyetemistak tanitottak a gepbek.

    VálaszTörlés