Azon gondolkodtam, hogy ha van benne valami, ami tanul, majd megmutatnak neki pármillió go játszmát, akkor - legalábbis józan ész szerint - azt fogja megtanulni, amit "látott". Mivel a játszmákat - felteszem - emberek játszották, mitől lesz a DeepMind jobb játékos az embernél? Ha nem elemzi a játszmákat, akkor ugyanúgy meg fogja tanulni a kevésbé jó lépéseket is. Nyilván lehet súlyozni, hogy jobban figyeljen a nyertesre, mint a vesztesre, de elvileg nem lehetne lényegen jobb, mint akiktől tanul. Nem? Ahhoz, hogy jobb legyen, mindenképpen kell valami olyan algoritmus, ami a sok tanulnivalóból kiválogatja, hogy mi az, amit érdemes megtanulni, és mi az, amit esetleg nem.
Közben még az jutott eszembe, hogy ha csinálunk több DeepMind-ot, megtanítjuk őket a go "alapjaira" a fenti módszerrel, majd egymás ellen játszatjuk őket, és mindig csak a nyertes oldal lépéseit tanítjuk meg neki, talán lehet fejleszteni a go tudását. Azért jó lenne valami részletesebb leírást elolvasni arról, hogyan is csinálták.
Volt erről egy leírás, és konkrétan Go specifikus kód nincs benne, minden tanítva van. Viszont maga a rendszer "páros játék specifikus". Szóval azért építget valami játék fát, stb. nem valami általános célú AI, ami mellékesen játszani is tud. De maguk a felépítő komponensek (konvolúciós és egyéb neurális hálózatok) általános célúak. Szerintem egyébként sokáig ilyen hibrid rendszerek lesznek a jellemzőek, klasszikus szoftverek neurális modulokkal. Aztán majd szép lassan kikopnak a klasszikus részek, és full neurális rendszerek lesznek.
Árpád Erdős Pontosan ezt csinálták. :) Saját magával játszatták a DeepMind-ot, attól lett ilyen ügyes. Megpróbálom előkaparni azt a cikket, ahol írtak róla. Ide is kiposztoltam G+-ra. Ott nagyon jól el van magyarázva.
Kíváncsi lennék azért, hogy a DeepMind mennyi go specifikus részt tartalmaz.
VálaszTörlésNehéz tudni. Ő maga tanul. De nyilván a feladatra koncentrál, így elég sok lehet.
VálaszTörlésAzon gondolkodtam, hogy ha van benne valami, ami tanul, majd megmutatnak neki pármillió go játszmát, akkor - legalábbis józan ész szerint - azt fogja megtanulni, amit "látott". Mivel a játszmákat - felteszem - emberek játszották, mitől lesz a DeepMind jobb játékos az embernél? Ha nem elemzi a játszmákat, akkor ugyanúgy meg fogja tanulni a kevésbé jó lépéseket is. Nyilván lehet súlyozni, hogy jobban figyeljen a nyertesre, mint a vesztesre, de elvileg nem lehetne lényegen jobb, mint akiktől tanul. Nem?
VálaszTörlésAhhoz, hogy jobb legyen, mindenképpen kell valami olyan algoritmus, ami a sok tanulnivalóból kiválogatja, hogy mi az, amit érdemes megtanulni, és mi az, amit esetleg nem.
Közben még az jutott eszembe, hogy ha csinálunk több DeepMind-ot, megtanítjuk őket a go "alapjaira" a fenti módszerrel, majd egymás ellen játszatjuk őket, és mindig csak a nyertes oldal lépéseit tanítjuk meg neki, talán lehet fejleszteni a go tudását. Azért jó lenne valami részletesebb leírást elolvasni arról, hogyan is csinálták.
Volt erről egy leírás, és konkrétan Go specifikus kód nincs benne, minden tanítva van. Viszont maga a rendszer "páros játék specifikus". Szóval azért építget valami játék fát, stb. nem valami általános célú AI, ami mellékesen játszani is tud. De maguk a felépítő komponensek (konvolúciós és egyéb neurális hálózatok) általános célúak. Szerintem egyébként sokáig ilyen hibrid rendszerek lesznek a jellemzőek, klasszikus szoftverek neurális modulokkal. Aztán majd szép lassan kikopnak a klasszikus részek, és full neurális rendszerek lesznek.
VálaszTörlésÁrpád Erdős Pontosan ezt csinálták. :) Saját magával játszatták a DeepMind-ot, attól lett ilyen ügyes. Megpróbálom előkaparni azt a cikket, ahol írtak róla. Ide is kiposztoltam G+-ra. Ott nagyon jól el van magyarázva.
VálaszTörléshttps://www.dcine.com/2016/01/28/alphago/ - szerintem amúgy nem ezt olvastam, de úgy látom itt is jól leírják
VálaszTörlésLaszlo Fazekas köszönöm!
VálaszTörlés