2017. augusztus 11., péntek
Big Data-ban, nagy mennyiségű szöveg feldolgozásában és hasonlókban otthon van valaki?
Big Data-ban, nagy mennyiségű szöveg feldolgozásában és hasonlókban otthon van valaki? Egy projekthez keresek valami elosztott queue-t, amibe nagy mennyiségű adatot tölthetek (word doksikat, weboldalakat, e-maileket, akár komplett ebook-okat, stb.), a queue-ra feliratkozhatnak szolgáltatások (amik több gépen futhatnak párhuzamosan), amik feldolgozzák ezeket, és az eredményt visszaköphetik a queue-ba, ahonnan aztán más szolgáltatások dolgozhatnak velük. Szóval a lényeg, hogy elosztott rendszer, konkurens írás/olvasás, és nagy mennyiségű adat. Mit ajánlanátok? Szóba került pl. Apache Kafka, az jó lehet ilyesmire?
Feliratkozás:
Megjegyzések küldése (Atom)
Egyáltalán szoktak ilyet, hogy nagy doksikat beletömnek a queue-ba, vagy inkább csak az adatokra mutató referenciák mennek, és valami elosztott store-ba írnak/olvasnak?
VálaszTörlésKafkázni ér, illetve a nyers szöveges adat továbbra is csv, text.
VálaszTörlésA nyers adat indokoltalak elérése helyett jobb katalogizálni. Amúgy meg dokumentummenedzsment megoldást keress.
VálaszTörlésÉn akarok dokumentum management rendszert írni. :)
VálaszTörlésHát én AWS alapon tudok megoldást ajánlani :-).
VálaszTörlésData pipeline: https://aws.amazon.com/datapipeline/
Kinesis:
https://aws.amazon.com/kinesis/streams/
De egy elosztott RabbitMQ is megteszi (mérettől függően persze). Ha kicsit jobban specifikálod és méretezed az architektúrát, pontosabb megoldással tudok előállni. Jó lenne látni a többi komponenst is :-)
Sajat kell. RabbitMq-ra jutottam en is. Sztm az lesz.
VálaszTörlés