2017. augusztus 11., péntek

Big Data-ban, nagy mennyiségű szöveg feldolgozásában és hasonlókban otthon van valaki?

Big Data-ban, nagy mennyiségű szöveg feldolgozásában és hasonlókban otthon van valaki? Egy projekthez keresek valami elosztott queue-t, amibe nagy mennyiségű adatot tölthetek (word doksikat, weboldalakat, e-maileket, akár komplett ebook-okat, stb.), a queue-ra feliratkozhatnak szolgáltatások (amik több gépen futhatnak párhuzamosan), amik feldolgozzák ezeket, és az eredményt visszaköphetik a queue-ba, ahonnan aztán más szolgáltatások dolgozhatnak velük. Szóval a lényeg, hogy elosztott rendszer, konkurens írás/olvasás, és nagy mennyiségű adat. Mit ajánlanátok? Szóba került pl. Apache Kafka, az jó lehet ilyesmire?

6 megjegyzés:

  1. Egyáltalán szoktak ilyet, hogy nagy doksikat beletömnek a queue-ba, vagy inkább csak az adatokra mutató referenciák mennek, és valami elosztott store-ba írnak/olvasnak?

    VálaszTörlés
  2. Kafkázni ér, illetve a nyers szöveges adat továbbra is csv, text.

    VálaszTörlés
  3. A nyers adat indokoltalak elérése helyett jobb katalogizálni. Amúgy meg dokumentummenedzsment megoldást keress.

    VálaszTörlés
  4. Én akarok dokumentum management rendszert írni. :)

    VálaszTörlés
  5. Hát én AWS alapon tudok megoldást ajánlani :-).

    Data pipeline: https://aws.amazon.com/datapipeline/

    Kinesis:
    https://aws.amazon.com/kinesis/streams/

    De egy elosztott RabbitMQ is megteszi (mérettől függően persze). Ha kicsit jobban specifikálod és méretezed az architektúrát, pontosabb megoldással tudok előállni. Jó lenne látni a többi komponenst is :-)

    VálaszTörlés
  6. Sajat kell. RabbitMq-ra jutottam en is. Sztm az lesz.

    VálaszTörlés