Fazekas László Google+ archív : Big Data-ban, nagy mennyiségű szöveg feldolgozásában és hasonlókban otthon van valaki?

2017. augusztus 11., péntek

Big Data-ban, nagy mennyiségű szöveg feldolgozásában és hasonlókban otthon van valaki?

Big Data-ban, nagy mennyiségű szöveg feldolgozásában és hasonlókban otthon van valaki? Egy projekthez keresek valami elosztott queue-t, amibe nagy mennyiségű adatot tölthetek (word doksikat, weboldalakat, e-maileket, akár komplett ebook-okat, stb.), a queue-ra feliratkozhatnak szolgáltatások (amik több gépen futhatnak párhuzamosan), amik feldolgozzák ezeket, és az eredményt visszaköphetik a queue-ba, ahonnan aztán más szolgáltatások dolgozhatnak velük. Szóval a lényeg, hogy elosztott rendszer, konkurens írás/olvasás, és nagy mennyiségű adat. Mit ajánlanátok? Szóba került pl. Apache Kafka, az jó lehet ilyesmire?

6 megjegyzés:

Laszlo Fazekas2017. augusztus 11. 6:56
Egyáltalán szoktak ilyet, hogy nagy doksikat beletömnek a queue-ba, vagy inkább csak az adatokra mutató referenciák mennek, és valami elosztott store-ba írnak/olvasnak?
VálaszTörlés
Válaszok
Sancho Vi At2017. augusztus 11. 8:36
Kafkázni ér, illetve a nyers szöveges adat továbbra is csv, text.
VálaszTörlés
Válaszok
Sancho Vi At2017. augusztus 11. 10:26
A nyers adat indokoltalak elérése helyett jobb katalogizálni. Amúgy meg dokumentummenedzsment megoldást keress.
VálaszTörlés
Válaszok
Laszlo Fazekas2017. augusztus 11. 10:43
Én akarok dokumentum management rendszert írni. :)
VálaszTörlés
Válaszok
Csaba Sári2017. augusztus 11. 12:39
Hát én AWS alapon tudok megoldást ajánlani :-).

Data pipeline: https://aws.amazon.com/datapipeline/

Kinesis:
https://aws.amazon.com/kinesis/streams/

De egy elosztott RabbitMQ is megteszi (mérettől függően persze). Ha kicsit jobban specifikálod és méretezed az architektúrát, pontosabb megoldással tudok előállni. Jó lenne látni a többi komponenst is :-)
VálaszTörlés
Válaszok
Laszlo Fazekas2017. augusztus 11. 12:40
Sajat kell. RabbitMq-ra jutottam en is. Sztm az lesz.
VálaszTörlés
Válaszok

Megjegyzés hozzáadása