6 Domanda: Apache Storm rispetto a Hadoop

domanda creata a Mon, Feb 1, 2016 12:00 AM

In che modo Storm si confronta con Hadoop? Hadoop sembra essere lo standard defacto per l'elaborazione in batch su larga scala open source, Storm ha qualche vantaggio rispetto a hadoop? o sono completamente diversi?

    
27
  1. Penso che la domanda abbia perfettamente senso ed è difficile per me capire come una domanda così utile sia stata chiusa come non costruttiva. La domanda era diretta, non c'era bisogno di fatti, riferimenti, ecc.
    2013-09-11 05: 54: 16Z
6 risposte                              6                         

Perché non dici la tua opinione.

Twitter Storm è stato pubblicizzato come Hadoop in tempo reale. Questo è più un marketing take per il consumo facile.

Sono superficialmente simili poiché entrambe sono soluzioni applicative distribuite. A parte i tipici elementi architettonici distribuiti come master /slave, coordinazione basata su guardiani dello zoo, per me il confronto cade dal precipizio.

Twitter è più simile a una conduttura per l'elaborazione dei dati. La pipe è ciò che collega vari nodi di elaborazione che ricevono dati, calcolano e forniscono output. (Il gergo è beccucci e chiavistelli) Estendi questa analogia a un complesso cablaggio della pipeline che può essere riprogettato quando richiesto e ottieni Twitter Storm.

Nel guscio di noce elabora i dati come vengono. Non c'è latenza.

Hadoop come mai è diverso a questo riguardo principalmente a causa di HDFS. È una soluzione orientata allo stoccaggio distribuito e alla tolleranza per l'interruzione di molte scale (dischi, macchine, rack, ecc.)

M /R è costruito per sfruttare la localizzazione dei dati su HDFS per distribuire lavori di calcolo. Insieme, non forniscono funzionalità per l'elaborazione dei dati in tempo reale. Ma questo non è sempre un requisito quando si guardano attraverso i dati di grandi dimensioni. (ago nell'analogia del pagliaio)

In breve, Twitter Storm è una soluzione di elaborazione dati distribuita in tempo reale. Non penso che dovremmo confrontarli. Twitter lo ha costruito perché aveva bisogno di una struttura per elaborare piccoli tweet ma un numero enorme di loro e in tempo reale.

Vedi: HStreaming se sei costretto a confrontarlo con qualche cosa

    
37
2012-06-28 22: 41: 13Z
  1. + 1, accetta completamente. Solo una piccola nota: Twitter non l'ha costruita, sono acquisito it. BackType lo ha creato in origine.
    2012-08-01 12: 35: 58Z
  2. @ johndodo: Grazie. Ero completamente all'oscuro della sua origine.
    2012-08-01 21: 38: 44Z
  3. Bella analogia con la pipeline di modifica della topologia.
    2012-10-04 11: 49: 36Z
  4. Poiché la domanda è stata chiusa, aggiungerei la mia opinione come commento: tratta solo Storm vs. Hadoop come STDIN elaborazione vs. Elaborazione File . Prendete come esempio l'applicazione conteggio delle parole, Stormie legge le parole inserite dalla console, mentre Hadooper esegue la scansione delle parole da un file su disco creato ieri. È solo che sia Storm che Hadoop devono essere distribuiti quando il volume dell'attività diventa troppo grande.
    2013-10-25 06: 20: 09Z
  5. Fondamentalmente Storm è bravo in tutto ciò che Hadoop non fa (calcolo in tempo reale). E Hadoop iè bravo in tutto ciò che Storm non fa (Persistenza). I due sistemi sono complementari e Twitter è ora open source [Summingbird | github.com/twitter/summingbird] che collega i due ...
    2014-02-14 14: 26: 51Z

Fondamentalmente, entrambi vengono utilizzati per analizzare i big data, ma Storm viene utilizzato per l'elaborazione in tempo reale mentre Hadoop viene utilizzato per l'elaborazione in batch.

Questa è un'ottima introduzione a Storm che ho trovato: Fai clic qui

    
11
2012-07-18 21: 04: 41Z

Piuttosto che essere comparati, si suppone che si completino a vicenda con l'elaborazione batch + in tempo reale (pseudo-tempo reale). C'è una presentazione video corrispondente: Ted Dunning su Twitter's Storm

    
4
2012-10-04 11: 59: 06Z
  1. Può questa architettura di twitter storm essere duplicata in un ambiente Windows?
    2012-10-31 15: 24: 30Z
  2. Praticamente tutto può essere duplicato, ma dubito che avrebbe senso essere implementato in Windows perché Storm è inteso per l'elaborazione "in tempo reale".
    2013-04-16 08: 33: 28Z
  3. Che cosa intendi per "pseudo-real time", per favore espandi
    2014-06-30 13: 05: 08Z
  4. Niente di speciale. Volevo solo sottolineare che il software "reale" in tempo reale ha requisiti più rigidi incluso OS - "Un sistema operativo in tempo reale (RTOS) è un sistema operativo (OS) destinato a soddisfare richieste di applicazioni in tempo reale. i dati al loro interno, in genere senza ritardi nel buffer. I requisiti di tempo di elaborazione (compreso qualsiasi ritardo del sistema operativo) sono misurati in decimi di secondo o più brevi. "( en.wikipedia.org/wiki/Real-time_operating_system ). In questo senso, la funzionalità in tempo reale di Storm è un modo per distinguersi dai sistemi di elaborazione batch.
    2014-06-30 13: 48: 30Z

Uso Tempesta da un po 'e ora ho abbandonato questa tecnologia veramente buona per uno straordinario: Spark ( http://spark.apache.org ) che fornisce agli sviluppatori un'API unificata per l'elaborazione batch o streaming (micro-batch) nonché l'apprendimento automatico e l'elaborazione grafica.

vale la pena provare

    
3
2014-05-06 14: 41: 17Z

Storm è per dati veloci (in tempo reale) e amp; Hadoop è per i Big data (tonnellate di dati preesistenti). Storm non può elaborare Big data ma può generare Big data come output.

    
1
2015-02-01 08: 24: 02Z
  

Apache Storm è un sistema di calcolo in tempo reale distribuito gratuito e open source. Storm rende semplice elaborare in modo affidabile flussi di dati illimitati, eseguendo per l'elaborazione in tempo reale ciò che Hadoop ha fatto per l'elaborazione in batch.

Da molti sottosistemims esiste nell'ecosistema Hadoop, dobbiamo scegliere il sub-sistema giusto in base ai requisiti aziendali e amp; fattibilità di un particolare sistema.

Hadoop MapReduce è efficiente per l'elaborazione in batch di un lavoro alla volta. Questo è il motivo per cui Hadoop viene utilizzato estensivamente come strumento di data warehousing piuttosto che come strumento di analisi dei dati.

Poiché la domanda è relativa solo a " Storm " vs " Hadoop ", dai un'occhiata a Casi di utilizzo di tempesta - Servizi finanziari, Telecom, Retail, Produzione, Trasporti.

  1. Hadoop MapReduce è più adatto per l'elaborazione in batch.
  2. Storm è un motore di elaborazione stream completo e può essere utilizzato per l'analisi dei dati in tempo reale con latenza in sotto-secondi.

Dai un'occhiata a questo articolo dezyre per il confronto tra Hadoop, Storm e Spark. Spiega le somiglianze e le differenze.

Può essere riassunto con l'immagine in basso (dall'articolo dezyre)

 inserisci la descrizione dell'immagine qui

    
0
2016-04-01 10: 14: 15Z
fonte collocata Qui