Domande taggate [apache-spark]

67 voti
11 risposte
Come collegare PyCharm con PySpark?
Sono nuovo con la scintilla di apache e apparentemente ho installato apache-spark con homebrew nel mio macbook:  Last login: Fri Jan 8 12:52:...
chiesto 3 mesi fa
32 voti
4 risposte
Come fondere Spark DataFrame?
Esiste un equivalente di Pandas Melt Function in Apache Spark in PySpark o almeno in Scala? Stavo eseguendo un dataset di esempio fino ad ora...
14 voti
3 risposte
Cosa farà scintillare se non avrò abbastanza memoria?
Sono nuovo di Spark, e ho trovato che la documentazione dice che Spark caricherà i dati in memoria per rendere più veloci gli algoritmi di itera...
chiesto 5 anni fa
4 voti
1 risposte
Spark Scala: come faccio a ripetere le righe nel dataframe e aggiungere valori calcolati come nuove colonne del frame di dati
Ho un dataframe con due colonne "date" e "value", come faccio ad aggiungere 2 nuove colonne "value_mean" e "value_sd" al dataframe dove "value_m...
61 voti
4 risposte
Aggiornamento di una colonna di dataframe in spark
Guardando la nuova scintilla dataframe api, non è chiaro se sia possibile modificare le colonne del dataframe. Come faccio a cambiare un valo...
39 voti
8 risposte
Cos'è l'RDD nella scintilla
La definizione dice:    RDD è una raccolta distribuita di oggetti immutabile Non capisco cosa significhi. È come i dati (oggetti partizio...
chiesto 3 anni fa
44 voti
4 risposte
Come leggere da hbase usando spark
Il codice seguente leggerà da hbase, quindi convertiremo in struttura json e convertiremo in schemaRDD, ma il problema è che io sono using List...
chiesto 4 anni fa
30 voti
1 risposte
Internal Work of Spark
Ora un giorno Spark è in corso. Spark ha usato il linguaggio scala per caricare ed eseguire il programma e anche python e java. RDD è usato per...
chiesto 2 anni fa
17 voti
7 risposte
Pyspark - i file -py non funzionano
Uso questo come suggerito dal documento http://spark.apache.org/docs/1.1 .1 /submitting-applications.html spsark versione 1.1.0  ./spark/...
chiesto 4 anni fa
23 voti
3 risposte
Chiavi primarie con Apache Spark
Ho una connessione JDBC con Apache Spark e PostgreSQL e voglio inserire alcuni dati nel mio database. Quando utilizzo la modalità append, devo s...
19 voti
8 risposte
Ottieni CSV su Spark dataframe
Sto usando python su Spark e vorrei avere un csv in un dataframe. La documentazione per Spark SQL stranamente non fornisce spiegazioni per...
chiesto 4 anni fa
206 voti
13 risposte
Differenza tra DataFrame, Dataset e RDD in Spark
Mi chiedo quale sia la differenza tra un RDD e un DataFrame (Spark 2.0.0 DataFrame è un semplice alias di tipo Dataset[Row]) in Apache Spark?...
6 voti
2 risposte
Scala Spark: dividere la raccolta in diversi RDD?
C'è qualche funzione Spark che consente di suddividere una collezione in diversi RDD secondo alcuni creteria? Tale funzione consentirebbe di evi...
chiesto 4 anni fa
24 voti
2 risposte
Best Practice per lanciare Spark Applications via Web Application?
Voglio esporre le mie applicazioni Spark agli utenti con un'applicazione web. Fondamentalmente, l'utente può decidere quale azione vuole eseg...
chiesto 1 anno fa
31 voti
2 risposte
build.sbt: come aggiungere dipendenze spark
Ciao Sto cercando di scaricare spark-core, spark-streaming, twitter4j e spark-streaming-twitter nel file build.sbt qui sotto:  name := "hello"...
64 voti
4 risposte
Quale tipo di cluster dovrei scegliere per Spark?
Sono nuovo di Apache Spark e ho appena appreso che Spark supporta tre tipi di cluster: Standalone - significa che Spark gestirà il proprio c...
86 voti
8 risposte
Come sovrascrivere la directory di output in spark
Ho un'applicazione di streaming spark che produce un set di dati per ogni minuto. Devo salvare /sovrascrivere i risultati dei dati elaborati....
chiesto 4 anni fa
15 voti
4 risposte
spark sql - se usare la trasformazione di riga o UDF
Sto avendo una tabella di input (I) con 100 colonne e 10 milioni di record. Voglio ottenere una tabella di output (O) che ha 50 colonne e queste...
30 voti
7 risposte
scintilla invia aggiungi più barattoli in classpath
Sto tentando di eseguire un programma spark in cui ho più file jar, se avessi un solo jar che non sono in grado di eseguire. Voglio aggiungere e...
chiesto 3 anni fa
44 voti
3 risposte
Come aggregare i valori nella raccolta dopo groupBy?
Ho un dataframe con schema in quanto tale:  [visitorId: string, trackingIds: array<string>, emailIds: array<string>] Alla ricer...
chiesto 2 anni fa
16 voti
1 risposte
Spark: attività non serializzabile per UDF su DataFrame
Ottengo org.apache.spark.SparkException: Task not serializable quando provo a eseguire quanto segue su Spark 1.4.1:  import java.sql.{Date, Ti...
chiesto 3 anni fa
11 voti
6 risposte
Lettura di file CSV in zeppelin usando spark-csv
Voglio leggere i file CSV in Zeppelin e vorrei usare i databricks ' pacchetto spark-csv: https://github.com/databricks/spark-csv Nella scin...
chiesto 3 anni fa
13 voti
2 risposte
In Spark API, qual è la differenza tra le funzioni makeRDD e la funzione parallelize?
Ho una domanda, durante l'app make spark. In Spark API, qual è la differenza tra le funzioni makeRDD e parallelize?      13 2 risposte     ...
chiesto 3 anni fa
53 voti
2 risposte
Qual è la differenza tra Apache Mahout e Aplika Spark's MLlib?
Considerando un database MySQL products con 10 milioni di prodotti per un sito di e-commerce. Sto provando a creare un modulo di classificazi...
45 voti
4 risposte
Come ridurre la verbosità dell'output di runtime di Spark?
Come ridurre la quantità di informazioni di tracciamento prodotte dal runtime di Spark? Il valore predefinito è troppo dettagliato, Come s...
chiesto 4 anni fa