Domande taggate [apache-spark-sql]

17 voti
2 risposte
Lettura del CSV in un Dataframe Spark con timestamp e tipi di data
È CDH con Spark 1.6 . Sto cercando di importare questo CSV ipotetico in un Apache Spark DataFrame:  $ hadoop fs -cat test.csv a,b,c,2016-0...
206 voti
13 risposte
Differenza tra DataFrame, Dataset e RDD in Spark
Mi chiedo quale sia la differenza tra un RDD e un DataFrame (Spark 2.0.0 DataFrame è un semplice alias di tipo Dataset[Row]) in Apache Spark?...
4 voti
1 risposte
Spark Scala: come faccio a ripetere le righe nel dataframe e aggiungere valori calcolati come nuove colonne del frame di dati
Ho un dataframe con due colonne "date" e "value", come faccio ad aggiungere 2 nuove colonne "value_mean" e "value_sd" al dataframe dove "value_m...
15 voti
4 risposte
spark sql - se usare la trasformazione di riga o UDF
Sto avendo una tabella di input (I) con 100 colonne e 10 milioni di record. Voglio ottenere una tabella di output (O) che ha 50 colonne e queste...
13 voti
1 risposte
Spark sql Dataframe - importare sqlContext.implicits._
Ho un main che crea il contesto spark:   val sc = new SparkContext(sparkConf) val sqlContext = new org.apache.spark.sql.SQLContext(sc)...
chiesto 3 anni fa
14 voti
8 risposte
Una query SQL per accedere a più origini dati in Java (da Oracle, Excel, SQL Server)
Ho bisogno di sviluppare un'applicazione che possa ricevere dati da più origini dati (Oracle, Excel, Microsoft Sql Server e così via) utilizzand...
44 voti
3 risposte
Come aggregare i valori nella raccolta dopo groupBy?
Ho un dataframe con schema in quanto tale:  [visitorId: string, trackingIds: array<string>, emailIds: array<string>] Alla ricer...
chiesto 2 anni fa
61 voti
4 risposte
Aggiornamento di una colonna di dataframe in spark
Guardando la nuova scintilla dataframe api, non è chiaro se sia possibile modificare le colonne del dataframe. Come faccio a cambiare un valo...
32 voti
4 risposte
Come fondere Spark DataFrame?
Esiste un equivalente di Pandas Melt Function in Apache Spark in PySpark o almeno in Scala? Stavo eseguendo un dataset di esempio fino ad ora...
25 voti
1 risposte
Perché Apache-Spark - Python è così lento localmente rispetto ai panda?
Un novizio Spark qui. Recentemente ho iniziato a giocare con Spark sul mio computer locale su due core usando il comando:  pyspark --master lo...