Domande taggate [pyspark]

9 voti
1 risposte
Come salvare e caricare il modello MLLib in Apache Spark?
Ho addestrato un modello di classificazione in Apache Spark (usando pyspark). Ho archiviato il modello in un oggetto, LogisticRegressionModel. O...
67 voti
11 risposte
Come collegare PyCharm con PySpark?
Sono nuovo con la scintilla di apache e apparentemente ho installato apache-spark con homebrew nel mio macbook:  Last login: Fri Jan 8 12:52:...
chiesto 3 mesi fa
61 voti
4 risposte
Aggiornamento di una colonna di dataframe in spark
Guardando la nuova scintilla dataframe api, non è chiaro se sia possibile modificare le colonne del dataframe. Come faccio a cambiare un valo...
32 voti
4 risposte
Come fondere Spark DataFrame?
Esiste un equivalente di Pandas Melt Function in Apache Spark in PySpark o almeno in Scala? Stavo eseguendo un dataset di esempio fino ad ora...
19 voti
8 risposte
Ottieni CSV su Spark dataframe
Sto usando python su Spark e vorrei avere un csv in un dataframe. La documentazione per Spark SQL stranamente non fornisce spiegazioni per...
chiesto 4 anni fa
13 voti
1 risposte
Come utilizzare completamente tutti i nodi Spark nel cluster?
Ho lanciato un cluster a 10 nodi con lo script ec2 in modalità standalone per Spark. Sto accedendo ai dati in bucket s3 dalla shell PySpark ma q...
chiesto 4 anni fa
25 voti
1 risposte
Perché Apache-Spark - Python è così lento localmente rispetto ai panda?
Un novizio Spark qui. Recentemente ho iniziato a giocare con Spark sul mio computer locale su due core usando il comando:  pyspark --master lo...