Fragen markiert [apache-spark]

1 Stimmen
1 Antworten
Gibt es eine Möglichkeit, einem Datenrahmen mehrere Spalten hinzuzufügen, die aus gleitenden Durchschnitten verschiedener Spalten und / oder unterschiedlicher Dauer berechnet wurden?
Ich habe einen Datenrahmen mit Zeitreihendaten und versuche, ihm viele Spalten mit gleitendem Durchschnitt mit verschiedenen Fenstern in verschi...
fragte vor 5 Monaten
1 Stimmen
1 Antworten
Wie kann ich die Schema-Inferenz in einer Remote-Datei für CSV mit Spark optimieren?
Ich habe eine Remote-Datei in S3 (oder einer anderen) und benötige das Schema der Datei. Ich habe keine Option gefunden, um die Daten wie für JS...
fragte vor 5 Monaten
-1 Stimmen
1 Antworten
Pair Wise-Vergleich für DataFrame-Elemente
So führen Sie eine paarweise Iteration von Spalten durch, um Ähnlichkeiten zu finden. Für alle Elemente aus allen Spalten eines Datenrahmen...
fragte vor 5 Monaten
-2 Stimmen
1 Antworten
Sortieren großer Datensätze nach Spalten / Attributen
Ich habe eine MySQL-Datenbank mit ~ 20 Millionen Einträgen (und wachsenden Einträgen), die in einigen Tabellen verteilt sind. Mein System verfüg...
0 Stimmen
0 Antworten
Wie zwei spark.sql verwenden, wählt zwei Tabellen basierend auf den Spalten in jeder Zeile aus
Grundsätzlich habe ich zwei Tabellen, die unten angegeben sind: root |-- machine_id: string (nullable = true) |-- time_stamp: double (nullab...
fragte vor 5 Monaten
2 Stimmen
1 Antworten
Wie kann ich Apache Hive auf GCP Apache Spark Dataproc Cluster auf Version 3 aktualisieren?
Aus irgendeinem Grund möchte ich die Version von Apache Hive von 2.3.4 auf 3 in Google Cloud Dataproc (1.4.3) Spark Cluster aktualisieren. Wie k...
fragte vor 5 Monaten
-1 Stimmen
0 Antworten
So aktualisieren Sie die Knoteneigenschaften mit dem neo4j-spark-connector
Mit neo4j-spark-connector kann ich einen Knoten erstellen: val rows = sc.makeRDD(Seq(Row("Laurence", "Fishburne"))) val schema = StructTyp...
fragte vor 5 Monaten
2 Stimmen
2 Antworten
Benutzerdefiniertes Sortieren in Spark mit der Java / Scala-API
Ich habe folgende Daten: - +-------------+ | card type| +-------------+ |ColonialVoice| | SuperiorCard| | Vista| | Distinguish| +--...
fragte vor 5 Monaten
-1 Stimmen
0 Antworten
Sparklyr Spalte in separate Zeilen aufteilen
Ich habe ein Problem mit Funkentabellen. Mein Tisch ist; # Source: spark<?> [?? x 4] AssetConnectDeviceKey CreateDate Fau...
fragte vor 5 Monaten
0 Stimmen
0 Antworten
Fehler „Task-Versuch 0 ist bereits registriert“ bei RDD von Kafka Consumer im Spark-Streaming
App, die auf IntelliJ im lokalen Spark-Modus ausgeführt wird. In der Schleife beim Consumer von Kafka-Thema per Spark-Streaming: if ((_rdd...
1 Stimmen
1 Antworten
Wie aktualisiere ich Spark-Datenrahmen basierend auf Spalte von einem anderen Datenrahmen mit vielen Einträgen in Scala?
Ich arbeite mit Spark-Datenrahmen und möchte eine Spalte column_to_be_updated in einer Hive-Tabelle mit spark-sql in Scala aktualisieren. Mei...
-1 Stimmen
0 Antworten
Was wäre die richtige Spark-Konfigurationseinstellung, wenn ich 500 MB GZ-Datei verarbeiten würde?
Ich bin ein Neuling und habe eine 500-MB-GZ-Datei, die ich analysieren möchte. Ich probiere einen Filteralgorithmus mit 3-Knoten-Cluster (4 vCor...
0 Stimmen
0 Antworten
Keine Nachrichten mit dem Spark-Streaming-Programm empfangen
Ich habe eine Kafka-Instanz, die auf Cluster-Veröffentlichungsnachrichten für Topic ausgeführt wird. Wenn ich einen Befehl auslöse ./bin/kafk...
1 Stimmen
0 Antworten
spark sql erkannte keine Hive-Partitionsspalten
Ich habe eine partitionierte Tabelle event_fact. Die Partitionsspalten lauten dt, type. Anschließend erstelle ich eine Ansicht über dieser Tabel...
fragte vor 5 Monaten
0 Stimmen
1 Antworten
Spark, wie wird die Abfrage gedruckt?
Ich verwende Pyspark df = self.sqlContext.read.option( "es.resource", indexes ).format("org.elasticsearch.spark.sql").load()...
fragte vor 5 Monaten
-1 Stimmen
0 Antworten
Wie man mit einer großen Anzahl von Zählern umgeht, die sich in Spark-SQL unterscheiden
Ich verwende Spark 2.2.2. Ich habe eine Tabelle t1 mit Spalte c0, c1, c2, c3 ... cn. Und SQL wie: Select c0, count(distinct if(condit...
fragte vor 5 Monaten
0 Stimmen
1 Antworten
Auftragsfehler ohne weitere Details. Ich habe eine einfache rdd.map verwendet, in DF konvertiert und show ()
Ich bin super Anfänger mit Pyspark. Probieren Sie einfach einen Code aus, um meine Dokumente in der Databricks Community zu verarbeiten. Ich hab...
0 Stimmen
0 Antworten
Warum entspricht der vom Master angegebene Speicher nicht dem im Slurm-Skript angeforderten?
Ich verwende das folgende Slurm-Skript, um spark 2.3.0 auszuführen. #!/bin/bash #SBATCH --account=def-hmcheick #SBATCH --nodes=2 #SBATCH --tim...
fragte vor 5 Monaten
1 Stimmen
1 Antworten
Darstellung von Nullen in DataSets, die aus einer Liste von Fallklassen bestehen
Ich habe eine Fallklasse final case class FieldStateData( job_id: String = null,...
fragte vor 5 Monaten
-2 Stimmen
1 Antworten
Übereinstimmende Werte der Spalte im Datenrahmen
Ich habe einen Datenrahmen, der folgendermaßen aussieht: Market Price date outtime intime ttype ATLJFKJFKATL 150 20190403...
fragte vor 5 Monaten
0 Stimmen
2 Antworten
Scala-Objektanwendungsmethode, die in Spark Job nie aufgerufen wurde
Ich versuche, meine Logik in der spark App zu entkoppeln. Ich habe eine separate Klasse für UDF-Definitionen und UDF-Deklarationen erstell...
1 Stimmen
1 Antworten
Pyspark: Wie man mit Nullwerten in benutzerdefinierten Python-Funktionen umgeht
Ich möchte einige String-Ähnlichkeitsfunktionen verwenden, die nicht für Pyspark typisch sind, z. B. die Kennzahlen jaro und jaro-winkler für Da...
1 Stimmen
0 Antworten
Habe ich Parkettfeilen verloren? Warum ist Teil <Dateinummer> nicht inkrementell?
Ich habe einen großen (Daten-) Auftrag und habe die Ausgabe in hdfs geschrieben. Die Ausgabe der Parkettdatei erfolgt nicht inkrementell. Der Cl...
fragte vor 5 Monaten
1 Stimmen
1 Antworten
Zwei Datenrahmen, die für jede Schleife verschachtelt sind
Die geschachtelte foreach-Iteration von DataFrams löst eine NullPointerException aus: def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame...
fragte vor 5 Monaten
-2 Stimmen
1 Antworten
Wie teilt man einen String für alle Felder in einer Spark-Spalte und ermittelt die Länge der zurückgegebenen Split-String-Liste?
Ich versuche derzeit, die Anzahl der Dienste abzurufen, die auf einer bestimmten IP ausgeführt werden. Die Dienste befinden sich in einer servic...
fragte vor 5 Monaten