Preguntas etiquetadas [apache-spark]

1 votos
1 respuestas
驴Hay alguna manera de agregar m煤ltiples columnas a un marco de datos calculado a partir de promedios m贸viles de diferentes columnas y / o con diferentes duraciones?
Tengo un marco de datos con datos de series de tiempo y estoy tratando de agregar muchas columnas de promedio m贸vil con diferentes ventanas de v...
pregunt贸 hace 5 meses
1 votos
1 respuestas
驴C贸mo puedo optimizar la inferencia de esquema en un archivo remoto para CSV con Spark?
Tengo un archivo remoto en S3 (u otro) y necesito el esquema del archivo. No encontr茅 una opci贸n para muestrear los datos como para JSON (e.g. r...
pregunt贸 hace 5 meses
-1 votos
1 respuestas
Comparaci贸n de par de Wise en los elementos DataFrame
C贸mo hacer columnas de iteraci贸n por pares para encontrar similitudes. Para todos los elementos de todos los grupos de un marco de datos, p...
pregunt贸 hace 5 meses
-2 votos
1 respuestas
Ordenar grandes conjuntos de datos por cualquier columna / atributo
Tengo una base de datos MySQL con ~ 20M entradas (y en crecimiento) distribuidas en algunas tablas. Mi sistema tiene una caracter铆stica donde es...
pregunt贸 hace 5 meses
0 votos
0 respuestas
C贸mo dos utilizan spark.sql para seleccionar dos tablas basadas en columnas en cada fila
B谩sicamente, tengo dos tablas, esquemas que figuran a continuaci贸n: root |-- machine_id: string (nullable = true) |-- time_stamp: double (nu...
pregunt贸 hace 5 meses
2 votos
1 respuestas
驴C贸mo puedo actualizar Apache Hive a la versi贸n 3 en GCP Apache Spark Dataproc Cluster?
Por una raz贸n u otra, quiero actualizar la versi贸n de Apache Hive de 2.3.4 a 3 en Google Cloud Dataproc (1.4.3) Spark Cluster. 驴C贸mo puedo actua...
pregunt贸 hace 5 meses
-1 votos
0 respuestas
c贸mo actualizar las propiedades del nodo por neo4j-spark-connector
Puedo crear un nodo mediante el conector neo4j-spark: val rows = sc.makeRDD(Seq(Row("Laurence", "Fishburne"))) val schema = StructType(Seq...
pregunt贸 hace 5 meses
2 votos
2 respuestas
Clasificaci贸n personalizada en Spark usando Java / scala API
Tengo los siguientes datos: - +-------------+ | card type| +-------------+ |ColonialVoice| | SuperiorCard| | Vista| | Distinguish|...
pregunt贸 hace 5 meses
-1 votos
0 respuestas
Sparklyr divide la columna en filas separadas
Tengo un problema con las tablas de chispas. Mi mesa es; # Source: spark<?> [?? x 4] AssetConnectDeviceKey CreateDate Fau...
pregunt贸 hace 5 meses
0 votos
0 respuestas
Error "El intento de tarea 0 ya est谩 registrado" con RDD de Kafka Consumer en Spark-Streaming
La aplicaci贸n se ejecuta en IntelliJ con el modo local de Spark. En el bucle cuando el tema Consumidor de Kafka por Spark-Streaming: if ((_...
1 votos
1 respuestas
驴C贸mo actualizar el marco de datos de Spark basado en la Columna de otro marco de datos con muchas entradas en Scala?
Estoy trabajando con los marcos de datos de Spark y quiero actualizar una columna column_to_be_updated en una tabla de colmena usando spark-sql...
-1 votos
0 respuestas
驴Cu谩l ser铆a la configuraci贸n correcta de la configuraci贸n de chispa si procesara 500 MB de archivo gz?
Soy un novato en Spark y tengo un archivo .gz de 500 mb que quiero analizar. Estoy probando un algoritmo de filtro usando un cl煤ster de 3 nodos...
pregunt贸 hace 5 meses
0 votos
0 respuestas
No recibir mensajes utilizando el programa de transmisi贸n Spark
Tengo una instancia de kafka que se ejecuta en mensajes de publicaci贸n de cl煤steres al tema. Cuando estoy activando el comando ./bin/kafka-co...
1 votos
0 respuestas
chispa sql no pudo reconocer las columnas de partici贸n colmena
Tengo una tabla particionada event_fact. Las columnas de partici贸n son dt, type. Y luego creo una vista en la parte superior de esa tabla. cre...
pregunt贸 hace 5 meses
0 votos
1 respuestas
Chispa, 驴c贸mo imprimir la consulta?
Estoy usando pyspark df = self.sqlContext.read.option( "es.resource", indexes ).format("org.elasticsearch.spark.sql").load()...
pregunt贸 hace 5 meses
-1 votos
0 respuestas
C贸mo manejar un gran n煤mero de conteos distintos en spark sql
Estoy usando Spark 2.2.2. Tengo una tabla t1 con la columna c0, c1, c2, c3 ... cn. Y SQL como: Select c0, count(distinct if(condition...
pregunt贸 hace 5 meses
0 votos
1 respuestas
Falla de trabajo sin m谩s detalles. Us茅 un simple rdd.map, convert铆 a DF y show ()
Soy s煤per principiante con pyspark. Solo estoy probando un c贸digo para procesar mis documentos en la Comunidad de Databricks. Tengo muchas p谩gin...
0 votos
0 respuestas
驴Por qu茅 la memoria maestra especificada no corresponde a la solicitada en el script slurm?
Estoy usando la siguiente secuencia de comandos slurm para ejecutar spark 2.3.0. #!/bin/bash #SBATCH --account=def-hmcheick #SBATCH --nodes=2...
pregunt贸 hace 5 meses
1 votos
1 respuestas
C贸mo representar nulos en conjuntos de datos que consisten en una lista de clases de casos
Tengo una clase de caso final case class FieldStateData( job_id: String = null,...
pregunt贸 hace 5 meses
-2 votos
1 respuestas
Coincidencia de valores de columna dentro del marco de datos
Tengo un marco de datos que se ve as铆: Market Price date outtime intime ttype ATLJFKJFKATL 150 20190403 0215 0600...
pregunt贸 hace 5 meses
0 votos
2 respuestas
M茅todo de aplicaci贸n de objeto Scala nunca llamado en Spark Job
Estoy tratando de desacoplar mi l贸gica en la aplicaci贸n spark . Cre茅 una clase separada para definiciones UDF y declaraciones UDF : Decl...
1 votos
1 respuestas
Pyspark: c贸mo tratar con valores nulos en funciones definidas por el usuario de Python
Quiero usar algunas funciones de similitud de cadenas que no son nativas de pyspark como las medidas de jaro y jaro-winkler en los marcos de dat...
1 votos
0 respuestas
驴Perd铆 los archivos de parquet? 驴Por qu茅 no es incremental part- <file-number>?
Tengo un trabajo grande (de datos), escrib铆 el resultado en hdfs. La salida del archivo de parquet no es incremental. El cluster m谩s tarde (creo...
pregunt贸 hace 5 meses
1 votos
1 respuestas
Dos DataFrame anidados para cada bucle
La iteraci贸n anidada en bucle foreach de DataFrams genera una NullPointerException: def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame):...
pregunt贸 hace 5 meses
-2 votos
1 respuestas
驴C贸mo dividir la cadena para todos los campos en una columna de Spark y tomar la longitud de la lista de cadenas divididas devuelta?
Actualmente estoy intentando capturar la cantidad de servicios que se est谩 ejecutando una IP espec铆fica, y los servicios se encuentran en una co...
pregunt贸 hace 5 meses