Questions marquées [apache-spark]

1 votes
1 réponses
Existe-t-il un moyen d'ajouter plusieurs colonnes à une trame de données calculée à partir de moyennes mobiles de différentes colonnes et / ou sur différentes durées
J'ai une base de données avec des données chronologiques et j'essaie d'y ajouter beaucoup de colonnes de moyenne mobile avec différentes fenêtre...
a demandé il y a 5 mois
1 votes
1 réponses
comment puis-je optimiser l'inférence de schéma sur un fichier distant pour CSV avec Spark
J'ai un fichier distant dans S3 (ou autre) et j'ai besoin du schéma du fichier. Je n'ai pas trouvé d'option pour échantillonner les données comm...
a demandé il y a 5 mois
-1 votes
1 réponses
Comparaison des paires Wise sur des éléments DataFrame
Comment effectuer une itération paire de colonnes pour rechercher des similitudes. Pour tous les éléments de tous les colonnes d'un cadre d...
a demandé il y a 5 mois
-2 votes
1 réponses
Tri de grands ensembles de données par n'importe quelle colonne / attribut
J'ai une base de données MySQL avec environ 20 millions d'entrées (et de plus en plus) réparties dans certaines tables. Mon système a une foncti...
a demandé il y a 5 mois
0 votes
0 réponses
Comment two utilise spark.sql sélectionne deux tables en fonction des colonnes de chaque ligne
En gros, j'ai deux tables, schémas donnés ci-dessous: root |-- machine_id: string (nullable = true) |-- time_stamp: double (nullable = true)...
a demandé il y a 5 mois
2 votes
1 réponses
Comment mettre à niveau Apache Hive vers la version 3 sur GCP Apache Spark Dataproc Cluster
Pour une raison ou une autre, je souhaite mettre à niveau la version d'Apache Hive de la version 2.3.4 à la version 3 sur Google Cloud Dataproc...
a demandé il y a 5 mois
-1 votes
0 réponses
comment mettre à jour les propriétés de noeud par neo4j-spark-connector
Je peux créer un nœud avec neo4j-spark-connector: val rows = sc.makeRDD(Seq(Row("Laurence", "Fishburne"))) val schema = StructType(Seq(Str...
a demandé il y a 5 mois
2 votes
2 réponses
Tri personnalisé dans Spark à l'aide de l'API Java / scala
J'ai les données suivantes: - +-------------+ | card type| +-------------+ |ColonialVoice| | SuperiorCard| | Vista| | Distinguish|...
a demandé il y a 5 mois
-1 votes
0 réponses
Sparklyr Fractionner la colonne en lignes séparées
J'ai un problème avec les tables d'allumage. Ma table est; # Source: spark<?> [?? x 4] AssetConnectDeviceKey CreateDate F...
a demandé il y a 5 mois
0 votes
0 réponses
Erreur «La tentative de tâche 0 est déjà enregistrée» avec RDD de Kafka Consumer dans Spark-Streaming
Application fonctionnant sur IntelliJ avec le mode local Spark. Dans la boucle lorsque le sujet Consumer de Kafka par Spark-Streaming: if (...
a demandé il y a 5 mois
1 votes
1 réponses
Comment mettre à jour le cadre de données Spark basé sur la colonne d'un autre cadre de données comportant de nombreuses entrées dans Scala?
Je travaille avec des images Spark et souhaite mettre à jour une colonne column_to_be_updated dans une table-ruche à l'aide de spark-sql dans Sc...
a demandé il y a 5 mois
-1 votes
0 réponses
Quel serait le bon paramètre de configuration d'allumage, si je devais traiter 500 Mo de fichier gz?
Je suis un débutant à susciter et j'ai un fichier .gz de 500 Mo que je veux analyser. J'essaie un algorithme de filtrage utilisant un cluster à...
a demandé il y a 5 mois
0 votes
0 réponses
Ne pas recevoir de messages à l'aide du programme de diffusion Spark
Une instance de Kafka s'exécute sur une publication en cluster de messages dans la rubrique. Quand je déclenche la commande ./bin/kafka-conso...
1 votes
0 réponses
spark sql n'a pas réussi à reconnaître les colonnes de partition ruche
J'ai une table partitionnée 0600350991111101035062. Les colonnes de la partition sont 0600350991111101035062. Et puis je crée une vue au-dessus...
a demandé il y a 5 mois
0 votes
1 réponses
Spark, comment imprimer la requête?
J'utilise pyspark df = self.sqlContext.read.option( "es.resource", indexes ).format("org.elasticsearch.spark.sql").load()...
a demandé il y a 5 mois
-1 votes
0 réponses
Comment gérer un grand nombre de nombres distincts dans spark sql
J'utilise Spark 2.2.2. J'ai un tableau t1 avec la colonne c0, c1, c2, c3 ... cn. Et SQL comme: Select c0, count(distinct if(condition...
a demandé il y a 5 mois
0 votes
1 réponses
Échec du travail sans plus de détails. J'ai utilisé un simple rdd.map, converti en DF et show ()
Je suis super débutant avec pyspark. J'essaie juste du code pour traiter mes documents dans Databricks Community. J'ai beaucoup de pages html da...
a demandé il y a 5 mois
0 votes
0 réponses
Pourquoi la mémoire spécifiée par le maître ne correspond-elle pas à celle demandée dans le script slurm?
J'utilise le script slurm suivant pour exécuter spark 2.3.0. #!/bin/bash #SBATCH --account=def-hmcheick #SBATCH --nodes=2 #SBATCH --time=00:10...
a demandé il y a 5 mois
1 votes
1 réponses
Comment représenter des valeurs NULL dans des ensembles de données constitués d'une liste de classes de cas
J'ai une classe de cas final case class FieldStateData( job_id: String = null,...
a demandé il y a 5 mois
-2 votes
1 réponses
Correspondance des valeurs de la colonne dans la structure de données
J'ai un cadre de données qui ressemble à ceci: Market Price date outtime intime ttype ATLJFKJFKATL 150 20190403 0215...
a demandé il y a 5 mois
0 votes
2 réponses
Méthode d'application d'objet Scala jamais appelée dans Spark Job
J'essaie de découpler ma logique dans l'application Spark . J'ai créé une classe séparée pour les définitions UDF et les déclarations UDF :...
1 votes
1 réponses
Pyspark: Comment traiter les valeurs NULL dans les fonctions définies par l'utilisateur python
Je souhaite utiliser certaines fonctions de similarité de chaîne non natives de pyspark, telles que les mesures jaro et jaro-winkler sur les ima...
1 votes
0 réponses
Ai-je perdu des fichiers de parquet? Pourquoi la partie- <numéro-fichier> n'est-elle pas incrémentielle?
J'ai un gros travail (de données), écrit la sortie au format hdfs. La sortie du fichier parquet n'est pas incrémentielle. Le cluster a plus tard...
a demandé il y a 5 mois
1 votes
1 réponses
Deux DataFrame imbriqués pour chaque boucle
L'itération imbriquée en boucle de DataFrams 0600350991111101035062 génère une exception NullPointerException: foreach EXCEPTION:    ja...
a demandé il y a 5 mois
-2 votes
1 réponses
Comment scinder une chaîne pour tous les champs d'une colonne Spark et récupérer la longueur de la liste de scission renvoyée
Je tente actuellement de saisir le nombre de services exécutés par une adresse IP spécifique. Les services figurent dans une colonne 06003509911...
a demandé il y a 5 mois