Perguntas marcadas [apache-spark]

1 votos
1 respostas
Existe uma maneira de adicionar várias colunas a um dataframe calculado a partir de médias móveis de colunas diferentes e / ou com duração diferente?
Eu tenho um dataframe com dados de série de tempo e estou tentando adicionar muitas colunas de média móvel a ele com diferentes janelas de vário...
perguntei há 8 meses
1 votos
1 respostas
Como posso otimizar a inferência de esquema em um arquivo remoto para CSV com o Spark
Eu tenho um arquivo remoto no S3 (ou outro) e preciso do esquema do arquivo. Eu não encontrei uma opção para amostrar os dados como para JSON (e...
perguntei há 8 meses
-1 votos
1 respostas
Comparação Wise Pair no DataFrame Elements
Como fazer um par de colunas de iteração para encontrar semelhanças. Para todos os Elemets de All The Colunms de um Data Frame, para serem...
perguntei há 8 meses
-2 votos
1 respostas
Classificando grandes conjuntos de dados por qualquer coluna / atributo
Eu tenho um banco de dados MySQL com ~ 20M entradas (e crescendo) distribuídas em algumas tabelas. Meu sistema tem um recurso onde essas informa...
0 votos
0 respostas
Como dois usam spark.sql selecione duas tabelas com base em colunas em cada linha
Basicamente, tenho duas tabelas, esquemas dados abaixo: root |-- machine_id: string (nullable = true) |-- time_stamp: double (nullable = tru...
perguntei há 8 meses
2 votos
1 respostas
Como posso atualizar o Apache Hive para a versão 3 no cluster Apache Spark Dataproc do GCP
Por um motivo ou outro, quero atualizar a versão do Apache Hive de 2.3.4 para 3 no Google Cloud Dataproc (1.4.3) Spark Cluster. Como posso atual...
perguntei há 8 meses
-1 votos
0 respostas
como atualizar as propriedades do nó por neo4j-faísca-conector
Eu posso criar um nó por neo4j-spark-connector: val rows = sc.makeRDD(Seq(Row("Laurence", "Fishburne"))) val schema = StructType(Seq(Struc...
perguntei há 8 meses
2 votos
2 respostas
Classificação personalizada no Spark Usando Java / scala API
Eu tenho os seguintes dados: - +-------------+ | card type| +-------------+ |ColonialVoice| | SuperiorCard| | Vista| | Distinguish|...
perguntei há 8 meses
-1 votos
0 respostas
Coluna Sparklyr dividida em linhas separadas
Eu tenho um problema com as tabelas de ignição. Minha mesa é; # Source: spark<?> [?? x 4] AssetConnectDeviceKey CreateDate...
perguntei há 8 meses
0 votos
0 respostas
Erro "A tentativa de tarefa 0 já está registrada" com o RDD da Kafka Consumer no Spark-Streaming
App em execução no IntelliJ com o modo local do Spark. No loop quando o tópico Consumer from Kafka do Spark-Streaming: if ((_rdd != null) &...
1 votos
1 respostas
Como atualizar o dataframe do Spark com base na coluna de outro dataframe com muitas entradas no Scala?
Estou trabalhando com quadros de dados do Spark e quero atualizar uma coluna column_to_be_updated em uma tabela de seção usando spark-sql no Sca...
-1 votos
0 respostas
Qual seria a configuração correta da ignição se eu processasse 500 MB de arquivo gz?
Eu sou um novato para acender e eu tenho um arquivo de 500 mb .gz que eu quero analisar. Eu estou tentando um algoritmo de filtro usando cluster...
perguntei há 8 meses
0 votos
0 respostas
Não recebendo mensagens usando o programa de streaming do Spark
Eu tenho uma instância kafka executando em mensagens de publicação em cluster para o tópico. Quando estou acionando o comando ./bin/kafka-con...
1 votos
0 respostas
faísca sql não conseguiu reconhecer colunas de partição de seção
Eu tenho uma tabela particionada event_fact. As colunas de partição são dt, type. E então eu crio uma visão em cima dessa tabela. create view...
perguntei há 8 meses
0 votos
1 respostas
Spark, como imprimir a consulta?
Estou usando o pyspark df = self.sqlContext.read.option( "es.resource", indexes ).format("org.elasticsearch.spark.sql").load()...
perguntei há 8 meses
-1 votos
0 respostas
Como lidar com um grande número de contagens distintas no spark sql
Estou usando o Spark 2.2.2. Eu tenho uma tabela t1 com coluna c0, c1, c2, c3 ... cn. E como o SQL: Select c0, count(distinct if(condi...
perguntei há 8 meses
0 votos
1 respostas
Falha no trabalho sem mais detalhes. Eu usei um rdd.map simples, converta para DF e mostre ()
Eu sou super iniciante com o pyspark. Apenas tentando algum código para processar meus documentos na Comunidade Databricks. Eu tenho muitas pági...
0 votos
0 respostas
Por que o mestre especificado memória não corresponde ao solicitado no script slurm?
Estou usando o seguinte script slurm para executar o Spark 2.3.0. #!/bin/bash #SBATCH --account=def-hmcheick #SBATCH --nodes=2 #SBATCH --time=...
perguntei há 8 meses
1 votos
1 respostas
Como representar nulos em DataSets consistindo na lista de classes de casos
Eu tenho uma classe de caso final case class FieldStateData( job_id: String = null,...
perguntei há 8 meses
-2 votos
1 respostas
Valores correspondentes da coluna no dataframe
Eu tenho um dataframe que se parece com isso: Market Price date outtime intime ttype ATLJFKJFKATL 150 20190403 0215...
perguntei há 8 meses
0 votos
2 respostas
Objeto Scala aplica o método nunca chamado no Spark Job
Estou tentando desacoplar minha lógica no aplicativo spark . Eu criei uma classe separada para definições de UDF e declarações de UDF :...
1 votos
1 respostas
Pyspark: como lidar com valores nulos em funções definidas pelo usuário em python
Eu quero usar algumas funções de similaridade de strings que não são nativas do pyspark, como as medidas jaro e jaro-winkler em quadros de dados...
1 votos
0 respostas
Eu perdi arquivos de parquete? Por que o part- <número-do-arquivo> não é incremental?
Eu tenho um trabalho grande (dados), escrevi a saída para hdfs. A saída do arquivo em parquet não é incremental. O cluster mais tarde (eu acho)...
perguntei há 8 meses
1 votos
1 respostas
Dois DataFrame aninhados para cada loop
O foreach iteração aninhada Loop de DataFrams lança um NullPointerException: def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame): Unit =...
perguntei há 8 meses
-2 votos
1 respostas
Como dividir a cadeia de caracteres para todos os campos em uma coluna Spark e obter o tamanho da lista de sequências divididas retornadas?
Atualmente, estou tentando obter a quantidade de serviços que um IP específico está executando e os serviços estão em uma coluna service, armaze...
perguntei há 8 meses