Soalan tagged [apache-spark]

1 undi
1 balasannya
Adakah terdapat cara untuk menambah berbilang lajur ke frasa data yang dikira dari purata bergerak dari lajur yang berlainan dan / atau dalam tempoh yang berlainan
Saya mempunyai frasa data dengan data siri masa dan saya cuba menambah banyak lajur purata yang bergerak ke sana dengan tingkap yang berbeza dar...
bertanya 5 bulan yang lepas
1 undi
1 balasannya
bagaimana saya dapat mengoptimumkan kesimpulan skema pada fail jauh untuk CSV dengan Spark
Saya mempunyai fail jauh di S3 (atau yang lain) dan saya memerlukan skema fail. Saya tidak menjumpai pilihan untuk mencuba data seperti JSON (e....
bertanya 5 bulan yang lepas
-1 undi
1 balasannya
Perbandingan perbandingan Bijak pada Elemen DataFrame
Bagaimana untuk melakukan Lajur Pairwise Iterate untuk mencari Kesamaan. Untuk Semua Elemet dari Semua The Colunms dari satu Frame Data, un...
bertanya 5 bulan yang lepas
-2 undi
1 balasannya
Menyusun dataset besar oleh mana-mana lajur / atribut
Saya mempunyai pangkalan data MySQL dengan penyertaan ~ 20M (dan berkembang) yang diedarkan dalam beberapa jadual. Sistem saya mempunyai ciri di...
bertanya 5 bulan yang lepas
0 undi
0 balasannya
Bagaimana dua menggunakan spark.sql pilih dua jadual berdasarkan lajur pada setiap baris
Pada dasarnya, saya mempunyai dua jadual, skema diberikan di bawah: root |-- machine_id: string (nullable = true) |-- time_stamp: double (nu...
bertanya 5 bulan yang lepas
2 undi
1 balasannya
Bagaimana saya boleh meningkatkan Apache Hive ke versi 3 pada Gap Apache Spark Dataproc Cluster
Untuk satu sebab atau lain, saya ingin menaik taraf versi Apache Hive dari 2.3.4 ke 3 pada Google Cloud Dataproc (1.4.3) Spark Cluster. Bagaiman...
bertanya 5 bulan yang lepas
-1 undi
0 balasannya
bagaimana untuk mengemaskini sifat nod dengan neo4j-spark-connector
Saya boleh membuat nod dengan neo4j-spark-connector: val rows = sc.makeRDD(Seq(Row("Laurence", "Fishburne"))) val schema = StructType(Seq(...
bertanya 5 bulan yang lepas
2 undi
2 balasannya
Penyortiran tersuai dalam Spark Menggunakan Java / scala API
Saya telah mengikuti data: - +-------------+ | card type| +-------------+ |ColonialVoice| | SuperiorCard| | Vista| | Distinguish| +...
bertanya 5 bulan yang lepas
-1 undi
0 balasannya
Sparklyr Split kolom menjadi baris berasingan
Saya mempunyai masalah dengan jadual percikan api. Jadual saya ialah; # Source: spark<?> [?? x 4] AssetConnectDeviceKey CreateDate...
bertanya 5 bulan yang lepas
0 undi
0 balasannya
Ralat "Percubaan petisyen 0 sudah didaftarkan" dengan RDD dari Kafka Consumer dalam Spark-Streaming
Apl berjalan pada IntelliJ dengan mod tempatan Spark. Dalam gelung apabila Pengguna dari topik Kafka oleh Spark-Streaming: if ((_rdd != nul...
bertanya 5 bulan yang lepas
1 undi
1 balasannya
Bagaimana untuk mengemas kini kerangka data Spark berdasarkan Lajur dari kerangka data lain dengan banyak entri dalam Scala?
Saya bekerja dengan data frames Spark dan ingin mengemas kini lajur column_to_be_updated dalam jadual hive menggunakan spark-sql dalam Scala....
bertanya 5 bulan yang lepas
-1 undi
0 balasannya
Apa yang akan menjadi tetapan konfigurasi percikan yang betul, jika saya memproses 500 MB fail gz?
Saya seorang pemula untuk mencetuskan dan saya mempunyai fail 500 GB .gz yang saya mahu analisa. Saya mencuba algoritma penapis menggunakan 3 kl...
bertanya 5 bulan yang lepas
0 undi
0 balasannya
Tidak mendapat mesej menggunakan program streaming Spark
Saya mempunyai satu contoh kafka yang menjalankan mesej penerbitan cluster ke topik. Apabila saya mencetuskan arahan ./bin/kafka-console-cons...
1 undi
0 balasannya
spark sql gagal mengenali lajur parti sarang
Saya mempunyai jadual partition event_fact. Lajur partition ialah dt, type. Dan kemudian saya membuat pandangan di atas jadual itu. create vie...
bertanya 5 bulan yang lepas
0 undi
1 balasannya
Percikan, bagaimana mencetak pertanyaan?
Saya menggunakan pyspark df = self.sqlContext.read.option( "es.resource", indexes ).format("org.elasticsearch.spark.sql").load...
bertanya 5 bulan yang lepas
-1 undi
0 balasannya
Bagaimana untuk mengendalikan sejumlah besar bilangan yang berbeza dalam spark sql
Saya menggunakan Spark 2.2.2. Saya mempunyai jadual t1 dengan lajur c0, c1, c2, c3 ... cn. Dan SQL seperti: Select c0, count(distinct...
bertanya 5 bulan yang lepas
0 undi
1 balasannya
Kegagalan kerja tanpa butiran lanjut. Saya menggunakan rdd.map mudah, menukar ke DF dan tunjukkan ()
Saya pemula super dengan pyspark. Cuba beberapa kod untuk memproses dokumen saya dalam Komuniti Databricks. Saya mempunyai banyak halaman html d...
bertanya 5 bulan yang lepas
0 undi
0 balasannya
Mengapakah memori tuan yang ditentukan tidak sepadan dengan yang diminta dalam skrip slurm?
Saya menggunakan skrip slurm berikut untuk menjalankan percikan 2.3.0. #!/bin/bash #SBATCH --account=def-hmcheick #SBATCH --nodes=2 #SBATCH --...
bertanya 5 bulan yang lepas
1 undi
1 balasannya
Bagaimana untuk mewakili batal dalam DataSet yang terdiri daripada senarai kelas kes
Saya mempunyai kelas kes final case class FieldStateData( job_id: String = null,...
bertanya 5 bulan yang lepas
-2 undi
1 balasannya
Memadankan nilai lajur dalam frames data
Saya mempunyai frame data yang kelihatan seperti ini: Market Price date outtime intime ttype ATLJFKJFKATL 150 20190403 0...
bertanya 5 bulan yang lepas
0 undi
2 balasannya
Objek Scala menggunakan kaedah yang tidak pernah dipanggil dalam Spark Job
Saya cuba memecahkan logik saya dalam apl percikan . Saya telah mencipta kelas berasingan untuk definisi UDF dan UDF deklarasi : Perisyt...
1 undi
1 balasannya
Pyspark: Bagaimana menangani nilai nol dalam fungsi python user defined
Saya ingin menggunakan beberapa fungsi persamaan rentetan yang tidak asli kepada pyspark seperti langkah-langkah jaro dan jitter-winkler pada da...
bertanya 5 bulan yang lepas
1 undi
0 balasannya
Adakah saya kehilangan fail parket? Mengapa tidak sebahagian- <file-number> incremental?
Saya mempunyai tugas besar (data), menulis output kepada hdfs. Keluaran fail parket tidak bertambah. Kelompok kemudian (saya fikir) kehilangan s...
bertanya 5 bulan yang lepas
1 undi
1 balasannya
Dua DataFrame bersarang untuk Setiap Gelung
foreach Pengulangan bersarang terputus dari DataFrams membuang NullPointerException: def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame)...
bertanya 5 bulan yang lepas
-2 undi
1 balasannya
Bagaimana untuk membahagi rentetan untuk semua medan dalam lajur Spark dan merebut panjang senarai rentetan pecahan?
Pada masa ini saya sedang mencuba untuk merebut jumlah perkhidmatan IP tertentu yang sedang berjalan, dan perkhidmatan berada dalam lajur servic...
bertanya 5 bulan yang lepas