Pytania oznaczone [apache-spark]

1 g艂os贸w
1 odpowiedzi
Czy istnieje spos贸b na dodanie wielu kolumn do ramki danych obliczonej ze 艣rednich ruchomych z r贸偶nych kolumn i / lub w r贸偶nym czasie trwania
Mam ramk臋 danych z danymi szereg贸w czasowych i pr贸buj臋 doda膰 do niej wiele kolumn 艣redniej ruchomej z r贸偶nymi oknami o r贸偶nych zakresach. Kiedy...
spyta艂 8 miesi臋cy temu
1 g艂os贸w
1 odpowiedzi
jak mog臋 zoptymalizowa膰 wnioskowanie o schemacie na zdalnym pliku CSV za pomoc膮 Spark
Mam zdalny plik w S3 (lub innym) i potrzebuj臋 schematu pliku. Nie znalaz艂em opcji pr贸bkowania danych jak w przypadku JSON (e.g. read.option("sam...
spyta艂 8 miesi臋cy temu
-1 g艂os贸w
1 odpowiedzi
Por贸wnaj por贸wnanie Wise na elementach DataFrame
Jak wykona膰 parowanie kolumn w celu znalezienia podobie艅stw. Dla wszystkich Elemet贸w ze wszystkich Colunms jednej ramki danych, do por贸wnan...
spyta艂 8 miesi臋cy temu
-2 g艂os贸w
1 odpowiedzi
Sortowanie du偶ych zestaw贸w danych wed艂ug dowolnej kolumny / atrybutu
Mam baz臋 danych MySQL z ~ 20M wpisami (i rosn膮c膮) dystrybuowanymi w niekt贸rych tabelach. M贸j system ma funkcj臋, w kt贸rej te informacje s膮 wy艣wie...
spyta艂 8 miesi臋cy temu
0 g艂os贸w
0 odpowiedzi
W jaki spos贸b dwa korzystaj膮 z spark.sql wybierz dwie tabele oparte na kolumnach w ka偶dym wierszu
Zasadniczo mam dwie tabele, schematy podane poni偶ej: root |-- machine_id: string (nullable = true) |-- time_stamp: double (nullable = true)...
spyta艂 8 miesi臋cy temu
2 g艂os贸w
1 odpowiedzi
Jak mog臋 zaktualizowa膰 Apache Hive do wersji 3 w klastrze GCP Apache Spark Dataproc
Z tego lub innego powodu chc臋 zaktualizowa膰 wersj臋 Apache Hive z 2.3.4 do 3 w Google Cloud Dataproc (1.4.3) Spark Cluster. Jak mog臋 zaktualizowa...
spyta艂 8 miesi臋cy temu
-1 g艂os贸w
0 odpowiedzi
jak zaktualizowa膰 w艂a艣ciwo艣ci w臋z艂a za pomoc膮 z艂膮cza iskrowego neo4j
Mog臋 utworzy膰 w臋ze艂 przez neo4j-spark-connector: val rows = sc.makeRDD(Seq(Row("Laurence", "Fishburne"))) val schema = StructType(Seq(Stru...
spyta艂 8 miesi臋cy temu
2 g艂os贸w
2 odpowiedzi
Niestandardowe sortowanie w Spark Korzystanie z Java / scala API
Mam nast臋puj膮ce dane: - +-------------+ | card type| +-------------+ |ColonialVoice| | SuperiorCard| | Vista| | Distinguish| +-----...
spyta艂 8 miesi臋cy temu
-1 g艂os贸w
0 odpowiedzi
Sparklyr Podziel kolumn臋 na osobne wiersze
Mam problem ze stolikami iskrowymi. M贸j st贸艂 jest; # Source: spark<?> [?? x 4] AssetConnectDeviceKey CreateDate FaultStat...
spyta艂 8 miesi臋cy temu
0 g艂os贸w
0 odpowiedzi
B艂膮d 鈥濸r贸ba zadania 0 jest ju偶 zarejestrowana鈥 w RDD z Kafka Consumer w Spark-Streaming
Aplikacja dzia艂aj膮ca na IntelliJ z lokalnym trybem Spark. W p臋tli, gdy Konsument z Kafka temat Spark-Streaming: if ((_rdd != null) &&am...
spyta艂 8 miesi臋cy temu
1 g艂os贸w
1 odpowiedzi
Jak zaktualizowa膰 ramk臋 danych Spark na podstawie kolumny z innej ramki danych z wieloma wpisami w Scali?
Pracuj臋 z ramkami danych Spark i chc臋 zaktualizowa膰 kolumn臋 column_to_be_updated w tabeli ga艂臋zi przy u偶yciu spark-sql w Scali. M贸j kod dzia艂...
spyta艂 8 miesi臋cy temu
-1 g艂os贸w
0 odpowiedzi
Jakie by艂oby w艂a艣ciwe ustawienie konfiguracji iskry, gdybym przetwarza艂 plik 500 gz?
Jestem nowicjuszem do iskry i mam plik 500g .gz, kt贸ry chc臋 przeanalizowa膰. Pr贸buj臋 algorytmu filtrowania przy u偶yciu klastra 3 w臋z艂贸w (4 vCores...
spyta艂 8 miesi臋cy temu
0 g艂os贸w
0 odpowiedzi
Nie otrzymuj臋 wiadomo艣ci za pomoc膮 programu strumieniowego Spark
Mam jedn膮 instancj臋 kafki uruchomion膮 na wiadomo艣ciach publikuj膮cych klaster do tematu. Kiedy uruchamiam polecenie ./bin/kafka-console-consum...
1 g艂os贸w
0 odpowiedzi
spark sql nie rozpozna艂 kolumn partycji ula
Mam tabel臋 partycjonowan膮 event_fact. Kolumny partycji to dt, type. Nast臋pnie tworz臋 widok na g贸rze tej tabeli. create view event_fact_view as...
spyta艂 8 miesi臋cy temu
0 g艂os贸w
1 odpowiedzi
Spark, jak wydrukowa膰 zapytanie?
U偶ywam pyspark df = self.sqlContext.read.option( "es.resource", indexes ).format("org.elasticsearch.spark.sql").load() d...
spyta艂 8 miesi臋cy temu
-1 g艂os贸w
0 odpowiedzi
Jak radzi膰 sobie z du偶膮 liczb膮 zlicze艅 wyra藕nych w iskrowym 艣wietle
U偶ywam Spark 2.2.2. Mam tabel臋 t1 z kolumn膮 c0, c1, c2, c3 ... cn. I SQL jak: Select c0, count(distinct if(condition(c1_1),c0,null))...
spyta艂 8 miesi臋cy temu
0 g艂os贸w
1 odpowiedzi
Niepowodzenie pracy bez dalszych szczeg贸艂贸w. U偶y艂em prostego rdd.map, konwertuj na DF i poka偶 ()
Jestem super pocz膮tkuj膮cym z pyspark. Po prostu pr贸buj臋 kodu do przetwarzania moich dokument贸w w spo艂eczno艣ci Databricks. Mam wiele stron HTML w...
spyta艂 8 miesi臋cy temu
0 g艂os贸w
0 odpowiedzi
Dlaczego okre艣lona pami臋膰 master nie odpowiada 偶膮danej pami臋ci w skrypcie slurm?
U偶ywam nast臋puj膮cego skryptu slurm do uruchomienia iskry 2.3.0. #!/bin/bash #SBATCH --account=def-hmcheick #SBATCH --nodes=2 #SBATCH --time=00...
spyta艂 8 miesi臋cy temu
1 g艂os贸w
1 odpowiedzi
Jak reprezentowa膰 warto艣ci null w zestawach danych sk艂adaj膮cych si臋 z listy klas przypadk贸w
Mam klas臋 spraw final case class FieldStateData( job_id: String = null,...
spyta艂 8 miesi臋cy temu
-2 g艂os贸w
1 odpowiedzi
Pasuj膮ce warto艣ci kolumny w ramce danych
Mam ramk臋 danych, kt贸ra wygl膮da tak: Market Price date outtime intime ttype ATLJFKJFKATL 150 20190403 0215 0600 2...
spyta艂 8 miesi臋cy temu
0 g艂os贸w
2 odpowiedzi
Metoda stosowania obiektu Scala nigdy nie zosta艂a wywo艂ana w Spark Job
Pr贸buj臋 oddzieli膰 moj膮 logik臋 w aplikacji iskra . Stworzy艂em oddzieln膮 klas臋 dla definicji UDF i deklaracji UDF : Deklaracja UDF: imp...
1 g艂os贸w
1 odpowiedzi
Pyspark: Jak radzi膰 sobie z warto艣ciami null w funkcjach zdefiniowanych przez u偶ytkownika Pythona
Chc臋 u偶y膰 niekt贸rych funkcji podobie艅stwa 艂a艅cuch贸w, kt贸re nie s膮 rodzime dla pyspark, takich jak miary jaro i jaro-winkler na ramkach danych. S...
1 g艂os贸w
0 odpowiedzi
Czy zgubi艂em pilniki do parkietu? Dlaczego part- <numer_pliku> przyrostowy?
Mam du偶e zadanie (dane), zapisa艂em dane wyj艣ciowe do hdfs. Dane wyj艣ciowe pliku parkietu nie s膮 przyrostowe. Klaster p贸藕niej (jak s膮dz臋) straci艂...
spyta艂 8 miesi臋cy temu
1 g艂os贸w
1 odpowiedzi
Dwie DataFrame zagnie偶d偶one dla ka偶dej p臋tli
foreach Zagnie偶d偶ona iteracja p臋tli DataFrams zg艂asza wyj膮tek NullPointerException: def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame):...
spyta艂 8 miesi臋cy temu
-2 g艂os贸w
1 odpowiedzi
Jak podzieli膰 ci膮g znak贸w na wszystkie pola w kolumnie Spark i pobra膰 d艂ugo艣膰 zwr贸conej listy rozdzielonych 艂a艅cuch贸w?
Aktualnie pr贸buj臋 pobra膰 ilo艣膰 us艂ug, kt贸re dzia艂a w okre艣lonym IP, a us艂ugi s膮 w kolumnie service, zapisane jako StringType() w ramce Spark Dat...
spyta艂 8 miesi臋cy temu