Помеченные вопросы [apache-spark]

1 голосов
1 ответы
Есть ли способ добавить несколько столбцов в фрейм данных, рассчитанный на основе скользящих средних из разных столбцов и / или за разную продолжительность
У меня есть фрейм данных с данными временных рядов, и я пытаюсь добавить в него множество столбцов скользящих средних с разными окнами разных ди...
спросил 1 месяц назад
1 голосов
1 ответы
Как я могу оптимизировать вывод схемы на удаленный файл для CSV с Spark
У меня есть удаленный файл в S3 (или другой), и мне нужна схема файла. Я не нашел опцию для выборки данных, как для JSON (e.g. read.option("samp...
спросил 1 месяц назад
-1 голосов
1 ответы
Парное сравнение элементов DataFrame
Как выполнить попарно итерацию столбцов, чтобы найти сходства. Для всех элементов из всех столбцов одного фрейма данных, для сравнения со в...
спросил 1 месяц назад
-2 голосов
1 ответы
Сортировка больших наборов данных по любому столбцу / атрибуту
У меня есть база данных MySQL с ~ 20M записями (и растущими), распределенными в некоторых таблицах. В моей системе есть функция, где эта информа...
спросил 1 месяц назад
0 голосов
0 ответы
Как два используют spark.sql выбрать две таблицы на основе столбцов в каждой строке
По сути, у меня есть две таблицы, схемы приведены ниже: root |-- machine_id: string (nullable = true) |-- time_stamp: double (nullable = tru...
спросил 1 месяц назад
2 голосов
1 ответы
Как я могу обновить Apache Hive до версии 3 на GCP Apache Spark Dataproc Cluster
По той или иной причине я хочу обновить версию Apache Hive с 2.3.4 до 3 в Google Cloud Dataproc (1.4.3) Spark Cluster. Как я могу обновить верси...
спросил 1 месяц назад
-1 голосов
0 ответы
как обновить свойства узла с помощью neo4j-spark-connector
Я могу создать узел с помощью neo4j-spark-connector: val rows = sc.makeRDD(Seq(Row("Laurence", "Fishburne"))) val schema = StructType(Seq(...
спросил 1 месяц назад
2 голосов
2 ответы
Выборочная сортировка в Spark с использованием Java / scala API
У меня есть следующие данные: - +-------------+ | card type| +-------------+ |ColonialVoice| | SuperiorCard| | Vista| | Distinguish...
спросил 1 месяц назад
-1 голосов
0 ответы
Sparklyr Разделить столбец на отдельные строки
У меня проблема со свечными столами. Моя таблица есть; # Source: spark<?> [?? x 4] AssetConnectDeviceKey CreateDate Fault...
спросил 1 месяц назад
0 голосов
0 ответы
Ошибка «Попытка задания 0 уже зарегистрирована» с помощью RDD от Kafka Consumer в Spark-Streaming
Приложение работает на IntelliJ с локальным режимом Spark. В цикле, когда тема Consumer from Kafka от Spark-Streaming: if ((_rdd != null) &...
спросил 1 месяц назад
1 голосов
1 ответы
Как обновить фрейм данных Spark на основе столбца из другого фрейма данных со многими записями в Scala?
Я работаю с фреймами данных Spark и хочу обновить столбец column_to_be_updated в таблице кустов с помощью spark-sql в Scala. Мой код до сих п...
спросил 1 месяц назад
-1 голосов
0 ответы
Какова была бы правильная настройка конфигурации свечи, если бы мне пришлось обрабатывать 500 МБ файла gz?
Я новичок в работе, и у меня есть файл размером 500 Мб .gz, который я хочу проанализировать. Я пытаюсь алгоритм фильтрации с использованием 3 уз...
спросил 1 месяц назад
0 голосов
0 ответы
Не получать сообщения с помощью потоковой программы Spark
У меня работает один экземпляр kafka на кластере, публикующий сообщения в теме. Когда я запускаю команду ./bin/kafka-console-consumer.sh --bo...
1 голосов
0 ответы
Спарк SQL не удалось распознать столбцы раздела куста
У меня есть секционированная таблица event_fact. Столбцы секционирования - dt, type. И затем я создаю представление поверх этой таблицы. creat...
спросил 1 месяц назад
0 голосов
1 ответы
Спарк, как распечатать запрос?
Я использую pyspark df = self.sqlContext.read.option( "es.resource", indexes ).format("org.elasticsearch.spark.sql").load()...
спросил 1 месяц назад
-1 голосов
0 ответы
Как обрабатывать большое количество различных в искровой SQL
Я использую Spark 2.2.2. У меня есть таблица t1 со столбцами c0, c1, c2, c3 ... cn. И SQL вроде: Select c0, count(distinct if(conditi...
спросил 1 месяц назад
0 голосов
1 ответы
Сбой работы без подробностей. Я использовал простой rdd.map, преобразовал в DF и показал ()
Я супер начинающий с pyspark. Просто пробую код для обработки моих документов в Сообществе Databricks. У меня много html-страниц в Dataframe, и...
спросил 1 месяц назад
0 голосов
0 ответы
Почему указанная мастером память не соответствует запрашиваемой в скрипте slurm?
Я использую следующий скрипт slurm для запуска spark 2.3.0. #!/bin/bash #SBATCH --account=def-hmcheick #SBATCH --nodes=2 #SBATCH --time=00:10:...
спросил 1 месяц назад
1 голосов
1 ответы
Как представить нули в DataSets, состоящие из списка классов дел
У меня есть класс дел final case class FieldStateData( job_id: String = null,...
спросил 1 месяц назад
-2 голосов
1 ответы
Соответствующие значения столбца внутри фрейма данных
У меня есть датафрейм, который выглядит следующим образом: Market Price date outtime intime ttype ATLJFKJFKATL 150 201904...
спросил 1 месяц назад
0 голосов
2 ответы
Scala объект применяет метод, никогда не вызываемый в Spark Job
Я пытаюсь отделить свою логику в приложении spark . Я создал отдельный класс для определений UDF и объявлений UDF : Декларация UDF: i...
спросил 1 месяц назад
1 голосов
1 ответы
Pyspark: как работать с нулевыми значениями в пользовательских функциях Python
Я хочу использовать некоторые функции схожести строк, которые не являются родными для pyspark, такие как меры jaro и jaro-winkler на фреймах дан...
спросил 1 месяц назад
1 голосов
0 ответы
Я потерял паркетные файлы? Почему часть <номер файла> не является инкрементной?
У меня большая работа (с данными), я записал вывод в hdfs. Вывод файла паркета не является инкрементным. Кластер позже (я думаю) потерял исполни...
спросил 1 месяц назад
1 голосов
1 ответы
Два DataFrame для каждого цикла
foreach Вложенная в цикл итерация DataFrams создает исключение NullPointerException: def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame)...
спросил 1 месяц назад
-2 голосов
1 ответы
Как разделить строку для всех полей в столбце Spark и получить длину возвращенного списка разделенных строк?
В настоящее время я пытаюсь получить количество служб, запущенных конкретным IP, и службы находятся в столбце service, хранятся в виде StringTyp...
спросил 1 месяц назад