أسئلة الموسومة [apache-spark]

1 الأصوات
1 ردود
هل هناك طريقة لإضافة أعمدة متعددة إلى إطار بيانات محسوب من متوسطات متحركة من أعمدة مختلفة و / أو على مدار فترات مختلفة
لديّ إطار بيانات يحتوي على بيانات السلاسل الزمنية وأحاول إضافة الكثير من الأعمدة المتوسطة المتحركة إليها بنوافذ مختلفة من نطاقات مختلفة. عندما أ...
طلبت منذ أشهر 8
1 الأصوات
1 ردود
كيف يمكنني تحسين استنتاج المخطط على ملف بعيد لـ CSV باستخدام Spark
لدي ملف بعيد في S3 (أو غيره) وأحتاج إلى مخطط الملف. لم أجد خيارًا لأخذ عينات من البيانات كما في JSON (e.g. read.option("samplingRation", 0.25))....
طلبت منذ أشهر 8
-1 الأصوات
1 ردود
ربط المقارنة الحكيمة بعناصر DataFrame
كيفية إجراء أعمدة تكرار الزوجية للعثور على أوجه التشابه. بالنسبة لجميع العناصر من جميع Colunms لإطار بيانات واحد ، لمقارنتها بجميع العناصر...
طلبت منذ أشهر 8
-2 الأصوات
1 ردود
فرز مجموعات البيانات الكبيرة حسب أي عمود / سمة
لديّ قاعدة بيانات MySQL تحتوي على حوالي 20 مليون إدخالات (ومتنامية) موزعة في بعض الجداول. يحتوي نظامي على ميزة حيث يتم عرض هذه المعلومات في الصف...
طلبت منذ أشهر 8
0 الأصوات
0 ردود
كيف اثنين من استخدام spark.sql تحديد جدولين على أساس الأعمدة في كل صف
بشكل أساسي ، لدي جدولان ، المخططات الموضحة أدناه: root |-- machine_id: string (nullable = true) |-- time_stamp: double (nullable = true) sc...
طلبت منذ أشهر 8
2 الأصوات
1 ردود
كيف يمكنني ترقية Apache Hive إلى الإصدار 3 على GCP Apache Spark Dataproc Cluster
لسبب أو لآخر ، أريد ترقية إصدار Apache Hive من 2.3.4 إلى 3 على Google Cloud Dataproc (1.4.3) Spark Cluster. كيف يمكنني ترقية إصدار Hive مع الحفا...
طلبت منذ أشهر 8
-1 الأصوات
0 ردود
كيفية تحديث خصائص العقدة بواسطة neo4j-spark-connector
يمكنني إنشاء عقدة بواسطة neo4j-spark-connector: val rows = sc.makeRDD(Seq(Row("Laurence", "Fishburne"))) val schema = StructType(Seq(Struc...
طلبت منذ أشهر 8
2 الأصوات
2 ردود
فرز مخصص في Spark باستخدام Java / scala API
لدي البيانات التالية: - +-------------+ | card type| +-------------+ |ColonialVoice| | SuperiorCard| | Vista| | Distinguish| +-----...
طلبت منذ أشهر 8
-1 الأصوات
0 ردود
سباركليير سبليت العمود إلى صفوف منفصلة
أواجه مشكلة مع جداول الشرارة. طاولتي هي ؛ # Source: spark<?> [?? x 4] AssetConnectDeviceKey CreateDate FaultStatus Data...
طلبت منذ أشهر 8
0 الأصوات
0 ردود
خطأ "تم تسجيل بالفعل محاولة المهمة 0" مع RDD من Kafka Consumer في Spark-Streaming
تطبيق يعمل على IntelliJ مع وضع Spark المحلي. في الحلقة عند موضوع "المستهلك من كافكا" بواسطة Spark-Streaming: if ((_rdd != null) &&...
طلبت منذ أشهر 8
1 الأصوات
1 ردود
كيفية تحديث Spark dataframe بناءً على العمود من dataframe الأخرى مع العديد من الإدخالات في Scala؟
أنا أعمل مع مخططات بيانات Spark وأريد تحديث عمود column_to_be_updated في جدول خلايا باستخدام spark-sql في Scala. تعمل الشفرة الخاصة بي حتى ال...
طلبت منذ أشهر 8
-1 الأصوات
0 ردود
ما هو الإعداد الصحيح لتهيئة الشرارة ، إذا كنت سأقوم بمعالجة 500 ميغابايت من ملف gz؟
أنا مبتدئ في الشرارة ولدي ملف 500 ميغابايت. أريد أن أحلله. أحاول خوارزمية عامل تصفية باستخدام كتلة عقدة 3 (4 vCores و 16GB ذاكرة لكل عقدة). ع...
طلبت منذ أشهر 8
0 الأصوات
0 ردود
عدم تلقي الرسائل باستخدام برنامج Spark للبث
لدي مثيل kafka واحد يعمل على نشر رسائل الكتلة للموضوع. عندما أقوم بتشغيل الأمر و+./bin/kafka-console-consumer.sh --bootstrap-server kafka-bro...
1 الأصوات
0 ردود
شرارة sql فشلت في التعرف على أعمدة التقسيم خلية
لدي جدول مقسم event_fact. أعمدة القسم هي dt, type. ثم أقوم بإنشاء طريقة عرض أعلى هذا الجدول. create view event_fact_view as select dt, type,...
طلبت منذ أشهر 8
0 الأصوات
1 ردود
شرارة ، وكيفية طباعة الاستعلام؟
أنا أستخدم pyspark df = self.sqlContext.read.option( "es.resource", indexes ).format("org.elasticsearch.spark.sql").load()...
طلبت منذ أشهر 8
-1 الأصوات
0 ردود
كيفية التعامل مع عدد كبير من العد متميزة في شرارة sql
أنا أستخدم Spark 2.2.2. لدي جدول t1 مع العمود c0 ، c1 ، c2 ، c3 ... cn. ومثل SQL: Select c0, count(distinct if(condition(c1_1),c0,nul...
طلبت منذ أشهر 8
0 الأصوات
1 ردود
فشل الوظيفة مع عدم وجود مزيد من التفاصيل. لقد استخدمت rdd.map البسيط ، وقم بالتحويل إلى DF وعرض
أنا متسول للغاية مع pyspark. مجرد محاولة بعض التعليمات البرمجية لمعالجة المستندات في Databricks Community. لدي الكثير من صفحات HTML في Dataframe...
طلبت منذ أشهر 8
0 الأصوات
0 ردود
لماذا لا تتوافق الذاكرة المحددة الرئيسية مع الذاكرة المطلوبة المكتوبة بخط اليد؟
أنا أستخدم النص التعريفي التالي لتشغيل الشرارة 2.3.0. #!/bin/bash #SBATCH --account=def-hmcheick #SBATCH --nodes=2 #SBATCH --time=00:10:00 #SB...
طلبت منذ أشهر 8
1 الأصوات
1 ردود
كيفية تمثيل القيم الخالية في DataSets التي تتكون من قائمة فئات الحالة
لدي فئة حالة final case class FieldStateData( job_id: String = null, j...
طلبت منذ أشهر 8
-2 الأصوات
1 ردود
مطابقة قيم العمود داخل إطار البيانات
لديّ إطار بيانات يشبه هذا: Market Price date outtime intime ttype ATLJFKJFKATL 150 20190403 0215 0600 2 ATLJFK...
طلبت منذ أشهر 8
0 الأصوات
2 ردود
تطبيق كائن Scala لم يُطلق عليه مطلقًا اسم Spark Job
أحاول فصل منطقي في تطبيق spark . لقد أنشأت فئة منفصلة لـ تعريفات UDF و إعلانات UDF : إعلان UDF: import OPXUdfDefinitions._ object OP...
1 الأصوات
1 ردود
Pyspark: كيفية التعامل مع القيم الخالية في وظائف المستخدم بيثون
أريد استخدام بعض وظائف تشابه السلسلة غير الأصلية في pyspark مثل تدابير jaro و jaro-winkler على مخططات البيانات. هذه متاحة بسهولة في وحدات بيثون...
1 الأصوات
0 ردود
هل فقدت ملفات الباركيه؟ لماذا ليس جزء - <ملف - رقم> تزايدي؟
لدي وظيفة (بيانات) كبيرة ، وكتب الإخراج إلى hdfs. إخراج ملف الباركيه ليس تدريجيا. فقدت المجموعة لاحقًا (على ما أظن) أحد المنفذين ، وفشلت في المه...
طلبت منذ أشهر 8
1 الأصوات
1 ردود
DataFrame اثنين المتداخلة لكل حلقة
foreach تكرار حلقة متداخلة من DataFrams يلقي NullPointerException: def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame): Unit = {...
طلبت منذ أشهر 8
-2 الأصوات
1 ردود
كيفية تقسيم السلسلة لجميع الحقول في عمود Spark والاستيلاء على طول قائمة سلسلة الانقسام التي تم إرجاعها؟
أحاول حاليًا الحصول على مقدار الخدمات التي يعمل بها عنوان IP معين ، والخدمات في عمود service ، يتم تخزينه على أنه StringType() في Spark DataFram...
طلبت منذ أشهر 8