标记的问题 [apache-spark]

15
4 回复
为什么SparkContext随机关闭,你如何从Zeppelin重启它?
我在Zeppelin工作,编写spark-sql查询,有时我突然开始收到此错误(在不更改代码后):  Cannot call methods on a stopped SparkContext. 然后输出进一...
52
7 回复
Spark Dataframe区分具有重复名称的列
正如我在Spark Dataframe中所知,多列的名称可以与下面的数据帧快照中显示的名称相同:  [ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3:...
30
3 回复
Scala,Spark中==和===之间的区别
我来自Java背景,是Scala的新手。 我正在使用Scala和Spark。但是我无法理解我在哪里使用==和===。 有谁能让我知道在哪种情况下我需要使用这两个操作符,=...
问 1年前
6
2 回复
Scala Spark:拆分成几个RDD?
是否有任何Spark函数允许根据某些creteria将集合拆分为多个RDD?这样的功能可以避免过度的迭代。例如:  def main(args: Array[String]) { val logFil...
问 5年前
15
2 回复
如何使用Apache Spark计算精确中位数?
page 包含一些统计函数(mean,stdev,variance等),但它不包含中位数。我怎样才能计算出精确的中位数? 由于      15 2个答案                   ...
31
3 回复
Apache Spark:按键将RDD分成多个RDD以保存值
我使用Spark 1.0.1处理大量数据。每行包含一个ID号,一些包含重复的ID。我想在同一位置保存具有相同ID号的所有行,但我无法有效地执行此操作。我创建了一个...
问 3年前
17
4 回复
SPARK SQL - 使用DataFrames和JDBC更新MySql表
我正在尝试使用Spark SQL DataFrames和JDBC连接在MySql上插入和更新一些数据。 我已成功使用SaveMode.Append插入新数据。有没有办法从Spark SQL更新MySql...
82
9 回复
使用spark-csv编写单个CSV文件
我正在使用 https://github.com/databricks/spark-csv ,我我正在尝试编写单个CSV,但却无法编写文件夹。 需要一个Scala函数,它将获取路径和文件名等参数...
31
2 回复
build.sbt:如何添加spark依赖项
您好我正在尝试下载build.sbt文件中的spark-core,spark-streaming,twitter4j和spark-streaming-twitter:  name := "hello" version := "1.0" scalaVers...
45
10 回复
如何从Apache Spark访问s3a://文件?
Hadoop 2.6不支持开箱即用的s3a,所以我尝试了一系列解决方案和修复,包括: 使用hadoop-aws和aws-java-sdk =>进行部署无法读取凭据的环境变量 将had...
13
2 回复
如何反转RDD.takeOrdered()的排序?
在Spark中反转RDD的takeOrdered()方法的顺序的语法是什么? 对于奖励积分,Spark中RDD的自定义排序语法是什么?      13 2个答案                  ...
问 4年前
26
2 回复
PySpark序列化EOFError
我正在使用CSV作为Spark DataFrame阅读并在其上执行机器学习操作。我一直在获取Python序列化EOFError - 任何想法为什么?我认为这可能是一个内存问题 - 即...
37
1 回复
如何使用scala将postgreSQL数据库连接到Apache Spark?
我想知道如何在scala中执行以下操作? 使用Spark scala连接到postgreSQL数据库。 编写SELECT,UPDATE等SQL查询来修改表格 那个数据库。 我知道使用scala...
问 5年前
41
1 回复
Spark集群上“Locality Level”的含义是什么?
标题“地点级别”和5状态数据的含义是什么 本地 - >过程本地 - > node local - > rack local - >任何?      41 1答案           ...
86
10 回复
如何在Windows上设置Spark?
我正在尝试在Windows上设置Apache Spark。 搜索了一下后,我明白独立模式就是我想要的。 我要下载哪些二进制文件才能在Windows中运行Apache spark?我在火...
问 3年前
20
1 回复
将“SPARK_HOME”设置为什么?
安装了apache-maven-3.3.3,scala 2.11.6,然后运行:  $ git clone git://github.com/apache/spark.git -b branch-1.4 $ cd spark $ build/mvn -DskipTes...
26
2 回复
Spark:如何在Dataframe API中翻译count(distinct(value))
我正在尝试比较汇总数据的不同方法。 这是我的输入数据,包含2个元素(页面,访问者):  (PAG1,V1) (PAG1,V1) (PAG2,V1) (PAG2,V2) (PAG2,V1) (PAG1,V1)...
15
1 回复
如何访问Spark DataFrame中VectorUDT列的元素?
我有一个数据帧df,其中VectorUDT列名为features。如何获取列的元素,比如第一个元素? 我尝试过以下  from pyspark.sql.functions import udf first_el...
11
6 回复
使用spark-csv在zeppelin中读取csv文件
我想在Zeppelin中阅读csv文件并想使用数据库' spark-csv包: https://github.com/databricks/spark-csv 在spark-shell中,我可以使用spark-csv和  spar...
206
13 回复
Spark中的DataFrame,Dataset和RDD之间的区别
我只是想知道Apache Spark中的RDD和DataFrame (Spark 2.0.0 DataFrame只是Dataset[Row]的类型别名)之间的区别是什么? 你能把一个转换成另一个吗?    ...
38
4 回复
在scala中导入spark.implicits._
我正在尝试导入spark.implicits._ 显然,这是scala中类中的一个对象。 当我用这样的方法导入它时:  def f() = { val spark = SparkSession().... imp...
问 3年前
24
3 回复
在Scala Spark中找不到reduceByKey方法
尝试运行 http:来自源代码的//spark.apache.org/docs/latest/quick-start.html#a-standalone-app-in-scala 。 这一行:  val wordCounts = textFile.fla...
问 2年前
24
1 回复
定义一个接受Spark DataFrame中的对象数组的UDF?
使用Spark的DataFrame时,需要使用用户定义函数(UDF)来映射列中的数据。 UDF要求显式指定参数类型。在我的情况下,我需要操作由对象数组组成的列,我不知...
43
7 回复
根据RDD / Spark DataFrame中的特定列从行中删除重复项
假设我有一个相当大的数据集,如下所示:  data = sc.parallelize([('Foo',41,'US',3), ('Foo',39,'UK',1),...
42
9 回复
如何从spark数据帧中过滤掉null值
我使用以下架构在spark中创建了一个数据框:  root |-- user_id: long (nullable = false) |-- event_id: long (nullable = false) |-- invited: integ...