Câu hỏi được gắn thẻ [apache-spark]

1 phiếu bầu
1 trả lời
Có cách nào để thêm nhiều cột vào khung dữ liệu được tính từ di chuyển trung bình từ các cột khác nhau và / hoặc trong khoảng thời gian khác nhau
Tôi có một khung dữ liệu với dữ liệu chuỗi thời gian và tôi đang cố gắng thêm nhiều cột trung bình di chuyển vào đó với các cửa sổ khác nhau thu...
yêu cầu 8 tháng trước
1 phiếu bầu
1 trả lời
làm cách nào để tối ưu hóa suy luận lược đồ trên một tệp từ xa cho CSV bằng Spark
Tôi có một tệp từ xa trong S3 (hoặc loại khác) và tôi cần lược đồ của tệp. Tôi không tìm thấy tùy chọn để lấy mẫu dữ liệu như đối với JSON (e.g....
yêu cầu 8 tháng trước
-1 phiếu bầu
1 trả lời
Ghép nối so sánh khôn ngoan trên các yếu tố DataFrame
Cách thực hiện các cột lặp theo cặp để tìm điểm tương đồng. Đối với tất cả các Elemets từ tất cả các Colunms của một khung dữ liệu, được so...
yêu cầu 8 tháng trước
-2 phiếu bầu
1 trả lời
Sắp xếp bộ dữ liệu lớn theo bất kỳ cột / thuộc tính nào
Tôi có cơ sở dữ liệu MySQL với ~ 20 triệu mục (và đang phát triển) được phân phối trong một số bảng. Hệ thống của tôi có một tính năng trong đó...
yêu cầu 8 tháng trước
0 phiếu bầu
0 trả lời
Cách hai người sử dụng spark.sql chọn hai bảng dựa trên các cột trên mỗi hàng
Về cơ bản, tôi có hai bảng, lược đồ được đưa ra dưới đây: root |-- machine_id: string (nullable = true) |-- time_stamp: double (nullable = t...
yêu cầu 8 tháng trước
2 phiếu bầu
1 trả lời
Làm cách nào tôi có thể nâng cấp Apache Hive lên phiên bản 3 trên GCP Apache Spark Dataproc Cluster
Vì lý do này hay lý do khác, tôi muốn nâng cấp phiên bản Apache Hive từ 2.3.4 lên 3 trên Google Cluster Dataproc (1.4.3) Spark Cluster. Làm cách...
yêu cầu 8 tháng trước
-1 phiếu bầu
0 trả lời
Làm thế nào để cập nhật các thuộc tính nút bằng neo4j-spark-Connector
Tôi có thể tạo một nút bằng neo4j-spark-Connector: val rows = sc.makeRDD(Seq(Row("Laurence", "Fishburne"))) val schema = StructType(Seq(St...
yêu cầu 8 tháng trước
2 phiếu bầu
2 trả lời
Sắp xếp tùy chỉnh trong Spark bằng API Java / scala
Tôi có dữ liệu sau: - +-------------+ | card type| +-------------+ |ColonialVoice| | SuperiorCard| | Vista| | Distinguish| +-------...
yêu cầu 8 tháng trước
-1 phiếu bầu
0 trả lời
Sparklyr Chia cột thành các hàng riêng biệt
Tôi gặp sự cố với bảng tia lửa. Bảng của tôi là; # Source: spark<?> [?? x 4] AssetConnectDeviceKey CreateDate FaultStatus...
yêu cầu 8 tháng trước
0 phiếu bầu
0 trả lời
Lỗi Lỗi Nhiệm vụ 0 đã được đăng ký, với RDD từ Kafka Consumer trong Spark-Streaming
Ứng dụng chạy trên IntelliJ với chế độ cục bộ Spark. Trong vòng lặp khi Người tiêu dùng từ chủ đề Kafka của Spark-Streaming: if ((_rdd != n...
yêu cầu 8 tháng trước
1 phiếu bầu
1 trả lời
Làm cách nào để cập nhật khung dữ liệu Spark dựa trên Cột từ khung dữ liệu khác với nhiều mục trong Scala?
Tôi đang làm việc với Spark dataframes và muốn cập nhật cột column_to_be_updated trong bảng tổ ong sử dụng spark-sql trong Scala. Mã của tôi...
yêu cầu 8 tháng trước
-1 phiếu bầu
0 trả lời
Điều gì sẽ là cài đặt cấu hình tia lửa phù hợp, nếu tôi xử lý 500 MB tệp gz?
Tôi là người mới sử dụng và tôi có tệp 500 mb .gz mà tôi muốn phân tích. Tôi đang thử một thuật toán lọc sử dụng cụm 3 nút (4 vCores và bộ nhớ 1...
yêu cầu 8 tháng trước
0 phiếu bầu
0 trả lời
Không nhận được tin nhắn bằng chương trình phát trực tuyến Spark
Tôi có một phiên bản kafka đang chạy trên các thông báo xuất bản cụm đến chủ đề. Khi tôi kích hoạt lệnh ./bin/kafka-console-consumer.sh --boo...
0 phiếu bầu
1 trả lời
Spark, làm thế nào để in truy vấn?
Tôi đang sử dụng pyspark df = self.sqlContext.read.option( "es.resource", indexes ).format("org.elasticsearch.spark.sql").load...
yêu cầu 8 tháng trước
-1 phiếu bầu
0 trả lời
Làm thế nào để xử lý số lượng lớn số lượng khác biệt trong spark sql
Tôi đang sử dụng Spark 2.2.2. Tôi có một bảng t1 với cột c0, c1, c2, c3 ... cn. Và SQL như: Select c0, count(distinct if(condition(c1...
yêu cầu 8 tháng trước
0 phiếu bầu
1 trả lời
Thất bại trong công việc không có thêm chi tiết. Tôi đã sử dụng một rdd.map đơn giản, chuyển đổi sang DF và hiển thị ()
Tôi là siêu người mới bắt đầu với pyspark. Chỉ cần thử một số mã để xử lý tài liệu của tôi trong Cộng đồng Databricks. Tôi có rất nhiều trang ht...
yêu cầu 8 tháng trước
0 phiếu bầu
0 trả lời
Tại sao bộ nhớ được chỉ định chính không tương ứng với bộ nhớ được yêu cầu trong tập lệnh slurm?
Tôi đang sử dụng tập lệnh slurm sau để chạy spark 2.3.0. #!/bin/bash #SBATCH --account=def-hmcheick #SBATCH --nodes=2 #SBATCH --time=00:10:00...
yêu cầu 8 tháng trước
1 phiếu bầu
1 trả lời
Cách biểu diễn null trong DataSets bao gồm danh sách các lớp tình huống
Tôi có một lớp trường hợp final case class FieldStateData( job_id: String = null,...
yêu cầu 8 tháng trước
-2 phiếu bầu
1 trả lời
Khớp các giá trị của cột trong khung dữ liệu
Tôi có một khung dữ liệu trông như thế này: Market Price date outtime intime ttype ATLJFKJFKATL 150 20190403 0215 06...
yêu cầu 8 tháng trước
0 phiếu bầu
2 trả lời
Đối tượng Scala áp dụng phương thức không bao giờ được gọi trong Spark Job
Tôi đang cố gắng tách rời logic của mình trong ứng dụng spark . Tôi đã tạo lớp riêng biệt cho định nghĩa UDF và Khai báo UDF : Tuyên bố...
1 phiếu bầu
1 trả lời
Pyspark: Cách xử lý các giá trị null trong các hàm do người dùng python xác định
Tôi muốn sử dụng một số hàm tương tự chuỗi không có nguồn gốc từ pyspark, chẳng hạn như các biện pháp jaro và jaro-winkler trên dataframes. Chún...
yêu cầu 8 tháng trước
1 phiếu bầu
0 trả lời
Tôi đã mất tập tin sàn gỗ? Tại sao không tăng phần- <số tập tin>?
Tôi có một công việc (dữ liệu) lớn, đã viết đầu ra thành hdfs. Đầu ra tập tin sàn gỗ không tăng. Cụm sau này (tôi nghĩ) đã mất một người thi hàn...
yêu cầu 8 tháng trước
1 phiếu bầu
1 trả lời
Hai DataFrame lồng nhau cho mỗi vòng lặp
Vòng lặp foreach Vòng lặp lồng nhau của DataFrams ném một NullPulumException: def nestedDataFrame(leftDF: DataFrame, riteDF: DataFrame): Unit...
yêu cầu 8 tháng trước
-2 phiếu bầu
1 trả lời
Làm cách nào để tách chuỗi cho tất cả các trường trong cột Spark và lấy độ dài của danh sách chuỗi tách được trả về?
Tôi hiện đang cố lấy số lượng dịch vụ mà một IP cụ thể đang chạy và các dịch vụ nằm trong cột service, được lưu trữ dưới dạng StringType() trong...
yêu cầu 8 tháng trước