标签[apache-spark]

0
1回复
15

如何在Pyspark RDD中逐行遍历每个项目并将其转换为键? 使用地图功能?

所以,首先我有一些像这样的输入: A:<phone1,phone2>,<location1>,&l
0
2回复
41

Spark:将JSON字符串拆分为单独的数据框列

我将下面的JSON字符串加载到dataframe列中。 { "title": { "titleid
0
1回复
14

找不到Blazor CSS

当我在本地主机上执行Blazor应用程序时,一切都很好。 当我将编译后的代码上传到最终服务器时,该应用程序可以运行,但是所有
0
1回复
11

AWS EMR步骤找不到从s3导入的jar

我试图在客户端模式下在aws emr上运行spark应用程序。 我已经设置了一个引导操作,以从s3导入所需的文件和jar,并
0
1回复
28

Spark:为JSON字符串生成JSON模式

我正在使用Spark 2.4.3和Scala 2.11 以下是我在DataFrame列中当前的JSON字符串。 我试
0
1回复
15

将熊猫数据框奇怪地转换为具有已定义模式的火花数据框

我面临以下问题,但尚未获得答案:当将具有整数的pandas数据框转换为具有数据假设为字符串的架构的pyspark数据框时,值将
0
1回复
18

如何从火花到弹性搜索将较长的纪元列加载为时间格式?

我有一长数据类型的列(finishedTime),其以毫秒为单位的时间。 我正在尝试将此列作为时间格式数据类型加载到弹性搜索
0
1回复
11

如何透视Pyspark流数据框架

我在pyspark结构化流中接收流数据,我需要对其进行透视,以便可以从该数据中获得一行。 进入我的集群的数据结构是:
0
1回复
31

哪种模式将有助于将这种json类型解析为Scala中的Spark SQL?

我对将data属性值作为行进行访问感兴趣,该行中的每个项目都将值分配给该问题底部示例中提到的对应列名。 { "meta"
0
1回复
16

在Spark中读取具有不同类型的父/子行的CSV

我将在下面的示例中进行解释。 | Row No | Col0(Type) | Col1 | Col2
0
1回复
17

如何将数据帧拆分为不同的df,并需要保存在不同的文件中?

var df = sparkSession.read .option("delimiter", delimiter)
0
1回复
17

属性文件中有关num.partitions的行为

我发现num.partitions的值是创建自动主题时整个kafka群集上的分区号。 我在自己的机器上通过自己的ser
0
1回复
28

将xml文件加载到pyspark

我是新来的火花。 我想将xml文件加载到dataframe中。 我正在使用木星笔记本来运行python代码。 当我
0
1回复
16

如何创建Pyspark应用程序

我的要求是使用pyspark从HDFS读取数据,仅过滤所需的列,删除NULL值,然后将处理后的数据写回到HDFS。 这些步骤
0
3回复
40

Spark / RDBMS查询可根据不同的列匹配从单行创建多行

我有一张桌子,看起来像- |--|----|------|------| |id|name|phone1|phone2|
0
1回复
17

如何强制删除Kafka主题?

我们有一个主题,即使发出kafka-topics'delete'命令,它也不会消失。 它只是说“ TOPIC.ABC-标记为
0
1回复
9

Spring-Kafka中死信处理程序的KafkaTemplate

我需要为DeadLetterPublishingRecoverer使用单独的KafkaTemplate吗? 我有一个用
0
2回复
39

Pyspark木地板与结构列

我想将一个嵌套对象(“结构”)添加到pySpark数据框中,并将其写出到镶木地板中。 我想重新创建以下内容(当前使用Scal
0
1回复
27

如果EMR中的总群集资源内存少于从AWS S3读取的数据集,Spark如何读取和处理AWS EMR中的数据

假设我有一个带有1个主节点实例,5个核心节点实例和Task节点的AWS集群,这些实例最多可以自动扩展到16个实例。 每个主/
0
1回复
21

将子域重定向到目录,但不更改url

我在服务器上有结构: customer.site.com system/ .htaccess看起来像这样: R