标签[hadoop]

0
1回复
16

如何创建Pyspark应用程序

我的要求是使用pyspark从HDFS读取数据,仅过滤所需的列,删除NULL值,然后将处理后的数据写回到HDFS。 这些步骤
0
1回复
19

如何将文件添加到Hive

我有一个文件,其中记事本++上的所有列定界符都显示为EOT, SOH, ETX, ACK, BEL, BS, ENQ
0
1回复
17

每次重新启动时都会替换Cloudera节点/etc/krb5.conf

我有一个问题,为什么我的cloudera节点每次重新启动都替换文件/etc/krb5.conf? 我试图进行修改,并且当有人
0
1回复
20

如何删除多个HDFS目录中最近创建的文件?

我犯了一个错误,并向按日期划分的表中添加了几百个零件文件。 我能够看到哪些文件是新文件(这些是我要删除的文件)。 我在这里
0
1回复
19

使用limit和except时如何维护spark数据集的顺序

我有一个超过40万行的数据集。 我需要250,000行的数据,从35万到37万。 dataset.limit(37000
0
1回复
12

Nutch / Hadoop:regex-normalize.xml和regex-urlfilter.txt找不到错误,即使它们存在

我正在尝试通过Eclipse进行适时的测试,然后按照一些教程进行设置。 我目前停留在nullpointerexception
0
1回复
24

将我的容器入门文件翻译为docker-compose.yml

我在大数据领域比较新,这是我第一次使用Docker。 我刚刚发现了一个惊人的项目: https : //kiwenlau.c
0
1回复
11

是否有SQL命令删除HDFS上用于外部表的文件

我会问蜂巢中是否有sql命令删除该表并删除此外部表在hdfs上的文件。 当我使用hdfs命令删除文件时,我总是担心会删
0
1回复
8

Hodoop NameNode无法启动

当我使用start-all.cmd时,datanode,resourcemanager,nodemanager可以正常工作,但
0
1回复
18

在Spark中捕获执行的SQL的异常

我有一个动态生成的SQL,并且其中包含一些损坏的字符串,例如错误的列名或使用sm而不是sum 。 当我在此生成的字符串
0
1回复
27

无法从Docker连接到Postgres

我有一个docker映像,其中有一个由一个主设备和两个从设备组成的hadoop集群。 在此群集上,我有HBase。
0
1回复
24

Janusgraph库无法在kerberos环境中与hbase通信(无法指定服务器的Kerberos主体名称)

尝试在Kerberos hadoop集群中使用janusgraph连接到habse时,出现“无法指定服务器的Kerberos主
0
1回复
21

纱线-hadoop无法正确初始化

我试图在Ubuntu VM中安装Hadoop 3.2.1(单节点),但是Yarn站点无法运行。 我执行jps命令并返回此命令
0
1回复
21

蜂巢:字符串中的第一个和最后一个出现

我有一个id列和一个字符串列,如下所示: id values 1 AD123~DF123~SQ345 2 CF
0
1回复
26

如何使用Hive检查Druid数据源

昨天,我从Hive创建了我的第一个数据源Druid。 今天,我不确定是否可行... 首先,我运行以下代码来创建我的D
0
2回复
41

spark-submit与我位于hdfs中的jar不兼容

这是我的情况: Apache Spark版本2.4.4 Hadoop版本2.7.4 我的应用程序jar
0
3回复
98

是否可以在HIVE中更改分区元数据?

这是我之前提出的问题的扩展: 如何比较具有不同数据类型组的两列 我们正在探索更改表上元数据的想法,而不是对SELECT
0
2回复
46

ssh函数上bash脚本中的意外行为

我建立了一个Raspberry pi集群,安装了Spark和Hadoop,并在.bashrc中做了一些功能,以使通信和交互变得
0
2回复
88

使用HDFS存储执行Spark作业

我在Google Cloud Dataproc上运行了一个长期运行的Spark结构化流作业,该作业同时使用Kafka作为源和接
0
1回复
23

使用命令行从HDFS到ADLS Gen 2的文件传输过程是否与到BLOB的传输过程相同?

在我的项目中,我们一直在Azure上使用BLOB。 我们能够使用以下方法以非常方便的方式将ORC文件上传到现有的BLOB容器