小编jOa*_*sis的帖子

Spark:导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件,例如德语元音变音(\xc3\xa4,\xc3\xbc,o)等,如下所示:

\n\n

sc.hadoopConfiguration.set("textinputformat.record.delimiter", "\\r\\n\\r\\n") sc.textFile("/file/path/samele_file.txt")

\n\n

但在阅读内容时,这些特殊字符无法识别。

\n\n

我认为默认编码不是 UTF-8 或类似格式。我想知道是否有一种方法可以在此 textFile 方法上设置编码,例如:

\n\n
sc.textFile("/file/path/samele_file.txt",mode="utf-8")`\n
Run Code Online (Sandbox Code Playgroud)\n

scala apache-spark

6
推荐指数
1
解决办法
1万
查看次数

cassandra.cluster.NoHostAvailable:无法连接到任何服务器

我正在尝试使用 python cassandra 驱动程序访问远程 cassandra 集群

cluster = Cluster(['192.168.19.1'], port=9042) session = cluster.connect()

然而,它给了我`

cassandra.cluster.NoHostAvailable:('无法连接到任何服务器',{'192.168.19.1':错误(无,“尝试连接到[('192.168.19.1',9042)]。最后一个错误:超时”) })

` 我的 cassandra 集群在 nodetool 状态下显示:

Datacenter: datacenter1
=======================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address       Load       Tokens       Owns (effective)  Host ID                                  Rack
UN  192.168.19.1  239,55 KiB  256          67,0%             e45b9451-0081-4b12-9acb-1bc9   92953846  rack1
UN  192.168.19.2  263,95 KiB  256          63,8%             662df0f8-4209-4b06-9d46-f558   ad10ff0a  rack1
UN  192.168.19.3  293,59 KiB  256          69,2%             aa00fc80-6a8a-4bb0-8645-ef3f   58a72754  rack1
Run Code Online (Sandbox Code Playgroud)

例如 - 我的 cassandra.yaml 文件的参数:192.168.19.1 如下:

rpc_address: 192.168.19.1

监听地址:192.168.19.1

native_transport_port:9042

start_native_transport: 真

似乎是什么问题?

cassandra cassandra-3.0

5
推荐指数
1
解决办法
3087
查看次数

NIFI:尽管增加了堆大小,但出现内存不足错误

我遇到了一个问题,NIFI服务只是拒绝启动。我监视了nifi-app.log,发现它是OutOfMemory错误。我增加了bootstap.conf文件中的内存。但是错误仍然存​​在。

附件为nifi-app.log

    2017-12-19 17:08:37,133 ERROR [ActiveMQ InactivityMonitor ReadCheckTimer] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[ActiveMQ InactivityMonitor ReadCheckTimer,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,134 ERROR [Provenance Maintenance Thread-2] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[Provenance Maintenance Thread-2,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,134 ERROR [logback-2] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[logback-2,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,133 ERROR [FileSystemRepository Workers Thread-2] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[FileSystemRepository Workers Thread-2,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,135 …
Run Code Online (Sandbox Code Playgroud)

apache-nifi

4
推荐指数
1
解决办法
3254
查看次数

Cassandra 3.0 多节点集群磁盘空间回收最佳实践

在我的 5 节点集群上,我发出了各种 drop table <keyspace_name>.<table_name>命令。执行该操作后,它们在各个节点上的数据仍保留在 /var/lib/cassandra/data // 下

我想知道是否有任何释放空间的最佳实践。或者,rm -rf /var/lib/cassandra/data/<keyspace_name>/*各个节点上的命令就足够了吗?

cassandra cassandra-3.0

3
推荐指数
1
解决办法
2055
查看次数

Python:将 PDF 转换为 blob 再转换回 pdf 会导致损坏

我正在测试我的 nosql 数据库设置的场景之一,其中我存储 PDF 数据 blob。稍后想用它是否可以检索原始pdf文档。为了测试它,我用 Python 编写了一个小测试代码。

import base64
with open('test.pdf', 'rb') as f:
 blob = base64.b64encode(f.read())

text_file = open('test_blob.txt', "w")
text_file.write(blob)
text_file.close()   

with open('test_blob.txt', 'r') as f:
  blob=f.read().decode('base64')
text_file = open('result.pdf', "w")
text_file.write(blob)
text_file.close()
Run Code Online (Sandbox Code Playgroud)

当我检查 result.pdf 时,它已损坏。可能是什么问题呢?

python base64 blob

2
推荐指数
1
解决办法
7782
查看次数

Nifi:通过企业代理环境使用 Azure 事件中心

我在 Nifi 中有一个用例来使用来自事件中心的数据。然而,Nifi 服务器位于代理后面。代理还需要用户名和密码进行授权。到目前为止,我发现GetAzureEventHub处理器可以完成这项工作,但它缺乏完整的代理控制器服务。

我想知道在这种情况下处理的最佳方法是什么。

azure-eventhub apache-nifi

2
推荐指数
1
解决办法
1108
查看次数