小编jOa*_*sis的帖子

Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件，例如德语元音变音（\xc3\xa4，\xc3\xbc，o）等，如下所示：

\n\n

sc.hadoopConfiguration.set("textinputformat.record.delimiter", "\\r\\n\\r\\n") sc.textFile("/file/path/samele_file.txt")

\n\n

但在阅读内容时，这些特殊字符无法识别。

\n\n

我认为默认编码不是 UTF-8 或类似格式。我想知道是否有一种方法可以在此 textFile 方法上设置编码，例如：

\n\n

sc.textFile("/file/path/samele_file.txt",mode="utf-8")`\n

Run Code Online (Sandbox Code Playgroud)\n

scala apache-spark

jOa*_*sis

lucky-day

6
推荐指数

1
解决办法

1万
查看次数

cassandra.cluster.NoHostAvailable：无法连接到任何服务器

我正在尝试使用 python cassandra 驱动程序访问远程 cassandra 集群

cluster = Cluster(['192.168.19.1'], port=9042) session = cluster.connect()

然而，它给了我`

cassandra.cluster.NoHostAvailable:('无法连接到任何服务器'，{'192.168.19.1'：错误（无，“尝试连接到[（'192.168.19.1'，9042）]。最后一个错误：超时”） })

` 我的 cassandra 集群在 nodetool 状态下显示：

Datacenter: datacenter1
=======================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address       Load       Tokens       Owns (effective)  Host ID                                  Rack
UN  192.168.19.1  239,55 KiB  256          67,0%             e45b9451-0081-4b12-9acb-1bc9   92953846  rack1
UN  192.168.19.2  263,95 KiB  256          63,8%             662df0f8-4209-4b06-9d46-f558   ad10ff0a  rack1
UN  192.168.19.3  293,59 KiB  256          69,2%             aa00fc80-6a8a-4bb0-8645-ef3f   58a72754  rack1

Run Code Online (Sandbox Code Playgroud)

例如 - 我的 cassandra.yaml 文件的参数：192.168.19.1 如下：

rpc_address: 192.168.19.1

监听地址：192.168.19.1

native_transport_port：9042

start_native_transport: 真

似乎是什么问题？

cassandra cassandra-3.0

jOa*_*sis

2018 01-06

5
推荐指数

1
解决办法

3087
查看次数

NIFI：尽管增加了堆大小，但出现内存不足错误

我遇到了一个问题，NIFI服务只是拒绝启动。我监视了nifi-app.log，发现它是OutOfMemory错误。我增加了bootstap.conf文件中的内存。但是错误仍然存在。

附件为nifi-app.log

    2017-12-19 17:08:37,133 ERROR [ActiveMQ InactivityMonitor ReadCheckTimer] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[ActiveMQ InactivityMonitor ReadCheckTimer,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,134 ERROR [Provenance Maintenance Thread-2] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[Provenance Maintenance Thread-2,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,134 ERROR [logback-2] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[logback-2,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,133 ERROR [FileSystemRepository Workers Thread-2] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[FileSystemRepository Workers Thread-2,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,135 …

Run Code Online (Sandbox Code Playgroud)

apache-nifi

jOa*_*sis

lucky-day

4
推荐指数

1
解决办法

3254
查看次数

Cassandra 3.0 多节点集群磁盘空间回收最佳实践

在我的 5 节点集群上，我发出了各种 drop table <keyspace_name>.<table_name>命令。执行该操作后，它们在各个节点上的数据仍保留在 /var/lib/cassandra/data // 下

我想知道是否有任何释放空间的最佳实践。或者，rm -rf /var/lib/cassandra/data/<keyspace_name>/*各个节点上的命令就足够了吗？

cassandra cassandra-3.0

jOa*_*sis

lucky-day

3
推荐指数

1
解决办法

2055
查看次数

Python：将 PDF 转换为 blob 再转换回 pdf 会导致损坏

我正在测试我的 nosql 数据库设置的场景之一，其中我存储 PDF 数据 blob。稍后想用它是否可以检索原始pdf文档。为了测试它，我用 Python 编写了一个小测试代码。

import base64
with open('test.pdf', 'rb') as f:
 blob = base64.b64encode(f.read())

text_file = open('test_blob.txt', "w")
text_file.write(blob)
text_file.close()   

with open('test_blob.txt', 'r') as f:
  blob=f.read().decode('base64')
text_file = open('result.pdf', "w")
text_file.write(blob)
text_file.close()

Run Code Online (Sandbox Code Playgroud)

当我检查 result.pdf 时，它已损坏。可能是什么问题呢？

python base64 blob

jOa*_*sis

lucky-day

2
推荐指数

1
解决办法

7782
查看次数