我正在尝试处理一个包含很多特殊字符的文件,例如德语元音变音(\xc3\xa4,\xc3\xbc,o)等,如下所示:
\n\nsc.hadoopConfiguration.set("textinputformat.record.delimiter", "\\r\\n\\r\\n") sc.textFile("/file/path/samele_file.txt")
但在阅读内容时,这些特殊字符无法识别。
\n\n我认为默认编码不是 UTF-8 或类似格式。我想知道是否有一种方法可以在此 textFile 方法上设置编码,例如:
\n\nsc.textFile("/file/path/samele_file.txt",mode="utf-8")`\nRun Code Online (Sandbox Code Playgroud)\n 我正在尝试使用 python cassandra 驱动程序访问远程 cassandra 集群
cluster = Cluster(['192.168.19.1'], port=9042) session = cluster.connect()
然而,它给了我`
cassandra.cluster.NoHostAvailable:('无法连接到任何服务器',{'192.168.19.1':错误(无,“尝试连接到[('192.168.19.1',9042)]。最后一个错误:超时”) })
` 我的 cassandra 集群在 nodetool 状态下显示:
Datacenter: datacenter1
=======================
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
-- Address Load Tokens Owns (effective) Host ID Rack
UN 192.168.19.1 239,55 KiB 256 67,0% e45b9451-0081-4b12-9acb-1bc9 92953846 rack1
UN 192.168.19.2 263,95 KiB 256 63,8% 662df0f8-4209-4b06-9d46-f558 ad10ff0a rack1
UN 192.168.19.3 293,59 KiB 256 69,2% aa00fc80-6a8a-4bb0-8645-ef3f 58a72754 rack1
Run Code Online (Sandbox Code Playgroud)
例如 - 我的 cassandra.yaml 文件的参数:192.168.19.1 如下:
rpc_address: 192.168.19.1
监听地址:192.168.19.1
native_transport_port:9042
start_native_transport: 真
似乎是什么问题?
我遇到了一个问题,NIFI服务只是拒绝启动。我监视了nifi-app.log,发现它是OutOfMemory错误。我增加了bootstap.conf文件中的内存。但是错误仍然存在。
附件为nifi-app.log
2017-12-19 17:08:37,133 ERROR [ActiveMQ InactivityMonitor ReadCheckTimer] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[ActiveMQ InactivityMonitor ReadCheckTimer,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,134 ERROR [Provenance Maintenance Thread-2] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[Provenance Maintenance Thread-2,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,134 ERROR [logback-2] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[logback-2,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,133 ERROR [FileSystemRepository Workers Thread-2] org.apache.nifi.NiFi An Unknown Error Occurred in Thread Thread[FileSystemRepository Workers Thread-2,5,main]: java.lang.OutOfMemoryError: Java heap space
2017-12-19 17:08:37,135 …Run Code Online (Sandbox Code Playgroud) 在我的 5 节点集群上,我发出了各种 drop table <keyspace_name>.<table_name>命令。执行该操作后,它们在各个节点上的数据仍保留在 /var/lib/cassandra/data // 下
我想知道是否有任何释放空间的最佳实践。或者,rm -rf /var/lib/cassandra/data/<keyspace_name>/*各个节点上的命令就足够了吗?
我正在测试我的 nosql 数据库设置的场景之一,其中我存储 PDF 数据 blob。稍后想用它是否可以检索原始pdf文档。为了测试它,我用 Python 编写了一个小测试代码。
import base64
with open('test.pdf', 'rb') as f:
blob = base64.b64encode(f.read())
text_file = open('test_blob.txt', "w")
text_file.write(blob)
text_file.close()
with open('test_blob.txt', 'r') as f:
blob=f.read().decode('base64')
text_file = open('result.pdf', "w")
text_file.write(blob)
text_file.close()
Run Code Online (Sandbox Code Playgroud)
当我检查 result.pdf 时,它已损坏。可能是什么问题呢?
我在 Nifi 中有一个用例来使用来自事件中心的数据。然而,Nifi 服务器位于代理后面。代理还需要用户名和密码进行授权。到目前为止,我发现GetAzureEventHub处理器可以完成这项工作,但它缺乏完整的代理控制器服务。
我想知道在这种情况下处理的最佳方法是什么。