小编HMS*_*HMS的帖子

如何将 HAR 文件导入 Excel

我必须知道有关由浏览器（例如 chrome ）加载的文档的一些信息，因为该检查元素是不错的选择。现在我必须将数据导入到 Excel 中。检查元素允许将数据保存为 .har（http 存档）文件。

如何将网络信息从检查元素保存到 excel。我的浏览器是谷歌浏览器。我在这里找到了一个答案，该答案提供了有关 excel 的信息，但没有提供任何信息。

excel google-chrome har

HMS*_*HMS

2017 05-23

9
推荐指数

4
解决办法

2万
查看次数

如何从两端对 PHP 网站进行负载测试

我们已经为小型服务开发了一个 PHP 网站。在生产之前，我们必须从服务器端（即 Apache）和客户端进行性能和负载测试。

从客户端，我想知道整体和每个对象等的平均响应时间是多少。对于后端（apache web-server），我想知道它在性能开始之前可以处理多少请求（客户端）降级。

为此，是否有像我们在 Linux 平台上那样的开源工具。或者是否有任何网站（免费）可以进行所有这些测试。我们更关心负载测试，我们希望同时向我们的网站请求 1000 个用户（例如），并希望检查客户端和服务器端的不同性能指标。

php apache performance load-testing performance-testing

HMS*_*HMS

lucky-day

8
推荐指数

1
解决办法

7572
查看次数

错误 Nutch “http.agent.name”中未列出任何代理

我使用的是 nutch2.2.1。日志文件正在生成以下错误

错误 protocol.RobotRulesParser - 我们广告的代理 (nutch-spider-2.2.1) 未在“http.robots.agents”属性中首先列出！

我的 nutch-site.xml 是（对于上述属性）

<property>
<name>http.agent.name</name>
<value>nutch-spider-2.2.1</value>
</property>

Run Code Online (Sandbox Code Playgroud)

我的 nutch-default.xml 是

<property>
<name>http.agent.name</name>
<value></value>
</property>

Run Code Online (Sandbox Code Playgroud)

实际问题出在哪里？请清楚地指导（正确解释）。这个问题发布在这里，但我必须奖励这个问题（如果需要），这就是为什么再次发布它。

apache web-crawler nutch

HMS*_*HMS

2017 05-23

5
推荐指数

1
解决办法

1361
查看次数

hbase“目录不为空”异常导致区域服务器宕机

我已将 Hbase 1.2.6 与 Hadoop 2.7.3 配置为通过 Apache Nutch 2.3.1 抓取网络。几天以来，我遇到了一个问题。所有区域服务器（3 个节点）都出现故障，我在 Hbase 主日志中收到以下消息

2018-01-08 15:27:06,603 INFO  [main-EventThread] wal.WALSplitter: Archived processed log hdfs://master:9000/hbase/WALs/node1,16020,151540512476
7-splitting/node1%2C16020%2C1515405124767..meta.1515405130768.meta to hdfs://master:9000/hbase/oldWALs/node1%2C16020%2C1515405124767..meta.1515
405130768.meta
2018-01-08 15:27:06,604 INFO  [main-EventThread] coordination.SplitLogManagerCoordination: Done splitting /hbase/splitWAL/WALs%2Fnode1%2C16020%
2C1515405124767-splitting%2Fnode1%252C16020%252C1515405124767..meta.1515405130768.meta
2018-01-08 15:27:06,607 WARN  [ProcedureExecutor-1] master.SplitLogManager: Returning success without actually splitting and deleting all the l
og files in path hdfs://master:9000/hbase/WALs/node1,16020,1515405124767-splitting: [FileStatus{path=hdfs://master:9000/hbase/WALs/node1,16020,
1515405124767-splitting/node1%2C16020%2C1515405124767.default.1515405126022; isDirectory=false; length=83; replication=2; blocksize=134217728; 
modification_time=1515405126033; access_time=1515405126033; owner=hduser; group=supergroup; permission=rw-r--r--; isSymlink=false}]
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.fs.PathIsNotEmptyDirectoryException): `/hbase/WALs/node1,16020,1515405124767-splitting 
is non empty': Directory is not empty
        at org.apache.hadoop.hdfs.server.namenode.FSDirDeleteOp.delete(FSDirDeleteOp.java:84)
        at …

Run Code Online (Sandbox Code Playgroud)

hadoop hbase nosql

HMS*_*HMS

lucky-day

5
推荐指数

0
解决办法

2155
查看次数

Postgresql pg_dump 对于“块中无效页”数据库无法正常工作

我们在系统上设置了数据库 postgresql 11。大约有8张桌子。这几天我们就面临这个问题

ERROR: invalid page in block 9698 of relation base/16385/16560 SQL state: XX001

Run Code Online (Sandbox Code Playgroud)

根据我的研究，我们应该着手set zero_damaged_pages=on;解决这个问题。我们设置并执行了一些运行良好的选择查询。然后我们决定通过 pg_dump 备份该数据库。此作业未成功完成，但复制了所有记录。

现在，在新系统上，我们导入了备份，我们发现由于发生了数据重复，数据库模式未正确复制到此处。我们用另一个没问题的数据库重复了这个操作。一切正常，包括恢复。

最后，我得出的结论是，由于页面块中的错误，数据库没有正确备份。是否有任何类似set zero_damaged_pages=on;pg_dump 中的选项来忽略错误页面但完成后面或任何其他解决方案。

sql postgresql pg-dump postgresql-11

HMS*_*HMS

2020 06-17

5
推荐指数

1
解决办法

6080
查看次数

pyspark fillna 不适用于 ArrayType 列

我有一个 Spark 集群版本 3.1.2。我有以下输入数据

+-------+------+------------+
|   name|gender|         arr|
+-------+------+------------+
|  James|     M|     [60000]|
|Michael|     M| [70000, 31]|
| Robert|  null|[44, 400000]|
|  Maria|     F|[500000, 12]|
|    Jen|      |        null|
+-------+------+------------+

Run Code Online (Sandbox Code Playgroud)

我必须从所有列中删除空值。“gender”列是 StringType，而“arr”列是 ArrayType。两列中的某些值均为空。当我应用 fillna 函数时，值将从性别列中删除，但不会从 arr 列中删除。看看输出

>>> df.fillna("").show()
+-------+------+------------+
|   name|gender|         arr|
+-------+------+------------+
|  James|     M|     [60000]|
|Michael|     M| [70000, 31]|
| Robert|      |[44, 400000]|
|  Maria|     F|[500000, 12]|
|    Jen|      |        null|
+-------+------+------------+

Run Code Online (Sandbox Code Playgroud)

如果我使用 na.drop 或 na.fill 函数，也会发生同样的情况。哪里有问题？如何从 arr 列中删除 null

apache-spark apache-spark-sql pyspark

HMS*_*HMS

lucky-day

3
推荐指数

1
解决办法

1785
查看次数

如何增加 Apache Nutch 爬虫获取的文档数量

我正在使用 Apache Nutch 2.3 进行爬行。开始时种子中有大约 200 个 url。现在，随着时间的推移，文档爬虫的数量将会减少或最多与开始时相同。

如何配置 Nutch 以便增加我抓取的文档？有没有什么参数可以控制文档数量？其次，如何统计每天抓取的文档数量？

web-crawler nutch

HMS*_*HMS

2016 05-26

2
推荐指数

1
解决办法

756
查看次数

从python字符串中删除奇怪的字符

我必须解析从网络获取的一些网络数据。网页内容很可能是我正在处理的不同区域语言，没有任何问题。但是某些字符串中出现了一些无效字符，例如

\n\n

\n
我正在工作\n 8q\xc3\xae\xc3\x9a4\xc2\xbd-\xc3\xb4M\xc2\xba\xc3\x9dCQ\xc2\xb4D\xc3\x89\xc2\xac)Q+R\xc2\ xb1}\xc3\x9b\xc3\xbd\xc3\xaf7\xc3\xbc\xc3\x9b\xc2\xb2\xc3\xablY&53|8\xc3\xaf\xc3\xb4\xc3\xb3g/^\xc3\xbf \xc3\xbb\xc3\xaa\xc3\xbe?\xc3\xaf\xc2\xafa\xc2\xa0#\xc3\xaf?\xc2\xbc\xc2\xbay{5\xc2\xad+B^\xc3 \x9f\xc2\xbf\xc3\x9f~\xc2\xbe\xc2\xbf\xc2\xbd\xc2\xa6\xc3\x93\xc3\xbb\xc3\x86k.c\xc2\xb9~W\xc3\ x9a@\xc3\xab\xc2\xa4K\xc3\x88h4rF-G\xc2\xa6!\xc2\xb9\xc3\xbf\xc2\xac\xc2\xa6a~\xc2\xb5u\xc3\x93\xc3\xb1 \xc2\xb5_\xc2\xbb|\xc3\xbe\xc3\xac\n 每日统计
\n

\n\n

我必须删除这种奇怪的字符并仅提取有效的字符串。我正在使用Python。我用 utf-8 对每个字符串进行编码。

python replace

HMS*_*HMS

lucky-day

2
推荐指数

1
解决办法

3440
查看次数