小编Aub*_*rey的帖子

如何使用Pywikibot获取Wiki页面的HTML？

我正在使用pywikibot-core，并且在另一个Python MediaWiki API包装器之前使用了Wikipedia.py（具有.HTML方法）。我切换到pywikibot-core，因为我认为它具有更多功能，但是我找不到类似的方法。（请注意：我不是很熟练）。

python wikipedia wikipedia-api pywikibot

Aub*_*rey

lucky-day

5
推荐指数

1
解决办法

895
查看次数

Openrefine列中的渐进数字

是否可以使用GREL生成"计数器",列中的渐进数字？

例如,我想添加value该数字来为每条记录生成一个标识符.

google-refine openrefine

Aub*_*rey

lucky-day

4
推荐指数

1
解决办法

199
查看次数

对列表进行排序并在正确的位置添加无值

这与这个问题有某种关系.

我必须列出网址.第一个清单是:

http://example.com/1/1.jpg
http://example.com/2/2.jpg
http://example.com/3/3.jpg
...
http://example.com/45000/45000.jpg

Run Code Online (Sandbox Code Playgroud)

第二个列表是第一个列表的一个子集:它由真实 URL组成,不是断开链接.

http://example.com/12/12.jpg
http://example.com/23/23.jpg
http://example.com/34/34.jpg
...

Run Code Online (Sandbox Code Playgroud)

我想知道如何以一种我可以拥有这样的方式对它进行排序

...
None
http://example.com/12/12.jpg
None
None
...
None
http://example.com/23/23.jpg
None
...

Run Code Online (Sandbox Code Playgroud)

关键是要有一个排序列表,我可以在最终的csv文件中将正确的URL放在正确的位置.

我试过这个读取第一个列表并尝试匹配第二个列表中的项目,但我没有使用双循环和匹配模式.

我从文件中读取列表,使用open():这意味着我必须处理换行符(这似乎是一个问题).

python list

Aub*_*rey

2017 05-23

2
推荐指数

1
解决办法

71
查看次数

Openrefine：通过计数对文本进行分面

我有一个巨大的文件，主要由书籍元数据（作者、标题、日期、网址）组成。我的问题是，我想对作者姓名（经常重复：一个作者可以有数百条记录）进行操作，并且我想对这些作者中拥有超过 X 条记录的子集进行操作。

例如，我有 200 条与“William Shakespeare”相关的记录，但只有一条 1 记录“John Black”等。重点是，作为一个经典的幂律，我有数十万个作者，其中大多数为 1 -2条记录。

使用“文本方面”>“计数”是不可能的，因为我的计算机死机了。

是否有一个查询仅根据某些记录的计数来获取其文本方面？

openrefine clusterize

Lar*_* M.

2016 11-02

2
推荐指数

1
解决办法

904
查看次数

使用Python解析复杂的JSON对象:搜索特定的键/值对

一般问题:如何key:value使用Python 搜索JSON中的特定对？

具体情况的详细信息:我正在阅读~45'000个JSON对象,每个对象看起来都像这个.
正如你所看到的,每一个JSON里面有几本词典具有相同的键(但不同的值)"facetName,"facetLabel","facetValues".
我对以字母开头的字体感兴趣,"facetName": "soggettof"就像:

{
  "facetName": "soggettof",
  "facetLabel": "Soggetto",
  "facetValues": [
    [
      "chiesa - storia - documenti",
      "chiesa - storia - documenti",
      "1"
    ],
    [
      "espiazione - mare mediterraneo <bacino> - antichita - congressi - munster - 1999",
      "espiazione - mare mediterraneo <bacino> - antichita - congressi - munster - 1999",
      "1"
    ],
    [
      "lega rossa combattenti - storia",
      "lega rossa combattenti - storia", …

Run Code Online (Sandbox Code Playgroud)

python json

Aub*_*rey

2015 07-02

-2
推荐指数

1
解决办法

3661
查看次数