小编Tho*_*ber的帖子

Pandas:扩展系列的索引,使其包含范围内的所有值

我有一个看起来像这样的熊猫系列:

>>> x.sort_index()
2       1
5       2
6       3
8       4

Run Code Online (Sandbox Code Playgroud)

我想填写这个系列,以便表示"缺失"索引行,用0填充数据值.

因此,当我列出新系列时,它看起来像这样:

>>> z.sort_index()
1       0
2       1
3       0
4       0
5       2
6       3
7       0
8       4

Run Code Online (Sandbox Code Playgroud)

我试过创建一个"虚拟"系列

>>> y = pd.Series([0 for i in range(0,8)])
0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    0

Run Code Online (Sandbox Code Playgroud)

然后将它们连在一起 - 但结果是:

>>> pd.concat([x,z],axis=0)
2    1
5    2
6    3
8    4
0    0
1    0
2    0
3    0
4    0
5 …

Run Code Online (Sandbox Code Playgroud)

python pandas

Tho*_*ber

lucky-day

6
推荐指数

1
解决办法

3207
查看次数

如何将RandomForest折叠成等效的决策树？

我理解它的方式,在创建随机森林时,算法将一堆随机生成的决策树捆绑在一起,对它们进行加权,使它们适合训练数据.

说这个平均森林可以简化成一个简单的决策树是否合理？如果是这样 - 我如何访问和呈现这棵树？

我在这里要做的是提取树中的信息,以帮助识别主要属性,它们的边界值和树中的位置.我假设这样一棵树可以提供人类(或计算机启发式)的洞察力,以确定数据集中的哪些属性提供了确定目标结果的最大洞察力.

这似乎是一个天真的问题 - 如果是这样,请耐心等待,我是新手,想要进入一个我充分理解的阶段.

random-forest scikit-learn

Tho*_*ber

lucky-day

6
推荐指数

1
解决办法

749
查看次数

Python pyodbc fetch 很慢

我正在使用 pyodbc 从 MSQL Server 获取一些数据。工作正常，除非检索大量数据：它真的很慢。

我有大约 4000 行，这不是一个很大的数字。

conn = pyodbc.connect('DRIVER={SQL Server};SERVER=192.168.1.10;DATABASE=MyDB;Trusted_Connection=yes;')
cur = conn.cursor()
cur.execute('SELECT * FROM myTable')

Run Code Online (Sandbox Code Playgroud)

我尝试了以下方法：

time1 = datetime.datetime.now()
a = cur.fetchall()
time2 = datetime.datetime.now()
print time2 - time1
print len(a)

Run Code Online (Sandbox Code Playgroud)

0:00:27.286000

time1 = datetime.datetime.now()
for i in range(0, 4017):
    cur.fetchone()
time2 = datetime.datetime.now()
print time2 - time1

Run Code Online (Sandbox Code Playgroud)

0:00:21.196000

time1 = datetime.datetime.now()
allIDRows = list(cur.fetchmany(4017))
time2 = datetime.datetime.now()
print time2 - time1

Run Code Online (Sandbox Code Playgroud)

0:00:23.845000

time1 = datetime.datetime.now()
a = cur.fetchmany(4017)
time2 = datetime.datetime.now()
print time2 - …

Run Code Online (Sandbox Code Playgroud)

python sql sql-server odbc pyodbc

ced*_*d73

2019 10-10

5
推荐指数

1
解决办法

1997
查看次数

matplotlib 中是否存在用于在子图中定义子图网格的工具？

我有一个我想使用的绘图布局，其中 9 个不同的数据簇被布置在一个方形网格上。网格中的每个框都包含 3 个并排布置的箱线图。

我最初的想法是这将适合 3x3 子图布局，每个单独的子图本身被划分为 3x1 子图布局。

我已经看到了：在 matplotlib中的子图中嵌入小图，这似乎可以让您在子图中定义单独的、手动放置的图。然而，将子图空间递归分割成 < 10 个易于寻址的子图的网格的想法似乎是一个显而易见的想法，我不敢相信它没有被直接实现。

matplotlib

Tho*_*ber

2017 05-23

4
推荐指数

1
解决办法

858
查看次数

在SPARQL中选择文字？

我想构造一个SPARQL查询，该查询填充有我设置为文字的值。

例如

SELECT 'A', 'B', attribute
FROM 
    TABLE

Run Code Online (Sandbox Code Playgroud)

将返回一个可能如下所示的表：

  A    |    B    |    attribute
-------|---------|--------------
  A    |    B    |    Mary
  A    |    B    |    has
  A    |    B    |    a
  A    |    B    |    little
  A    |    B    |    lamb

Run Code Online (Sandbox Code Playgroud)

我想做的是运行这样的查询，以在三元组中获取所有对象类型：

select distinct ?o ("class" as ?item_type) 
where {
    ?s rdf:type ?o.
}

Run Code Online (Sandbox Code Playgroud)

然后（理想情况下）使用第二个查询将其UNION，以提取所有不同的谓词值：

select distinct ?p ("predicate" as ?item_type) 
where {
    ?s ?p ?o.
}

Run Code Online (Sandbox Code Playgroud)

结果可能如下所示：

  item           |    item_type    
-----------------|-----------------
 a_thing         |    class
another_thing    |    class
a_relation       |    predicate …

Run Code Online (Sandbox Code Playgroud)

sparql

Tho*_*ber

2016 05-12

2
推荐指数

1
解决办法

605
查看次数

如何在python中将列表转换为数组？

我有这个代码

from opensky_api import OpenSkyApi

api = OpenSkyApi()
states = api.get_states(bbox=(51.3500, 51.5900, -0.6342, -0.2742))

for s in states.states:
    lat = s.latitude
    print(lat)

Run Code Online (Sandbox Code Playgroud)

输出看起来像这样