小编Tho*_*ber的帖子

Pandas:扩展系列的索引,使其包含范围内的所有值

我有一个看起来像这样的熊猫系列:

>>> x.sort_index()
2       1
5       2
6       3
8       4
Run Code Online (Sandbox Code Playgroud)

我想填写这个系列,以便表示"缺失"索引行,用0填充数据值.

因此,当我列出新系列时,它看起来像这样:

>>> z.sort_index()
1       0
2       1
3       0
4       0
5       2
6       3
7       0
8       4
Run Code Online (Sandbox Code Playgroud)

我试过创建一个"虚拟"系列

>>> y = pd.Series([0 for i in range(0,8)])
0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    0
Run Code Online (Sandbox Code Playgroud)

然后将它们连在一起 - 但结果是:

>>> pd.concat([x,z],axis=0)
2    1
5    2
6    3
8    4
0    0
1    0
2    0
3    0
4    0
5 …
Run Code Online (Sandbox Code Playgroud)

python pandas

6
推荐指数
1
解决办法
3207
查看次数

如何将RandomForest折叠成等效的决策树?

我理解它的方式,在创建随机森林时,算法将一堆随机生成的决策树捆绑在一起,对它们进行加权,使它们适合训练数据.

说这个平均森林可以简化成一个简单的决策树是否合理?如果是这样 - 我如何访问和呈现这棵树?

我在这里要做的是提取树中的信息,以帮助识别主要属性,它们的边界值和树中的位置.我假设这样一棵树可以提供人类(或计算机启发式)的洞察力,以确定数据集中的哪些属性提供了确定目标结果的最大洞察力.

这似乎是一个天真的问题 - 如果是这样,请耐心等待,我是新手,想要进入一个我充分理解的阶段.

random-forest scikit-learn

6
推荐指数
1
解决办法
749
查看次数

Python pyodbc fetch 很慢

我正在使用 pyodbc 从 MSQL Server 获取一些数据。工作正常,除非检索大量数据:它真的很慢。

我有大约 4000 行,这不是一个很大的数字。

conn = pyodbc.connect('DRIVER={SQL Server};SERVER=192.168.1.10;DATABASE=MyDB;Trusted_Connection=yes;')
cur = conn.cursor()
cur.execute('SELECT * FROM myTable')
Run Code Online (Sandbox Code Playgroud)

我尝试了以下方法:

time1 = datetime.datetime.now()
a = cur.fetchall()
time2 = datetime.datetime.now()
print time2 - time1
print len(a)
Run Code Online (Sandbox Code Playgroud)

0:00:27.286000

time1 = datetime.datetime.now()
for i in range(0, 4017):
    cur.fetchone()
time2 = datetime.datetime.now()
print time2 - time1
Run Code Online (Sandbox Code Playgroud)

0:00:21.196000

time1 = datetime.datetime.now()
allIDRows = list(cur.fetchmany(4017))
time2 = datetime.datetime.now()
print time2 - time1
Run Code Online (Sandbox Code Playgroud)

0:00:23.845000

time1 = datetime.datetime.now()
a = cur.fetchmany(4017)
time2 = datetime.datetime.now()
print time2 - …
Run Code Online (Sandbox Code Playgroud)

python sql sql-server odbc pyodbc

5
推荐指数
1
解决办法
1997
查看次数

matplotlib 中是否存在用于在子图中定义子图网格的工具?

我有一个我想使用的绘图布局,其中 9 个不同的数据簇被布置在一个方形网格上。网格中的每个框都包含 3 个并排布置的箱线图。

我最初的想法是这将适合 3x3 子图布局,每个单独的子图本身被划分为 3x1 子图布局。

我已经看到了:在 matplotlib中的子图中嵌入小图,这似乎可以让您在子图中定义单独的、手动放置的图。然而,将子图空间递归分割成 < 10 个易于寻址的子图的网格的想法似乎是一个显而易见的想法,我不敢相信它没有被直接实现。

matplotlib

4
推荐指数
1
解决办法
858
查看次数

在SPARQL中选择文字?

我想构造一个SPARQL查询,该查询填充有我设置为文字的值。

例如

SELECT 'A', 'B', attribute
FROM 
    TABLE
Run Code Online (Sandbox Code Playgroud)

将返回一个可能如下所示的表:

  A    |    B    |    attribute
-------|---------|--------------
  A    |    B    |    Mary
  A    |    B    |    has
  A    |    B    |    a
  A    |    B    |    little
  A    |    B    |    lamb
Run Code Online (Sandbox Code Playgroud)

我想做的是运行这样的查询,以在三元组中获取所有对象类型:

select distinct ?o ("class" as ?item_type) 
where {
    ?s rdf:type ?o.
} 
Run Code Online (Sandbox Code Playgroud)

然后(理想情况下)使用第二个查询将其UNION,以提取所有不同的谓词值:

select distinct ?p ("predicate" as ?item_type) 
where {
    ?s ?p ?o.
} 
Run Code Online (Sandbox Code Playgroud)

结果可能如下所示:

  item           |    item_type    
-----------------|-----------------
 a_thing         |    class
another_thing    |    class
a_relation       |    predicate …
Run Code Online (Sandbox Code Playgroud)

sparql

2
推荐指数
1
解决办法
605
查看次数

如何在python中将列表转换为数组?

我有这个代码

from opensky_api import OpenSkyApi

api = OpenSkyApi()
states = api.get_states(bbox=(51.3500, 51.5900, -0.6342, -0.2742))

for s in states.states:
    lat = s.latitude
    print(lat)
Run Code Online (Sandbox Code Playgroud)

输出看起来像这样

51.4775
51.4589
51.4774
51.4774
Run Code Online (Sandbox Code Playgroud)

如何使输出看起来像这样?

[51.4775, 51.4589, 51.4774, 51.4774]
Run Code Online (Sandbox Code Playgroud)

python list python-3.x

2
推荐指数
1
解决办法
5078
查看次数