小编Ang*_*elo的帖子

如何获得熊猫中的每一个第n列?

我有一个如下所示的数据框:

    a1    b1    c1    a2    b2    c2    a3    ...
x   1.2   1.3   1.2   ...   ...   ...   ...
y   1.4   1.2   ...   ...   ...   ...   ...
z   ...
Run Code Online (Sandbox Code Playgroud)

我想要的是每第n列分组.换句话说,我想要一个包含所有as的数据帧,一个用bs,一个用cs

    a1     a2     a4
x   1.2    ...    ...
y
z
Run Code Online (Sandbox Code Playgroud)

在另一个SO问题中,我看到有可能做到df.iloc[::5,:],例如,获得每个第5个原始数据.我当然可以做到df.iloc[:,::3]c cols但是它不能用于获得a和b.

有任何想法吗?

python pandas

12
推荐指数
2
解决办法
1万
查看次数

为什么我的散景图在github上不起作用?

我在github上有一个私人回购,我正在尝试散景.我在我的ipython笔记本本地编辑文件,我可以看到该图正在工作.当我在github上推送它们并尝试在线可视化时,我可以看到除图形​​之外的所有代码.

在nbviewer上,我可以看到使用散景的其他笔记本.github渲染引擎和nbviewer之间有什么区别吗?

python git github ipython-notebook bokeh

5
推荐指数
1
解决办法
752
查看次数

可视化XML树结构

我有几个XML文件具有类似的结构,但有一些我不能忽视的差异.它们都是TEI文件.

我正在寻找一种概述主要结构的方法.

以下面的文字为例:

<text xmlns="http://www.tei-c.org/ns/1.0" xml:id="d1">
<body xml:id="d2">
<div1 type="book" xml:id="d3">
<head>Songs of Innocence</head>
<pb n="4"/>
<div2 type="poem" xml:id="d4">
<head>Introduction</head>
<lg type="stanza">
<l>Piping down the valleys wild, </l>
<l>Piping songs of pleasant glee, </l>
<l>On a cloud I saw a child, </l>
<l>And he laughing said to me: </l>
</lg>
Run Code Online (Sandbox Code Playgroud)

我想抑制相同类型的节点和所有重复结构:

<body xml:id="d2">
<div1 type="book" xml:id="d3">
<head>Songs of Innocence</head>
<pb n="4"/>
<div2 type="poem" xml:id="d4">
<head>Introduction</head>
<lg type="stanza">
<l>...</l>
</lg>
<lg>...</lg>
Run Code Online (Sandbox Code Playgroud)

所以,基本上我想将XML文档缩减到最基本的结构.通过这种方式,我可以弄清楚如何使用XSLT正确转换它们.

xml visualization graph-visualization

5
推荐指数
1
解决办法
2384
查看次数

numpy.testing.assert_array_equal 因两个相同的参差不齐的数组而失败

我有两个 numpy 数组,我想测试是否相等。

以下正确运行:

# this works
x = np.array([np.array(['a', 'b']), np.array(['c', 'd'])], dtype='object')
y = np.array([np.array(['a', 'b']), np.array(['c', 'd'])], dtype='object')
assert np.testing.assert_array_equal(x,y)
Run Code Online (Sandbox Code Playgroud)

然而,如果内部数组之一不规则,比较就会失败:

# this works
x = np.array([np.array(['a', 'b']), np.array(['c'])], dtype='object')
y = np.array([np.array(['a', 'b']), np.array(['c'])], dtype='object')
np.testing.assert_array_equal(x,y)

Traceback (most recent call last):
  File "/home/.../test.py", line 12, in <module>
    np.testing.assert_array_equal(x,y)
  File "/home/.../lib/python3.9/site-packages/numpy/testing/_private/utils.py", line 932, in assert_array_equal
    assert_array_compare(operator.__eq__, x, y, err_msg=err_msg,
  File "/home/.../lib/python3.9/site-packages/numpy/testing/_private/utils.py", line 842, in assert_array_compare
    raise AssertionError(msg)
AssertionError: 
Arrays are not equal

Mismatched elements: 1 / 1 …
Run Code Online (Sandbox Code Playgroud)

python arrays numpy

5
推荐指数
1
解决办法
676
查看次数

Keras管道中的Tokenizer错误

我想用keras作为作者归属.我有一个(文本,标签)列表.我试图使用keras内置矢量化器,但我收到以下错误:

向量化序列数据...回溯(最近一次调用最后一次):文件"",第1行,在文件"/home/angelo/org/courses/corpusling/finalproject/src/neuralnet.py",第46行,在X_train中= tokenizer.texts_to_matrix(X_train,mode ='binary')文件"/home/angelo/org/courses/corpusling/finalproject/venv0/lib/python3.5/site-packages/keras/preprocessing/text.py",第166行,在texts_to_matrix sequences = self.texts_to_sequences(texts)文件"/home/angelo/org/courses/corpusling/finalproject/venv0/lib/python3.5/site-packages/keras/preprocessing/text.py",第131行,在self.texts_to_sequences_generator(文本)中的vect的texts_to_sequences中:文件"/home/angelo/org/courses/corpusling/finalproject/venv0/lib/python3.5/site-packages/keras/preprocessing/text.py",第150行,在texts_to_sequences_generator中i = self.word_index.get(w)AttributeError:'Tokenizer'对象没有属性'word_index'

以下是我目前的代码:

import glob
import os
import pandas as pd
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.preprocessing.text import Tokenizer
from keras.utils import np_utils


def get_label(filename):
    tmp = os.path.split(filename)[0]
    label = os.path.basename(tmp)
    return label


def read_file(filename):
    with open(filename) as f:
        text = f.read()
    return text


traindocs = "../data/C50/C50train/*/*.txt"
testdocs = "../data/C50/C50test/*/*.txt"

documents_train = (read_file(f) for f in glob.iglob(traindocs))
labels_train = (get_label(f) for f in glob.iglob(traindocs)) …
Run Code Online (Sandbox Code Playgroud)

python keras

2
推荐指数
1
解决办法
5026
查看次数

python 2.7和3.5中scipy.spatial.KDTree的差异

我有一个包含x,y坐标列表的pandas数据帧,我正在使用scipy.spatial在给定额外点的情况下找到数据帧中的最近点.

import pandas as pd
import numpy as np
import scipy.spatial as spatial

stops = pd.read_csv("stops.csv")
pt = x,y
points = np.array(zip(stops['stop_lat'],stops['stop_lon']))
nn = points[spatial.KDTree(points).query(pt)[1]]
Run Code Online (Sandbox Code Playgroud)

现在,在python 2.7中,这个工作完美无缺.在python 3.5中,我收到以下错误:

.../scipy/spatial/kdtree.py", line 231, in __init__
self.n, self.m = np.shape(self.data)
ValueError: not enough values to unpack (expected 2, got 0)
Run Code Online (Sandbox Code Playgroud)

在文档中我找不到任何有用的东西.

python numpy scipy python-3.x pandas

1
推荐指数
1
解决办法
836
查看次数