我有一个如下所示的数据框:
a1 b1 c1 a2 b2 c2 a3 ...
x 1.2 1.3 1.2 ... ... ... ...
y 1.4 1.2 ... ... ... ... ...
z ...
Run Code Online (Sandbox Code Playgroud)
我想要的是每第n列分组.换句话说,我想要一个包含所有as的数据帧,一个用bs,一个用cs
a1 a2 a4
x 1.2 ... ...
y
z
Run Code Online (Sandbox Code Playgroud)
在另一个SO问题中,我看到有可能做到df.iloc[::5,:],例如,获得每个第5个原始数据.我当然可以做到df.iloc[:,::3]c cols但是它不能用于获得a和b.
有任何想法吗?
我在github上有一个私人回购,我正在尝试散景.我在我的ipython笔记本本地编辑文件,我可以看到该图正在工作.当我在github上推送它们并尝试在线可视化时,我可以看到除图形之外的所有代码.
在nbviewer上,我可以看到使用散景的其他笔记本.github渲染引擎和nbviewer之间有什么区别吗?
我有几个XML文件具有类似的结构,但有一些我不能忽视的差异.它们都是TEI文件.
我正在寻找一种概述主要结构的方法.
以下面的文字为例:
<text xmlns="http://www.tei-c.org/ns/1.0" xml:id="d1">
<body xml:id="d2">
<div1 type="book" xml:id="d3">
<head>Songs of Innocence</head>
<pb n="4"/>
<div2 type="poem" xml:id="d4">
<head>Introduction</head>
<lg type="stanza">
<l>Piping down the valleys wild, </l>
<l>Piping songs of pleasant glee, </l>
<l>On a cloud I saw a child, </l>
<l>And he laughing said to me: </l>
</lg>
Run Code Online (Sandbox Code Playgroud)
我想抑制相同类型的节点和所有重复结构:
<body xml:id="d2">
<div1 type="book" xml:id="d3">
<head>Songs of Innocence</head>
<pb n="4"/>
<div2 type="poem" xml:id="d4">
<head>Introduction</head>
<lg type="stanza">
<l>...</l>
</lg>
<lg>...</lg>
Run Code Online (Sandbox Code Playgroud)
所以,基本上我想将XML文档缩减到最基本的结构.通过这种方式,我可以弄清楚如何使用XSLT正确转换它们.
我有两个 numpy 数组,我想测试是否相等。
以下正确运行:
# this works
x = np.array([np.array(['a', 'b']), np.array(['c', 'd'])], dtype='object')
y = np.array([np.array(['a', 'b']), np.array(['c', 'd'])], dtype='object')
assert np.testing.assert_array_equal(x,y)
Run Code Online (Sandbox Code Playgroud)
然而,如果内部数组之一不规则,比较就会失败:
# this works
x = np.array([np.array(['a', 'b']), np.array(['c'])], dtype='object')
y = np.array([np.array(['a', 'b']), np.array(['c'])], dtype='object')
np.testing.assert_array_equal(x,y)
Traceback (most recent call last):
File "/home/.../test.py", line 12, in <module>
np.testing.assert_array_equal(x,y)
File "/home/.../lib/python3.9/site-packages/numpy/testing/_private/utils.py", line 932, in assert_array_equal
assert_array_compare(operator.__eq__, x, y, err_msg=err_msg,
File "/home/.../lib/python3.9/site-packages/numpy/testing/_private/utils.py", line 842, in assert_array_compare
raise AssertionError(msg)
AssertionError:
Arrays are not equal
Mismatched elements: 1 / 1 …Run Code Online (Sandbox Code Playgroud) 我想用keras作为作者归属.我有一个(文本,标签)列表.我试图使用keras内置矢量化器,但我收到以下错误:
向量化序列数据...回溯(最近一次调用最后一次):文件"",第1行,在文件"/home/angelo/org/courses/corpusling/finalproject/src/neuralnet.py",第46行,在X_train中= tokenizer.texts_to_matrix(X_train,mode ='binary')文件"/home/angelo/org/courses/corpusling/finalproject/venv0/lib/python3.5/site-packages/keras/preprocessing/text.py",第166行,在texts_to_matrix sequences = self.texts_to_sequences(texts)文件"/home/angelo/org/courses/corpusling/finalproject/venv0/lib/python3.5/site-packages/keras/preprocessing/text.py",第131行,在self.texts_to_sequences_generator(文本)中的vect的texts_to_sequences中:文件"/home/angelo/org/courses/corpusling/finalproject/venv0/lib/python3.5/site-packages/keras/preprocessing/text.py",第150行,在texts_to_sequences_generator中i = self.word_index.get(w)AttributeError:'Tokenizer'对象没有属性'word_index'
以下是我目前的代码:
import glob
import os
import pandas as pd
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.preprocessing.text import Tokenizer
from keras.utils import np_utils
def get_label(filename):
tmp = os.path.split(filename)[0]
label = os.path.basename(tmp)
return label
def read_file(filename):
with open(filename) as f:
text = f.read()
return text
traindocs = "../data/C50/C50train/*/*.txt"
testdocs = "../data/C50/C50test/*/*.txt"
documents_train = (read_file(f) for f in glob.iglob(traindocs))
labels_train = (get_label(f) for f in glob.iglob(traindocs)) …Run Code Online (Sandbox Code Playgroud) 我有一个包含x,y坐标列表的pandas数据帧,我正在使用scipy.spatial在给定额外点的情况下找到数据帧中的最近点.
import pandas as pd
import numpy as np
import scipy.spatial as spatial
stops = pd.read_csv("stops.csv")
pt = x,y
points = np.array(zip(stops['stop_lat'],stops['stop_lon']))
nn = points[spatial.KDTree(points).query(pt)[1]]
Run Code Online (Sandbox Code Playgroud)
现在,在python 2.7中,这个工作完美无缺.在python 3.5中,我收到以下错误:
.../scipy/spatial/kdtree.py", line 231, in __init__
self.n, self.m = np.shape(self.data)
ValueError: not enough values to unpack (expected 2, got 0)
Run Code Online (Sandbox Code Playgroud)
在文档中我找不到任何有用的东西.