请帮助我理解生成算法和 判别算法之间的区别,记住我只是一个初学者.
我有2个DataFrames df1和df2,它们具有相同的列名['a','b','c']并按日期索引.日期索引可以具有类似的值.我想创建一个DataFrame df3,只有来自列['c']的数据分别重命名为'df1'和'df2',并且具有正确的日期索引.我的问题是我无法正确合并索引.
df1 = pd.DataFrame(np.random.randn(5,3), index=pd.date_range('01/02/2014',periods=5,freq='D'), columns=['a','b','c'] )
df2 = pd.DataFrame(np.random.randn(8,3), index=pd.date_range('01/01/2014',periods=8,freq='D'), columns=['a','b','c'] )
df1
a b c
2014-01-02 0.580550 0.480814 1.135899
2014-01-03 -1.961033 0.546013 1.093204
2014-01-04 2.063441 -0.627297 2.035373
2014-01-05 0.319570 0.058588 0.350060
2014-01-06 1.318068 -0.802209 -0.939962
df2
a b c
2014-01-01 0.772482 0.899337 0.808630
2014-01-02 0.518431 -1.582113 0.323425
2014-01-03 0.112109 1.056705 -1.355067
2014-01-04 0.767257 -2.311014 0.340701
2014-01-05 0.794281 -1.954858 0.200922
2014-01-06 0.156088 0.718658 -1.030077
2014-01-07 1.621059 0.106656 -0.472080
2014-01-08 -2.061138 -2.023157 0.257151
Run Code Online (Sandbox Code Playgroud)
df3 DataFrame应具有以下形式:
df3
df1 df2 …Run Code Online (Sandbox Code Playgroud) 我有一个str变量:str,我想将它转换为单个元素列表,我试试这个:
>>> list(var_1)
['h', 'e', 'l', 'l', 'o']
Run Code Online (Sandbox Code Playgroud)
这不是var_1 = "hello"我想要的.
我怎么做?
我是编程新手,我需要一个程序,可以在一个代码中同时选择Numpy数组的所有奇数行和所有偶数列.这是我试过的:
>In [78]: a
>Out[78]:
>array([[ 1, 2, 3, 4, 5],
> [ 6, 7, 8, 9, 10],
> [11, 12, 13, 14, 15],
> [16, 17, 18, 19, 20]])
>
>In [79]: for value in range(a.shape[0]):
> if value %2 == 0:
> print a[value,:]
>[1 2 3 4 5]
>[11 12 13 14 15]
>
>In [82]: for value in range(a.shape[1]):
> if value %2 == 1:
> print a[:,value]
>[ 2 7 12 17]
>[ 4 9 …Run Code Online (Sandbox Code Playgroud) 默认情况下,seaborn 在 distplots 中置换 X 轴范围从 -5 到 35。但我需要用 1 个单位显示 X 轴范围从 1 到 30 的 distplots。我怎样才能做到这一点?
我需要在加载csv时删除带有标签名称的列.我正在按如下方式阅读csv,并希望在其中添加参数来执行此操作.谢谢.pandas
pd.read_csv("sample.csv")
我知道在阅读csv后要做的事情:
df.drop('name', axis=1)
Run Code Online (Sandbox Code Playgroud) 我在远程服务器上运行一个使用 nohup 的 python 脚本。
其次,我使用以下命令运行 python 脚本:
nohup python backmap.py mpirun -np 48 &
python 脚本包含以下几行:
frame = []
file_in = open("Traj_equil_prot.pdb", "r")
for line in file_in:
if line.startswith('TITLE'):
frame.append(line[127:134])
import os
for fileNum in range(631, 29969):
os.system("./initram-v5.sh -f Traj_equil_prot_frame" + str(fileNum) + ".pdb -o Traj_equilprot_aa_frame" + str(frame[fileNum]) + ".gro -to amber -p topol.top")
Run Code Online (Sandbox Code Playgroud)
脚本一整天都运行得很好。但现在它刚刚崩溃,当我再次尝试重新启动它时,出现以下错误:
回溯(最近一次调用最后一次):文件“”,第 1 行,在 IOError 中:[Errno 5] 输入/输出错误
该文件位于工作目录中。我尝试再次断开/连接,但仍然是同样的问题。我不知道我错过了什么。请问有什么帮助吗?
我在MongoDB我的项目中使用了一段时间。但是嗯,目前是MongoDB指南针应用程序的新手。所以当我想一次删除很多文件的时候。我将如何在 中执行该操作Mongo Compass?
TensorFlow 1.4将TF数据集移动到core(tf.data.Dataset),doc/tutorial建议tf.estimator用于训练模型.
但是,正如本页末尾所建议的那样,必须在input_fn函数内实例化数据集对象及其迭代器.这意味着每次调用都将重新开始数据集的迭代estimator.train(input_fn, steps).因此,调用步骤<在纪元中的样本数量,将导致在数据集的子集上训练模型.
因此我的问题.是否可以使用Estimator + Dataset实现类似的功能:
for i in range(num_epochs):
# Train for some steps
estimator.train(input_fn=train_input_fn, steps=valid_freq)
validation_iterator.
# Evaluate on the validation set (steps=None, we evaluate on the full validation set)
estimator.evaluate(input_fn=valid_input_fn)
Run Code Online (Sandbox Code Playgroud)
没有在每次调用时从头开始训练样本迭代estimator.train(input_fn=train_input_fn, steps=valid_freq)?
例如,与此处不同,实例化数据集及其迭代器input_fn?我尝试过,但它不工作,因为那么输入(从数据集迭代器)和模型(从估计model_fn)是不一样的图的一部分.
谢谢
相关的GitHub问题
我想知道在哪里可以找到 NLTK 停用词支持的语言(及其键)的完整列表。
我在https://pypi.org/project/stop-words/ 中找到了一个列表,但它不包含每个国家/地区的密钥。因此,您是否可以通过简单地检索列表尚不清楚stopwords.words("Bulgarian")。事实上,这会引发错误。
我查看了 NLTK 站点,有 4 个文档与“停用词”匹配,但没有一个文档描述了这一点。 https://www.nltk.org/search.html?q=stopwords&check_keywords=yes&area=default
他们的书中什么也没说:http ://www.nltk.org/book/ch02.html#stopwords_index_term
那么,你知道我在哪里可以找到钥匙列表吗?
python ×7
dataframe ×2
pandas ×2
algorithm ×1
csv ×1
data-science ×1
difference ×1
mongodb ×1
nlp ×1
nltk ×1
numpy ×1
seaborn ×1
stop-words ×1
tensorflow ×1