小编Sha*_*ang的帖子

如何`wget`文本文件中的URL列表?

假设我在一个位置有一个包含数百个URL的文本文件,例如

http://url/file_to_download1.gz
http://url/file_to_download2.gz
http://url/file_to_download3.gz
http://url/file_to_download4.gz
http://url/file_to_download5.gz
....
Run Code Online (Sandbox Code Playgroud)

下载每个文件的正确方法是什么wget?我怀疑有一个命令wget -flag -flag text_file.txt

text wget

41
推荐指数
5
解决办法
6万
查看次数

如何比较github中同一分支上的两个不同的提交?

在GitHub上比较同一分支的历史对我来说非常困惑.我经常挣扎:

如果我compare/master在github repo名称之后使用URL,我可以根据下拉菜单中的选项与repo中的其他分支进行比较

https://help.github.com/articles/comparing-commits-across-time/

但是,我通常想比较master上的几个提交.

这怎么容易做到?我能得到一个更明确的例子吗?

git github

27
推荐指数
3
解决办法
1万
查看次数

/ =运算符在Python中意味着什么?

运算符/=(斜杠等于)在Python中意味着什么?

我知道|=是一个集合运算符.我以前没见过/=.

python syntax

24
推荐指数
1
解决办法
3万
查看次数

为什么numpy.linalg.solve()提供比numpy.linalg.inv()更精确的矩阵反转?

我不太明白为什么numpy.linalg.solve()给出更准确的答案,而numpy.linalg.inv()在某种程度上分解,给出(我相信的)估计.

举一个具体的例子,我正在求解方程式C^{-1} * d ,其中C表示一个矩阵,并且d是一个向量数组.为了便于讨论,尺寸C是形状(1000,1000)d形状(1,1000).

numpy.linalg.solve(A, b)求解A*x=bx 的等式,即x = A^{-1} * b.因此,我可以通过求解这个等式

(1)

inverse = numpy.linalg.inv(C)
result = inverse * d
Run Code Online (Sandbox Code Playgroud)

或(2)

numpy.linalg.solve(C, d)
Run Code Online (Sandbox Code Playgroud)

方法(2)给出了更精确的结果.为什么是这样?

究竟发生了什么,使一个"比另一个更好"?

python arrays numpy matrix linear-algebra

23
推荐指数
1
解决办法
1万
查看次数

AttributeError:seaborn中的未知属性图例

seaborn stripplot具有允许的功能hue.

使用https://stanford.edu/~mwaskom/software/seaborn/generated/seaborn.stripplot.html中的示例

import seaborn as sns
sns.set_style("whitegrid")
tips = sns.load_dataset("tips")
ax = sns.stripplot(x=tips["total_bill"])
ax = sns.stripplot(x="sex", y="total_bill", hue="day", data=tips, jitter=True)
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

在这种情况下,图例非常小,每天显示不同的色调.但是,我想删除传说.

通常,一个包括参数legend=False.但是,对于stripplot,这似乎输出属性错误:

AttributeError: Unknown property legend
Run Code Online (Sandbox Code Playgroud)

可以删除传说stripplots吗?如果是这样,那怎么做呢?

python matplotlib legend pandas seaborn

18
推荐指数
1
解决办法
1万
查看次数

如何在pandas dataframe列中选择一系列值?

import pandas as pd
import numpy as np
data = 'filename.csv'
df = pd.DataFrame(data)
df 

        one       two     three  four   five
a  0.469112 -0.282863 -1.509059  bar   True
b  0.932424  1.224234  7.823421  bar  False
c -1.135632  1.212112 -0.173215  bar  False
d  0.232424  2.342112  0.982342  unbar True
e  0.119209 -1.044236 -0.861849  bar   True
f -2.104569 -0.494929  1.071804  bar  False
Run Code Online (Sandbox Code Playgroud)

我想为某列选择一个范围,让我们说列two.我想选择介于-0.5和+0.5之间的所有值.怎么做到这一点?

我期待用

-0.5 < df["two"] < 0.5
Run Code Online (Sandbox Code Playgroud)

但这(自然)给出了一个ValueError:

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() …
Run Code Online (Sandbox Code Playgroud)

python range dataframe python-3.x pandas

18
推荐指数
2
解决办法
5万
查看次数

如何从Mac上的*.jar文件中提取源代码?

我很困惑.我下载了*.jar文件作为一些软件.所以,我想提取源代码来查看它

我用了这个命令 jar xf filename.jar

它返回了另外两个*.jar文件和一个*.class文件.我仍然无法使用标准文本编辑器在终端中打开它们.

也许这不是开源软件?有没有办法看看这里做了什么?

java jar extraction

15
推荐指数
1
解决办法
2万
查看次数

如何将"bytes"对象转换为pandas Dataframe,Python3.x中的文字字符串?

我有一个Python3.x pandas DataFrame,其中某些列是字符串,表示为字节(如在Python2.x中)

import pandas as pd
df = pd.DataFrame(...)
df
       COLUMN1         ....
0      b'abcde'        ....
1      b'dog'          ....
2      b'cat1'         ....
3      b'bird1'        ....
4      b'elephant1'    ....
Run Code Online (Sandbox Code Playgroud)

当我通过列访问时df.COLUMN1,我明白了Name: COLUMN1, dtype: object

但是,如果我按元素访问,它是一个"字节"对象

df.COLUMN1.ix[0].dtype
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'bytes' object has no attribute 'dtype'
Run Code Online (Sandbox Code Playgroud)

如何将这些转换为"常规"字符串?也就是说,我怎么能摆脱这个b''前缀?

python arrays byte python-3.x pandas

15
推荐指数
3
解决办法
2万
查看次数

熊猫:将多个时间序列DataFrame绘制成单个图

我有以下pandas DataFrame:

     time      Group      blocks
0     1        A           4
1     2        A           7
2     3        A           12
3     4        A           17
4     5        A           21 
5     6        A           26
6     7        A           33
7     8        A           39
8     9        A           48
9     10       A           59
    ....        ....          ....
36     35      A           231
37     1       B           1
38     2       B           1.5
39     3       B           3
40     4       B           5
41     5       B           6
    ....        ....          ....
911    35      Z           349
Run Code Online (Sandbox Code Playgroud)

这是多个时间序列,疑问句数据的数据帧,从 …

python matplotlib pandas pandas-groupby

12
推荐指数
2
解决办法
3万
查看次数

如何将多个pandas数据帧连接到一个大于内存的dask数据帧?

我正在解析制表符分隔的数据以创建表格数据,我想将其存储在HDF5中.

我的问题是我必须将数据聚合成一种格式,然后转储到HDF5.这是大约1 TB大小的数据,所以我自然无法将其放入RAM中.Dask可能是完成此任务的最佳方式.

如果我使用解析我的数据来适应一个pandas数据帧,我会这样做:

import pandas as pd
import csv   

csv_columns = ["COL1", "COL2", "COL3", "COL4",..., "COL55"]
readcsvfile = csv.reader(csvfile)

total_df = pd.DataFrame()    # create empty pandas DataFrame
for i, line in readcsvfile:
    # parse create dictionary of key:value pairs by table field:value, "dictionary_line"
    # save dictionary as pandas dataframe
    df = pd.DataFrame(dictionary_line, index=[i])  # one line tabular data 
    total_df = pd.concat([total_df, df])   # creates one big dataframe
Run Code Online (Sandbox Code Playgroud)

使用dask执行相同的任务,用户应该尝试这样的事情:

import pandas as pd
import csv 
import dask.dataframe as dd
import …
Run Code Online (Sandbox Code Playgroud)

hdf5 bigdata pytables pandas dask

12
推荐指数
1
解决办法
2412
查看次数