我从CSV文件中加载了一些机器学习数据.前两列是观察,其余列是特征.
目前,我做以下事项:
data = pandas.read_csv('mydata.csv')
Run Code Online (Sandbox Code Playgroud)
这给出了类似的东西:
data = pandas.DataFrame(np.random.rand(10,5), columns = list('abcde'))
Run Code Online (Sandbox Code Playgroud)
我想两个dataframes切片此数据框:一个包含列a,并b和包含列一个c,d和e.
写不出类似的东西是不可能的
observations = data[:'c']
features = data['c':]
Run Code Online (Sandbox Code Playgroud)
我不确定最好的方法是什么.我需要一个pd.Panel吗?
顺便说一句,我发现数据帧索引非常不一致:data['a']是允许的,但data[0]不是.另一方面,data['a':]不允许,但是data[0:].这是否有实际原因?如果列被Int索引,这实在令人困惑data[0] != data[0:1]
我有一个看起来像这样的csv文件:
week,value1,value2
1,2,3
2,7,9
Run Code Online (Sandbox Code Playgroud)
我想使用谷歌图表绘制它的叠加图(周是我的x(水平)值,值1和值2是两组y).不幸的是,我没有找到任何简单的方法.这可能与我在js中成为一个完整的菜鸟有关.
有没有简单的方法呢?
我在github上有一个项目,我想在我的服务器上镜像.
我尝试过以下几点:git clone --mirror git@github.com:user/repo.git.
然后在repo.git目录中,我有以下文件结构(例如,输出ls):
FETCH_HEAD branches/ description info/ packed-refs HEAD config hooks/ objects/ refs/
所以我的问题是:我的文件在哪里!?看起来有一堆git相关的东西,但我找不到我写的代码.我错过了一些明显的东西吗
顺便说一句,git status返回fatal: This operation must be run in a work tree但git branch返回分支.奇怪的.
我正在尝试计算一个向量,其总和为 1,其元素定义如下:
v[i] = exp(tmp[i])/exp(tmp).sum()
Run Code Online (Sandbox Code Playgroud)
问题是指数中的值可能很大(在 -10^2 和 10^2 之间),使得指数计算结果为 inf 或 0。
我尝试了一些变体,例如用分子和分母减去最大元素或 tmp 的平均值,但这仍然不够。
基本上,我需要一种减少 tmp 中平均值和离散度的转换,或者对此计算的巧妙排序。
我使用 numpy 数组作为容器,exp 是 numpy.exp。
我的问题是那一个的扩展:不可变的numpy数组?
此代码打印False,因为即使a是不可变的,b也不是.
a = np.arange(10)
a.setflags(write=False)
b = a[1:]
b[1] = -1
print a == np.arange(10)
Run Code Online (Sandbox Code Playgroud)
这首先打破了只读数组的目的.有没有办法在numpy中继承readonlibility?