小编uda*_*day的帖子

大熊猫认识到的所有dtypes是什么？

对于熊猫,任何人都知道,如果有任何数据类型

(ⅰ) ,float64(int64 和的其它变体np.number等float32,int8等)

(ⅱ) bool

(iii)datetime64,timedelta64

如字符串列,总有一个dtype的object？

或者,我想知道,如果除上述列表中的(i),(ii)和(iii)之外还有任何数据类型,那么pandas它不是dtype一个object？

python python-3.x pandas

uda*_*day

lucky-day

46
推荐指数

2
解决办法

6万
查看次数

大熊猫相当于R的cbind(垂直连接/堆栈向量)

假设我有两个数据帧:

import pandas
....
....
test1 = pandas.DataFrame([1,2,3,4,5])
....
....
test2 = pandas.DataFrame([4,2,1,3,7])
....

Run Code Online (Sandbox Code Playgroud)

我试过test1.append(test2)但它相当于R的rbind.

如何将两者组合成一个类似于cbindR中函数的数据帧的两列？

concat python-3.x pandas cbind

uda*_*day

2015 08-29

29
推荐指数

2
解决办法

4万
查看次数

与Python相比,阅读朱莉娅的csv很慢

与Python相比,阅读Julia中的大文本/ csv文件需要很长时间.以下是读取大小为486.6 MB且包含153895行和644列的文件的时间.

python 3.3的例子

import pandas as pd
import time
start=time.time()
myData=pd.read_csv("C:\\myFile.txt",sep="|",header=None,low_memory=False)
print(time.time()-start)

Output: 19.90

Run Code Online (Sandbox Code Playgroud)

R 3.0.2示例

system.time(myData<-read.delim("C:/myFile.txt",sep="|",header=F,
   stringsAsFactors=F,na.strings=""))

Output:
User    System  Elapsed
181.13  1.07    182.32

Run Code Online (Sandbox Code Playgroud)

Julia 0.2.0(Julia Studio 0.4.4)示例#1

using DataFrames
timing = @time myData = readtable("C:/myFile.txt",separator='|',header=false)

Output:
elapsed time: 80.35 seconds (10319624244 bytes allocated)

Run Code Online (Sandbox Code Playgroud)

Julia 0.2.0(Julia Studio 0.4.4)示例#2

timing = @time myData = readdlm("C:/myFile.txt",'|',header=false)

Output:
elapsed time: 65.96 seconds (9087413564 bytes allocated)

Run Code Online (Sandbox Code Playgroud)

Julia比R快,但与Python相比相当慢.我可以做些什么来加快阅读大文本文件的速度？
另一个问题是内存中的大小是Julia中硬盘文件大小的18倍,但是python只有2.5倍大小.在Matlab中,我发现它对于大文件来说是最有效的内存,它是2 x大小的硬盘文件大小.Julia内存中文件大小的任何特殊原因？

julia

uda*_*day

2014 02-20

23
推荐指数

6
解决办法

8410
查看次数

rstudio - 可以在后台运行代码

关于RStudio的问题.假设我在控制台中运行代码:

> code1()

Run Code Online (Sandbox Code Playgroud)

假设code1()在控制台上没有打印任何内容,但code1()上面需要一个小时才能完成.在我等待的时候,我想在别的东西上工作code1().可能吗？有没有runInBackground我可以使用的功能如下

> runInBackground(code1())
> code2()

Run Code Online (Sandbox Code Playgroud)

替代方案是运行两个RStudios或编写Rscript用于运行的批处理文件code1(),但我想知道如果没有离开RStudio控制台我能做些什么更容易.我试图浏览R的帮助文档,但没有提出任何东西(或者可能是我没有使用正确的关键字).

r rstudio

uda*_*day

2018 11-08

20
推荐指数

4
解决办法

8349
查看次数

相当于R's对Python的熊猫的看法

这View是一个非常有用的功能,允许我在R中查看大数据帧的横截面.

View对于Python的熊猫,R的功能是否相同DataFrame？

我RStudio用于R和PyCharmPython.

python r pycharm pandas

uda*_*day

2014 11-12

19
推荐指数

2
解决办法

7807
查看次数

C++中的数据框架库

如何使用C++在R,Python和其他语言中实现数据框？

c++

uda*_*day

2017 10-25

15
推荐指数

1
解决办法

7090
查看次数

如何在Spyder控制台中使用变量执行Python 3.3脚本？

如何在Spyder控制台中执行Python 3.3脚本,那有变量？

我的示例代码(C:/test/myfile.py)是

from sys import argv
script, first, second, third = argv
print("The script is called:", script)
print("Your first variable is:", first)
print("Your second variable is:", second)
print("Your third variable is:", third)

Run Code Online (Sandbox Code Playgroud)

我试过exec(open("C:\ test\myfile.py").read()) - 我得到的错误是"ValueError:需要多于1个值来解包.我想先提供变量=" 1st",second ="2nd",third ="3rd".如何编写exec()以便它可以处理输入？

我正在使用Python 3.3,64位安装,Windows操作系统,安装:WinPython.

python python-3.x spyder

uda*_*day

lucky-day

13
推荐指数

2
解决办法

4万
查看次数

pandas dtype从对象转换为字符串

我有一个csv文件,其中有几列是数字,很少是字符串.当我尝试myDF.dtypes它时,显示所有字符串列为object.

有人在此之前询问了一个相关的问题,为什么要这样做.是否可以将dtypefrom对象重新转换为字符串？
另外,在一般情况下,没有任何简单的方法来重铸dtype从int64和float64到int32和float32和的数据的大小(/在存储器中在磁盘上)保存？

python pandas

uda*_*day

2017 05-23

10
推荐指数

1
解决办法

2万
查看次数

是否可以在rstudio内使用renjin

我想在Windows中尝试更快的R版本.pqR/Riposte没有Windows版本.Renjin的网站有一个Renjin Studio GUI(适用于所有平台),它打开了一个可以运行R命令的控制台,但这并不太有用.我知道人人还在开发中,但我想问一下:是否有可能在RStudio内使用人人,即在RStudio内设置"R版"到人津？

r rstudio renjin

uda*_*day

2014 05-26

10
推荐指数

1
解决办法

523
查看次数

rpy2导入无效

我尝试导入rpy2时出错.这是代码和错误.

>>> import pandas.rpy.common
Traceback (most recent call last):  

File "C:\PF\WinPython-64bit-3.3.3.3\python-3.3.3.amd64\lib\site-packages\IPython\core\interactiveshell.py", line 2828, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)

File "<ipython-input-148-c258a0f70d44>", line 1, in <module>
import pandas.rpy.common

File "C:\PF\WinPython-64bit-3.3.3.3\python-3.3.3.amd64\lib\site-packages\pandas\rpy\common.py", line 14, in <module>
from rpy2.robjects.packages import importr

ImportError: No module named 'rpy2'

Run Code Online (Sandbox Code Playgroud)

可能是什么问题？我正在使用python版本3.3.3和pandas版本0.13.1

编辑

试图单独安装rpy2.

直接使用python setup.py install给了我一个os没有模块的错误popen3.
直接从Christoph Gohlke的网站http://www.lfd.uci.edu/~gohlke/pythonlibs/安装exe(rpy2-2.3.9.win32-py3.3.exe).但是,如果我尝试这样做,import pandas.rpy.common as com我会收到以下错误(加载DLL的问题from rpy2.rinterface._rinterface import *:
```
Traceback (most recent call last):
  File "C:\PF\WinPython-64bit-3.3.3.3\python-3.3.3.amd64\lib\site-packages\IPython\core\interactiveshell.py", line 2828, in run_code
exec(code_obj, self.user_global_ns, …
```
Run Code Online (Sandbox Code Playgroud)

python rpy2 pandas

uda*_*day

2014 02-19

9
推荐指数

2
解决办法

2万
查看次数