对于熊猫,任何人都知道,如果有任何数据类型
(ⅰ) ,float64
(int64
和的其它变体np.number
等float32
,int8
等)
(ⅱ) bool
(iii)datetime64
,timedelta64
如字符串列,总有一个dtype
的object
?
或者,我想知道,如果除上述列表中的(i),(ii)和(iii)之外还有任何数据类型,那么pandas
它不是dtype
一个object
?
假设我有两个数据帧:
import pandas
....
....
test1 = pandas.DataFrame([1,2,3,4,5])
....
....
test2 = pandas.DataFrame([4,2,1,3,7])
....
Run Code Online (Sandbox Code Playgroud)
我试过test1.append(test2)
但它相当于R的rbind
.
如何将两者组合成一个类似于cbind
R中函数的数据帧的两列?
与Python相比,阅读Julia中的大文本/ csv文件需要很长时间.以下是读取大小为486.6 MB且包含153895行和644列的文件的时间.
python 3.3的例子
import pandas as pd
import time
start=time.time()
myData=pd.read_csv("C:\\myFile.txt",sep="|",header=None,low_memory=False)
print(time.time()-start)
Output: 19.90
Run Code Online (Sandbox Code Playgroud)
R 3.0.2示例
system.time(myData<-read.delim("C:/myFile.txt",sep="|",header=F,
stringsAsFactors=F,na.strings=""))
Output:
User System Elapsed
181.13 1.07 182.32
Run Code Online (Sandbox Code Playgroud)
Julia 0.2.0(Julia Studio 0.4.4)示例#1
using DataFrames
timing = @time myData = readtable("C:/myFile.txt",separator='|',header=false)
Output:
elapsed time: 80.35 seconds (10319624244 bytes allocated)
Run Code Online (Sandbox Code Playgroud)
Julia 0.2.0(Julia Studio 0.4.4)示例#2
timing = @time myData = readdlm("C:/myFile.txt",'|',header=false)
Output:
elapsed time: 65.96 seconds (9087413564 bytes allocated)
Run Code Online (Sandbox Code Playgroud)
Julia比R快,但与Python相比相当慢.我可以做些什么来加快阅读大文本文件的速度?
另一个问题是内存中的大小是Julia中硬盘文件大小的18倍,但是python只有2.5倍大小.在Matlab中,我发现它对于大文件来说是最有效的内存,它是2 x大小的硬盘文件大小.Julia内存中文件大小的任何特殊原因?
关于RStudio的问题.假设我在控制台中运行代码:
> code1()
Run Code Online (Sandbox Code Playgroud)
假设code1()
在控制台上没有打印任何内容,但code1()
上面需要一个小时才能完成.在我等待的时候,我想在别的东西上工作code1()
.可能吗?有没有runInBackground
我可以使用的功能如下
> runInBackground(code1())
> code2()
Run Code Online (Sandbox Code Playgroud)
替代方案是运行两个RStudios或编写Rscript
用于运行的批处理文件code1()
,但我想知道如果没有离开RStudio控制台我能做些什么更容易.我试图浏览R的帮助文档,但没有提出任何东西(或者可能是我没有使用正确的关键字).
这View
是一个非常有用的功能,允许我在R中查看大数据帧的横截面.
View
对于Python的熊猫,R的功能是否相同DataFrame
?
我RStudio
用于R和PyCharm
Python.
如何在Spyder控制台中执行Python 3.3脚本,那有变量?
我的示例代码(C:/test/myfile.py)是
from sys import argv
script, first, second, third = argv
print("The script is called:", script)
print("Your first variable is:", first)
print("Your second variable is:", second)
print("Your third variable is:", third)
Run Code Online (Sandbox Code Playgroud)
我试过exec(open("C:\ test\myfile.py").read()) - 我得到的错误是"ValueError:需要多于1个值来解包.我想先提供变量=" 1st",second ="2nd",third ="3rd".如何编写exec()以便它可以处理输入?
我正在使用Python 3.3,64位安装,Windows操作系统,安装:WinPython.
我有一个csv文件,其中有几列是数字,很少是字符串.当我尝试myDF.dtypes
它时,显示所有字符串列为object
.
有人在此之前询问了一个相关的问题,为什么要这样做.是否可以将dtype
from对象重新转换为字符串?
另外,在一般情况下,没有任何简单的方法来重铸dtype
从int64
和float64
到int32
和float32
和的数据的大小(/在存储器中在磁盘上)保存?
我想在Windows中尝试更快的R版本.pqR/Riposte没有Windows版本.Renjin的网站有一个Renjin Studio GUI(适用于所有平台),它打开了一个可以运行R命令的控制台,但这并不太有用.我知道人人还在开发中,但我想问一下:是否有可能在RStudio内使用人人,即在RStudio内设置"R版"到人津?
我尝试导入rpy2时出错.这是代码和错误.
>>> import pandas.rpy.common
Traceback (most recent call last):
File "C:\PF\WinPython-64bit-3.3.3.3\python-3.3.3.amd64\lib\site-packages\IPython\core\interactiveshell.py", line 2828, in run_code
exec(code_obj, self.user_global_ns, self.user_ns)
File "<ipython-input-148-c258a0f70d44>", line 1, in <module>
import pandas.rpy.common
File "C:\PF\WinPython-64bit-3.3.3.3\python-3.3.3.amd64\lib\site-packages\pandas\rpy\common.py", line 14, in <module>
from rpy2.robjects.packages import importr
ImportError: No module named 'rpy2'
Run Code Online (Sandbox Code Playgroud)
可能是什么问题?我正在使用python版本3.3.3和pandas版本0.13.1
编辑
试图单独安装rpy2.
直接使用python setup.py install
给了我一个os
没有模块的错误popen3
.
直接从Christoph Gohlke的网站http://www.lfd.uci.edu/~gohlke/pythonlibs/安装exe(rpy2-2.3.9.win32-py3.3.exe).但是,如果我尝试这样做,import pandas.rpy.common as com
我会收到以下错误(加载DLL的问题from rpy2.rinterface._rinterface import *
:
Traceback (most recent call last):
File "C:\PF\WinPython-64bit-3.3.3.3\python-3.3.3.amd64\lib\site-packages\IPython\core\interactiveshell.py", line 2828, in run_code
exec(code_obj, self.user_global_ns, …
Run Code Online (Sandbox Code Playgroud)