我在python中相对较新,正在研究C语言.由于我在python中看到了许多新功能,我不知道,我想知道是否有一个函数可以从python中的文件请求10000行.
如果存在这样的函数,这样的东西就是我所期望的:
lines = get_10000_lines(file_pointer)
Run Code Online (Sandbox Code Playgroud)
python是否有内置功能,或者我可以为此下载任何模块吗?如果没有,我该如何做到这一点是最简单的方法.我需要分析一个巨大的文件,所以我想读取10000行并分析每次以节省内存.
谢谢你的帮助!
我在这里的"大数据流程"中比较新,希望能找到一些关于如何处理50 GB csv文件的建议.目前的问题如下:
表看起来像:
ID,Address,City,States,... (50 more fields of characteristics of a house)
1,1,1st street,Chicago,IL,...
# the first 1 is caused by write.csv, they created an index raw in the file
Run Code Online (Sandbox Code Playgroud)
我想找到属于加利福尼亚州旧金山的所有行.它应该是一个简单的问题,但csv太大了.
我知道我有两种方法在R中执行它,另一种方法是使用数据库来处理它:
(1)使用R的ffdf包:
自上次保存文件以来,它使用的是write.csv,它包含所有不同的类型.
all <- read.csv.ffdf(
file="<path of large file>",
sep = ",",
header=TRUE,
VERBOSE=TRUE,
first.rows=10000,
next.rows=50000,
)
Run Code Online (Sandbox Code Playgroud)
控制台给了我这个:
Error in ff(initdata = initdata, length = length, levels = levels, ordered = ordered,
: vmode 'character' not implemented
Run Code Online (Sandbox Code Playgroud)
通过在线搜索,我找到了几个不适合我的案例的答案,我无法理解如何将"字符"转换为他们提到的"因素"类型.
然后我尝试使用read.table.ffdf,这更是灾难.我找不到那个坚实的指南.
(2)使用R的readline:
我知道这是另一种好方法,但找不到有效的方法来做到这一点.
(3)使用SQL:
我不知道如何将文件传输到SQL版本,以及如何处理这个,如果有一个很好的指南我想尝试.但总的来说,我想坚持使用R.
感谢您的回复和帮助!
我主要在Mac上工作,所以我不知道如何在Windows 8上设置git环境.
今天,我将在我的Windows机器上启动AngularJS.在教程中,我看到它需要git,我下载了"Git for windows",名为"MINGW64".
在教程中,它让我使用命令:
apt-get install nodejs-legacy npm
nodejs --version
npm --version
Run Code Online (Sandbox Code Playgroud)
然后,bash告诉我
bash: apt-get: command not found
Run Code Online (Sandbox Code Playgroud)
我很困惑,并认为apt-get是预装的东西,所以我更改了git设置并使用所有不同的设置重新安装它.它仍然是一样的.
我很惊讶"sudo"也没有找到.
接下来,我在网上搜索并且有许多模糊的答案指向路径,我认为这可能是问题,但是这个人没有明确说明如何解决它.我希望能从Stack溢出社区获得一些帮助如何在git for windows上安装apt-get和其他基本命令包.
如果它是重复的,请指导我一些如何使用正确的话来提及这个问题.我在Google上尝试过"git for windows has apt-get"等等,对我来说没有运气.这困扰了我一整夜.谢谢!
我对机器学习领域比较陌生,如果我的一些问题确实很基本,请原谅。
目前情况:总体目标是尝试改进在超级计算机集群上运行的 r 中的 h2o 包的一些代码。然而,由于数据量太大,单个节点用 h2o 确实需要一天多的时间,因此,我们决定使用多个节点来运行模型。我想出了一个主意:
(1) 分布每个节点构建(nTree/num_node)棵树并保存到模型中;
(2)在集群的每个节点上运行(nTree/num_node)个森林中的树;
(3)将树木重新合并并改造原始森林,并取测量结果的平均值。
后来我意识到这可能有风险。但我找不到实际的支持或反对声明,因为我不是专注于机器学习的程序员。
问题:
我可以在这里展示的实际涉及数字的例子是:
我有一个包含 80k 行和 2k 列的随机森林任务,并且希望树的数量为 64 棵。我所做的是将 16 棵树放在每个节点上,与整个数据集一起运行,并且四个节点中的每一个都提出一个 RF 模型。我现在正在尝试将每个模型中的树合并到这个大型 RF 模型中,并对测量值进行平均(来自这四个模型中的每一个)。
我发现了一个非常有趣的问题.
当我使用以下代码时:
int main() {
char * in = "hi, ";
char str[10];
strncpy(str, in, 2);
printf("output = %s", str);
return 0;
}
Run Code Online (Sandbox Code Playgroud)
我的结果是什么,printf
没有用.
但如果我用这个:
int main() {
char * in = "hi, ";
char * str = malloc(sizeof(char) * 10) ;
strncpy(str, in, 2);
printf("output = %s", str);
return 0;
}
Run Code Online (Sandbox Code Playgroud)
我能得到我的期望.
为什么会这样?是因为堆栈和堆?究竟是如何产生这种巨大差异的呢?
我对 python 不太陌生,但对discord.py 很陌生。我尝试浏览discord.py手册,但没有找到可以在discord机器人上存储一些临时变量的位置。
Discord.py 手册:http://discordpy.readthedocs.io/en/latest/api.html
例如,在PHP SESSION中,我们可以在SESSION()上存储信息。Discord.py 有同样的东西吗?
例如,如果我们有用户“A”和用户“B”。“A”将被存储为“A_Object”的对象,例如消息等。与“B_Object”类似,但与“A_Object”不同。在discord.py中,有类似的函数吗?
十分感谢你的帮助!
我对IOS界面设计比较陌生,目前面临这个问题:
我有一个应用程序想要在导航控制器之前有一个教程(UIPageViewController),它将是应用程序将输入的故事板上的主控制器.
现在,我想要实现的是让app在第一次运行应用程序时提前运行我的Tutorial Pages,然后进入NavigationController.如果不是第一次,用户将直接转到NavigationController.
经过一些研究,我发现至少有两种方法可以做到:
到目前为止,这是我能找到的两种方式.然而,对于第二种,我找不到处理"完全跳过教程页面"的最佳方法.或者可能有更好的方法来做到这一点.我希望应用程序更加优化,并想知道为IOS专业人员的选择做什么的常用方法.
谢谢!
(ps如果问题是重复的或不清楚,请留下评论.再次感谢!如果可以显示github演示的一些链接,可能会有奖励.)