小编win*_*und的帖子

有没有办法从python中的文件读取10000行？

我在python中相对较新,正在研究C语言.由于我在python中看到了许多新功能,我不知道,我想知道是否有一个函数可以从python中的文件请求10000行.

如果存在这样的函数,这样的东西就是我所期望的:

lines = get_10000_lines(file_pointer)

Run Code Online (Sandbox Code Playgroud)

python是否有内置功能,或者我可以为此下载任何模块吗？如果没有,我该如何做到这一点是最简单的方法.我需要分析一个巨大的文件,所以我想读取10000行并分析每次以节省内存.

谢谢你的帮助!

python

win*_*und

lucky-day

13
推荐指数

3
解决办法

3522
查看次数

如何用r语言处理50GB的大型csv文件？

我在这里的"大数据流程"中比较新,希望能找到一些关于如何处理50 GB csv文件的建议.目前的问题如下:

表看起来像:

ID,Address,City,States,... (50 more fields of characteristics of a house)
1,1,1st street,Chicago,IL,...
# the first 1 is caused by write.csv, they created an index raw in the file

Run Code Online (Sandbox Code Playgroud)

我想找到属于加利福尼亚州旧金山的所有行.它应该是一个简单的问题,但csv太大了.

我知道我有两种方法在R中执行它,另一种方法是使用数据库来处理它:

(1)使用R的ffdf包:

自上次保存文件以来,它使用的是write.csv,它包含所有不同的类型.

all <- read.csv.ffdf(
  file="<path of large file>", 
  sep = ",",
  header=TRUE, 
  VERBOSE=TRUE, 
  first.rows=10000, 
  next.rows=50000,
  )

Run Code Online (Sandbox Code Playgroud)

控制台给了我这个:

Error in ff(initdata = initdata, length = length, levels = levels, ordered = ordered,  
: vmode 'character' not implemented

Run Code Online (Sandbox Code Playgroud)

通过在线搜索,我找到了几个不适合我的案例的答案,我无法理解如何将"字符"转换为他们提到的"因素"类型.

然后我尝试使用read.table.ffdf,这更是灾难.我找不到那个坚实的指南.

(2)使用R的readline:

我知道这是另一种好方法,但找不到有效的方法来做到这一点.

(3)使用SQL:

我不知道如何将文件传输到SQL版本,以及如何处理这个,如果有一个很好的指南我想尝试.但总的来说,我想坚持使用R.

感谢您的回复和帮助!

sql csv r ff

win*_*und

lucky-day

6
推荐指数

1
解决办法

5105
查看次数

在Git for Windows Bash中,如何安装"get-apt"和"sudo"以及所有这些基本命令？

我主要在Mac上工作,所以我不知道如何在Windows 8上设置git环境.

今天,我将在我的Windows机器上启动AngularJS.在教程中,我看到它需要git,我下载了"Git for windows",名为"MINGW64".

在教程中,它让我使用命令:

apt-get install nodejs-legacy npm
nodejs --version
npm --version

Run Code Online (Sandbox Code Playgroud)

然后,bash告诉我

bash: apt-get: command not found

Run Code Online (Sandbox Code Playgroud)

我很困惑,并认为apt-get是预装的东西,所以我更改了git设置并使用所有不同的设置重新安装它.它仍然是一样的.

我很惊讶"sudo"也没有找到.

接下来,我在网上搜索并且有许多模糊的答案指向路径,我认为这可能是问题,但是这个人没有明确说明如何解决它.我希望能从Stack溢出社区获得一些帮助如何在git for windows上安装apt-get和其他基本命令包.

如果它是重复的,请指导我一些如何使用正确的话来提及这个问题.我在Google上尝试过"git for windows has apt-get"等等,对我来说没有运气.这困扰了我一整夜.谢谢!

AngularJS教程的链接

链接git for windows

git bash angularjs

win*_*und

lucky-day

5
推荐指数

1
解决办法

2万
查看次数

在 R 中的 H2O 中将两个随机森林模型中的树模型合并为一个随机森林模型

我对机器学习领域比较陌生，如果我的一些问题确实很基本，请原谅。

目前情况：总体目标是尝试改进在超级计算机集群上运行的 r 中的 h2o 包的一些代码。然而，由于数据量太大，单个节点用 h2o 确实需要一天多的时间，因此，我们决定使用多个节点来运行模型。我想出了一个主意：

(1) 分布每个节点构建(nTree/num_node)棵树并保存到模型中；

(2)在集群的每个节点上运行(nTree/num_node)个森林中的树；

(3)将树木重新合并并改造原始森林，并取测量结果的平均值。

后来我意识到这可能有风险。但我找不到实际的支持或反对声明，因为我不是专注于机器学习的程序员。

问题：

如果这种处理随机森林的方法会导致一些风险，请参考我的链接，以便我可以基本了解为什么这是不正确的。
如果这种方式实际上是一种“好的”方式。我应该做什么来合并树，有我可以借用的包或方法吗？
如果这确实是一个解决问题，请参考我的链接，我可能搜索了错误的关键字，谢谢！

我可以在这里展示的实际涉及数字的例子是：

我有一个包含 80k 行和 2k 列的随机森林任务，并且希望树的数量为 64 棵。我所做的是将 16 棵树放在每个节点上，与整个数据集一起运行，并且四个节点中的每一个都提出一个 RF 模型。我现在正在尝试将每个模型中的树合并到这个大型 RF 模型中，并对测量值进行平均（来自这四个模型中的每一个）。

parallel-processing r machine-learning h2o

win*_*und

2018 04-19

5
推荐指数

1
解决办法

1448
查看次数

使用strncpy时堆栈和堆的奇怪行为

我发现了一个非常有趣的问题.

当我使用以下代码时:

int main() {
    char * in = "hi, ";
    char str[10];
    strncpy(str, in, 2);
    printf("output = %s", str);
    return 0;
}

Run Code Online (Sandbox Code Playgroud)

我的结果是什么,printf没有用.

但如果我用这个:

int main() {
    char * in = "hi, ";
    char * str = malloc(sizeof(char) * 10) ;
    strncpy(str, in, 2);
    printf("output = %s", str);
    return 0;
}

Run Code Online (Sandbox Code Playgroud)

我能得到我的期望.

为什么会这样？是因为堆栈和堆？究竟是如何产生这种巨大差异的呢？

c string heap stack

win*_*und

2012 06-13

4
推荐指数

2
解决办法

284
查看次数