标签: large-files

BufferedReader rd = //initialize BufferedReader
String line;
while(true){
    while((line=rd.readLine())==null){
        try{
            Thread.sleep(1000);
        }catch(InterruptedException e){
            //handle exception
        }
    }
    //process line
}

Run Code Online (Sandbox Code Playgroud)

所以我的BufferedReader只是挂在文件的末尾,直到有更多东西要读.这很好用,但是有一个问题 - 如果在写入文件的过程正在写一行的过程中调用readLine.然后第一次调用readLine将返回该行的第一部分,下一次调用将返回第二部分.但我真的需要这两个部分,我需要完整的线条.

更具体地说,当发生以下事件交错时,我的问题就出现了:

写入过程会写入大部分内容
readLine()被调用
编写过程完成该行并添加换行符
readLine()被调用

结果是每个readLine()获取写入过程输出的整行的一部分.它在执行此操作时表现得如此,因为每次调用它时,它都会到达文件的末尾,因此返回它已读取的内容.

基本上我需要的功能是BufferedReader,它先前返回null一个readLine; 一个在它之后有一个换行符之前不会给你一条线的东西,而不仅仅是它之后的EOF.因此,如果它找到EOF,它不返回到该点的行,它返回null,并在文件被写入后返回该行,并且在它之后有一个新行.

我可能通过更直接地处理FileReader并实质上重写BufferedReader来实现这样做的粗略方法,但我不知道如何有效地执行此操作.我的实现可能不会像真正的BufferedReader快,我想避免拖慢程序的时候,还有就是要读取的数据.

java file large-files bufferedreader

Joe*_*e K

2010 07-09

9
推荐指数

1
解决办法

4016
查看次数

查找大型数据集中最长的公共子字符串

在过去的几天里,我对此进行了广泛的研究,我已经阅读了很多东西,以至于我现在更加困惑.如何在大型数据集中找到最长的公共子字符串？我们的想法是从这个数据集中删除重复的内容(长度不同,因此算法需要连续运行).通过大数据集,我的意思是大约100mb的文本.

后缀树？后缀数组？拉宾,卡普？什么是最好的方式？那里有一个可以帮助我的图书馆吗？

真的希望有一个好的回应,我的头很痛.谢谢!:-)

string algorithm suffix-tree large-files

dif*_*use

lucky-day

9
推荐指数

1
解决办法

2377
查看次数

如何干净地处理存储库中的源代码和数据

我正在开发一个由一些Python脚本(最多1M)和一个相对较大的数据集(1.5 GB)组成的协作科学项目.数据集与python脚本紧密相关,因为数据集本身就是科学,脚本是它们的简单接口.

我正在使用Mercurial作为我的源代码控制工具,但我不清楚一个很好的机制来定义存储库.从逻辑上讲,将这些捆绑在一起是有意义的,这样通过克隆存储库,您将获得整个包.另一方面,我关注处理大量数据的源代码控制工具.

有没有一个干净的机制来处理这个？

mercurial dvcs repository large-files

Ric*_*ich

2012 03-10

9
推荐指数

1
解决办法

130
查看次数

大型Java列表性能不佳

我正在尝试使用Java将大型文本语料库读入内存.在某些时候,它撞到墙壁,只是垃圾无休止地收集.我想知道是否有人有经验将Java的GC用于提交大型数据集.

我正在读一个8 GB的英文文本文件,用UTF-8,一行写一行.我希望split()在空格上的每一行,并将结果的String数组存储在一个ArrayList<String[]>进行进一步处理.这是一个展示问题的简化程序:

/** Load whitespace-delimited tokens from stdin into memory. */
public class LoadTokens {
    private static final int INITIAL_SENTENCES = 66000000;

    public static void main(String[] args) throws IOException {
        List<String[]> sentences = new ArrayList<String[]>(INITIAL_SENTENCES);
        BufferedReader stdin = new BufferedReader(new InputStreamReader(System.in));
        long numTokens = 0;
        String line;

        while ((line = stdin.readLine()) != null) {
            String[] sentence = line.split("\\s+");
            if (sentence.length > 0) {
                sentences.add(sentence);
                numTokens += sentence.length;
            }
        }
        System.out.println("Read " + sentences.size() + " …

Run Code Online (Sandbox Code Playgroud)

java memory text garbage-collection large-files

Jay*_*ker

2012 03-07

9
推荐指数

1
解决办法

2099
查看次数

grep -f巨大文件的替代品

grep -F -f file1  file2

Run Code Online (Sandbox Code Playgroud)

file1是90 Mb(250万行,每行一个字)

file2是45 Gb

无论我让它运行多久,该命令实际上都不会产生任何结果.显然,这超出了grep的范围.

似乎grep无法处理来自该-f选项的那么多查询.但是,以下命令确实产生了所需的结果:

head file1  >  file3
grep -F -f file3   file2

Run Code Online (Sandbox Code Playgroud)

考虑到文件大小,我怀疑sed或awk是否也是合适的替代方案.

我不知道其他选择......请帮忙.学习一些sql命令是否值得？这简单吗？谁能指出我正确的方向？

unix scripting grep large-files

cmo*_*cmo

2013 05-03

9
推荐指数

2
解决办法

1万
查看次数

如何从linux服务器上的大(30Gb +)zip文件中提取文件

1)从大型zip文件中提取

我想从linux服务器上的大型zip文件(30Gb +)中提取文件.有足够的可用磁盘空间.

我试过了jar xf dataset.zip.但是,有一个错误push button is full,它无法提取所有文件.

我试过了unzip,但是zipfile损坏了.

Archive:  dataset.zip 
warning [dataset.zip]:  35141564204 extra bytes at beginning or within zipfile
(attempting to process anyway)
error [dataset.zip]:  start of central directory not found;
zipfile corrupt.
 (please check that you have transferred or created the zipfile in the
appropriate BINARY mode and that you have compiled UnZip properly)

Run Code Online (Sandbox Code Playgroud)

我试过了zip -FF dataset.zip --out data.zip,并且输入太大的错误:

zip error: Entry too big to split, read, or …

linux zip extract large-files

Ire*_* W.

2015 07-18

9
推荐指数

2
解决办法

2万
查看次数

Flask中的大文件上传

我正在尝试实现一个用于上传文件的烧瓶应用程序.这个文件可能非常大.例如,几乎2G的大小.

我已完成服务器端进程功能,如下所示:

@app.route("/upload/<filename>", methods=["POST", "PUT"])
def upload_process(filename):
    filename = secure_filename(filename)
    fileFullPath = os.path.join(application.config['UPLOAD_FOLDER'], filename)
    with open(fileFullPath, "wb") as f:
        chunk_size = 4096
        while True:
            chunk = flask.request.stream.read(chunk_size)
            if len(chunk) == 0:
                return

            f.write(chunk)
    return jsonify({'filename': filename})

Run Code Online (Sandbox Code Playgroud)

至于浏览器方面,我应该给用户一个提交文件.一次一个文件.显示进度条以指示上载过程.但我不知道浏览器端代码.如何使用javascript代码开始上传并显示状态？

python file-upload large-files flask

Ter*_*.Su

lucky-day

9
推荐指数

1
解决办法

6374
查看次数

HTTP文件上载如何处理大型文件？

我只想阐述一下这个问题：HTTP文件上传如何工作？。这是问题的形式：

<form enctype="multipart/form-data" action="http://localhost:3000/upload?upload_progress_id=12344" method="POST">
<input type="hidden" name="MAX_FILE_SIZE" value="100000" />
Choose a file to upload: <input name="uploadedfile" type="file" /><br />
<input type="submit" value="Upload File" />
</form>

Run Code Online (Sandbox Code Playgroud)

当文件很大（即10 GB）时会发生什么？浏览器是否将所有数据放入1个请求，然后将其发送到服务器？只有2 GB RAM时，浏览器如何读取文件并构建请求？

假设文件是CSV。假设服务器的RAM和磁盘空间很小。有没有一种方法可以将文件流式传输到服务器，以便服务器可以解析每一行，而不是将整个文件保留在其RAM或磁盘中？

非常感谢详细的解释（HTTP，TCP等）

tcp file-upload http stream large-files

Nam*_*ang

2017 05-23

9
推荐指数

1
解决办法

6984
查看次数