标签: parsing

如何解析超大 (70+ GB) .txt 文件？

我有几个.txt文件，每个文件超过 3000 万行，任何地方都有 20 到 40 个“列”（一些以逗号分隔，一些以空格分隔，所有 ASCII 行都以换行符分隔）。我不需要所有（甚至大部分）列，其中一些列的空空格填充了NULL.

我的目标是：

删除我不需要的列
按照我认为合适的方式重新排序列（为了可读性）
管道输出到另一个 .txt 文件，列用冒号分隔

我只是将一个大文本文件拆分为大约 40 个.txt文件，每个文件包含 1,000,000 行，将它们一个一个地导入 Excel，然后使用 CONCATENATE，但这种方法对我的下一个目标没有产生任何结果。文件以逗号分隔，但仍需转.txt成.csv，Excel在导入过程中卡住；即使我把它放到Excel中，主文件也会分解成200多个更小的文件以符合Excel的上限，并且做同样的事情超过200次效率不高。

我正在开发 2020 年末的 MacBook Pro，对任何编码语言都不够精通，甚至不知道从哪里开始，但我在 shell 中编写了半舒适的脚本，并且总是在学习新技巧，只是不知道从哪儿开始。

bash parsing microsoft-excel

had*_*909

2020 12-31

32
推荐指数

4
解决办法

9145
查看次数

学术参考文献中引文文本的自动解析

是否有任何软件（或伪代码）可以自动扫描一段文本（粘贴到工具中，或从 .doc/.pdf 中读取）并使用标准格式识别引文数据？然后将数据拆分为其组成字段并以 XML、CSV 或其他一些结构化数据格式导出。我看过cb2Bib但它只能从哈佛风格的参考文献中提取年份，这是不够的。

citations parsing

Ali*_*ock

lucky-day

19
推荐指数

1
解决办法

8996
查看次数

将数据从 SQL Server 复制/粘贴到 Excel 会将文本拆分为多列？

我在将数据从 SQL Server 2005 的结果网格粘贴到 excel 2007 电子表格时遇到问题。

我在 SQL Server 中有一个查询，它返回 2 列（一个数字列和一个文本列）

在一台计算机上，我可以愉快地复制（右键单击 > 复制），然后只需右键单击并粘贴到 Excel 电子表格中。没问题。

在另一台计算机上，当我尝试粘贴到 excel 时，它会将文本列拆分并根据单词之间的空格将文本粘贴到多列中。

例如，如果其中一行有...

请粘贴我

...然后在粘贴到 excel 时，它会拆分文本并将每个单词粘贴到 excel 中的单独列中。

我们已经尝试将 SQL Server 和 excel 中的选项与其运行良好的计算机进行比较，但没有发现任何差异。

欢迎任何想法

谢谢

parsing copy-paste microsoft-excel

Pau*_*aul

2017 11-27

16
推荐指数

2
解决办法

15万
查看次数

将json数据导入Excel

我有一个 json 格式的文本文件，想将其读入 Excel。json 文件的一个非常简化的示例具有以下结构：

{ [
  { 'a': 10, 'b': 20 },
  { 'a': 20, 'b': 22 },
  { 'a': 11, 'b': 24 }
] }

文件

文件

文件

文件

0.txt

1.txt

标签 统计

标签统计