是否有可能在Python中,给定10000行的文件,其中所有这些都具有以下结构:
1,2,xvfrt ert5a fsfs4 df f fdfd56,234
或类似的,读取整个字符串,然后在另一个字符串中存储从第7列到第17列的所有字符,包括空格,所以新字符串将是
"xvfrt ert5a"?
非常感谢
给出表格的数据:
a b 1.1
c d 2.3
b a 1.1
Run Code Online (Sandbox Code Playgroud)
是否可以根据thired列对这样的文件进行排序,并删除第三列中的条目重复的行,这样输出将是:
a b 1.1
c d 2.3
Run Code Online (Sandbox Code Playgroud)
要么,
c d 2.3
b a 1.1
Run Code Online (Sandbox Code Playgroud)
.
我只能使用python,R或命令行实用程序在一组非常大的文件上执行此任务.
谢谢!
我对如何做到这一点有一个总体的想法,但无法确定如何完成它.我相信它可以用某种正则表达式来完成.想知道这里是否有人可以指出我正确的方向.
如果我有一串这样的html
some_html = '<div><b>This is some BOLD text</b></div>'
Run Code Online (Sandbox Code Playgroud)
我想将它分成逻辑部分,然后将这些部分放入一个数组中,这样我就会得到这样的结果
html_array = ["<div>", "<b>", "This is some BOLD text", "</b>","</div>" ]
Run Code Online (Sandbox Code Playgroud) 我有一个包含几千行数据的文件,每行如下: a:b:c:d
例如:
0.0:2000.00:2000.04:2000.02
Run Code Online (Sandbox Code Playgroud)
我想把所有的东西放在一个文件中,b在第二个文件中等等.怎么样?
我正在尝试使用以下代码将文本文件读入R:
d = read.table("test_data.txt")
Run Code Online (Sandbox Code Playgroud)
它返回以下错误消息:
"Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
line 2 did not have 119 elements"
Run Code Online (Sandbox Code Playgroud)
我试过这个:
read.table("man_cohort9_check.txt", header=T, sep="\t")
Run Code Online (Sandbox Code Playgroud)
但它给出了这个错误:
"Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
line 43 did not have 116 elements"
Run Code Online (Sandbox Code Playgroud)
我不明白出了什么问题?
命令
perl -ne 'print unless /.[240,]/' input.txt > output.txt
Run Code Online (Sandbox Code Playgroud)
其中包括一些超过240个字母的句子.为什么?
示例数据
制定世界滑稽社会计划,为那些正在为体育和社交生活而努力工作的年轻人,让他们有时间去比萨店,做一些有趣的事,编程和享用美味的早餐:自由时间程序的世界场景通常太长,以至于这个明星可能会使程序失望(*)|再次是一个非常长的选项,这可能不是使这个程序烦恼的原因|更好的更短的选项,这是好的,但很好写这里咖啡早上的消息| c最后一个选项总是很好,因为你知道你可以很快停止1
示例数据2
这个程序的指示取决于很多东西,我比Lorem ipsum更喜欢这个太普通并且花费太多时间打开:|短选项以防万一|更长的选项这么好在这里也有|更短的是更好但问题是:最短的问题不是最短的,而是不是太长1
这个问题类似于解决隐藏的文件类型.我正在努力解决类似的问题,因为我只需要处理包含文件的文本,这些文件包含许多不同的文件类型 - 图片,文本,音乐.我正在使用os.walk列出所有内容,包括没有类似扩展名的Icon文件的文件.我正在使用linux,并且只满足于过滤txt文件.一种方法是检查文件扩展名,这篇文章很好地解释了它是如何完成的.
但这仍然留下错误标记的文件或没有扩展名的文件.有十六进制值可以唯一标识称为幻数或文件签名的文件类型.这里和这里 不幸的是,文本文件不存在幻数(见这里).
我提出的一个策略是解析第一堆字符,通过字典查找确保它们是单词(我只处理英文文本)然后只进行全文处理,如果这是真的.这个方法似乎相当沉重和昂贵(为每个文件做一堆字典查找).另一种方法是简单地寻找在数据文件中不太常见但在文本文件中常见的单词"the".但是漏报会导致我丢失要处理的文本文件.我试过要求谷歌提供最长的文字而没有"the"这个词,但没有运气.
我不知道这是否是适合这类问题的论坛 - 这几乎是人工智能而不是计算机科学/编码的问题.它并不像乱码检测那么困难.这些文本可能在语义上或语法上都不正确 - 它们可能只是像库房的库存那样的文字,但也可能是散文和诗歌.我只是不想处理可能是字节代码,源代码或不是英文单词的字母数字字符集的文件.
我有一个这样格式的文本文件:
B2100 Door Driver Key Cylinder Switch Failure B2101 Head Rest Switch Circuit Failure B2102 Antenna Circuit Short to Ground`, plus 1000 lines more.
这就是我想要的方式:
B2100*Door Driver Key Cylinder Switch Failure
B2101*Head Rest Switch Circuit Failure
B2102*Antenna Circuit Short to Ground
B2103*Antenna Not Connected
B2104*Door Passenger Key Cylinder Switch Failure
这样我就可以在LibreOffice Calc中复制这些数据,它会将其格式化为两列代码,并将其分别表示.
我的思考过程:
在Bxxxx上应用一个普通快递,并在它前面放一个星号(它作为分隔符)和一个\n意思之前(我不知道这是否有用?),并删除白色空间直到下一个遇到了字符.
我试图隔离B2100并且直到现在都失败了.我天真的尝试:
import re
text = """B2100 Door Driver Key Cylinder Switch Failure B2101 Head Rest Switch Circuit Failure B2102 Antenna Circuit Short to Ground …Run Code Online (Sandbox Code Playgroud) 我有一个只有几行的变量。我想从变量的内容中删除最后一行。我搜索了互联网,但所有链接都谈到了从文件中删除最后一行。这是我变量的内容
$echo $var
$select key from table_test
UNION ALL
select fob from table_test
UNION ALL
select cal from table_test
UNION ALL
select rot from table_test
UNION ALL
$
Run Code Online (Sandbox Code Playgroud)
我想摆脱仅在最后一行出现的UNION ALL。
我有一个包含以下内容的文件:
May 25 05:34:16 192.0.2.2
May 25 05:34:16 192.0.2.1
May 25 05:34:16 192.0.1.5
May 25 05:38:16 192.0.2.2
Run Code Online (Sandbox Code Playgroud)
现在,我想获取IP的出现次数,并按出现次数最多以及出现的频率列出它们,如下所示:
2 May 25 05:34:16 192.0.2.2
1 May 25 05:34:16 192.0.2.1
1 May 25 05:34:16 192.0.1.5
Run Code Online (Sandbox Code Playgroud)
最好是一个带有awk的bash衬垫。