标签: text-processing

html选择选项到列表中

有没有什么方法可以<option>s将以下HTML表单中的所有内容选择<select>到python列表中,如此,['a','b','c','d']?

<select name="sel">
   <option value="a">a</option>
   <option value="b">b</option>
   <option value="c">c</option>
   <option value="d">d</option>
</select>
Run Code Online (Sandbox Code Playgroud)

提前谢谢了.

html python text-processing

0
推荐指数
1
解决办法
2115
查看次数

0
推荐指数
2
解决办法
3万
查看次数

Perl vs Python日志处理性能

我正在开发一个基于Web的日志管理系统,它将构建在Grails框架上,我将使用Python或Perl等文本处理语言之一.我创建了Python和Perl脚本来加载日志文件并解析每一行以将它们保存到MySQL数据库(该文件包含大约40,000行,大约7MB).使用Perl花了1分2秒,使用Python花了17秒.我曾经认为Perl比Python更快,因为Perl是原始的文本处理语言(我怀疑也来自不同的博客,我正在阅读有关Perl文本处理性能的文章).我也没想到Perl和Python之间有47秒的差异.为什么Perl需要比Python更多的时间来处理我的日志文件?是因为我使用了一些错误的数据库模块或我的代码和Perl的正则表达式可以改进吗?

注意:我是一名Java和Groovy开发人员,我没有使用Perl的经验(我使用的是Strawberry Perl v5.16).我也用Java(1分5秒)和Groovy(1分7秒)进行了这个测试,但处理日志文件的时间超过1分钟,所以两种语言都已经出来了,现在我想在Perl和蟒蛇.

PERL代码

use DBI;
use DBD::mysql;
# make connection to database
$connection = DBI->connect("dbi:mysql:logs:localhost:3306","root","") || die      "Cannot connect: $DBI::errstr";

# set the value of your SQL query
$query = "insert into logs (line_number, dated, time_stamp, thread, level, logger, user, message)
        values (?, ?, ?, ?, ?, ?, ?, ?) ";

# prepare your statement for connecting to the database
$statement = $connection->prepare($query); 

$runningTime = time;

# open text file
open …
Run Code Online (Sandbox Code Playgroud)

python regex perl performance text-processing

0
推荐指数
1
解决办法
1638
查看次数

Unindent或线性化XML

我正在寻找一种在JAVA中线性化XML的快速方法

我正在使用~2GB文件,因此排除了DOM.Java targhet是1.5.0.22我必须从xml生成一个由80bytes + newline组成的文件.我必须在一个将由Cobol程序读取的DB2表中编写它.

在Cobol中,重要的是大小,因为数据从表中读取为CHAR,这意味着空行为80个空格.

我读取文件字节到字节(我必须)但我可以使用内部临时缓冲来存储可能的序列以忽略

例5字节af ascii文件

<a><b><c>psofpisogiosigpsfiogpo</c></b></a>

<a><b
><c>p
sofpi
sogio
sigps
fiogp
o</c>
</b><
/a>
Run Code Online (Sandbox Code Playgroud)

问题与文件

<a>
    <b>
       <c>psofpisogiosigpsfiogpo</c>
    </b>
</a>







<a>

  <b
>


<c>ps
ofpis
ogios
igpsf
iogpo
</c>

    <
/b>

   </
a>
Run Code Online (Sandbox Code Playgroud)

非线性化XML在表中创建空行或某些行未充分发挥其潜力.

这成为了一个丢失的付费cpu循环unde HOST CICS环境

如果我可以线性化文件,我会得到相同的输出,如果文件是缩进的,XML保持相同的信息

任何的想法?

java xml text-processing

0
推荐指数
1
解决办法
4342
查看次数

一个循环迭代影响另一个循环迭代的优雅方式是什么?

我刚才需要处理配置文件.由于它的生成方式,它包含这样的行:

---(more 15%)---
Run Code Online (Sandbox Code Playgroud)

第一步是剥离这些不需要的线.稍微扭曲一下,这些线条中的每一条都跟着一条空白线,我也想剥离它.我创建了一个快速Python脚本来执行此操作:

skip_next = False
for line in sys.stdin:
    if skip_next:
        skip_next = False
        continue    
    if line.startswith('---(more'):
        skip_next = True
        continue    
    print line,
Run Code Online (Sandbox Code Playgroud)

现在,这可行,但它比我希望的更黑.难点在于,当循环遍历行时,我们希望一行的内容影响后续行.因此我的问题是:一个循环迭代影响另一个循环迭代的优雅方式是什么?

python text-processing

0
推荐指数
2
解决办法
132
查看次数

使用正则表达式在字符串周围添加引号

我有一个文本文件要处理,有很多这样的行:

000AA 西尔维斯特史泰龙

000AD黛米摩尔

我会为每个单词添加一个单引号,如下所示:

《000AA》《西尔维斯特》《史泰龙》

'000AD' '黛咪' '摩尔'

我想最好的(也许是唯一的方法?)是使用 notepadd++ find/replace with regex,但不幸的是我没有足够的知识。请问,有人可以帮我吗?这将是一个巨大的节省时间的帮助!!

regex text-processing notepad++

0
推荐指数
1
解决办法
7172
查看次数

在python中解析文本文件

所以我正在尝试python程序,它将从存储在文本文件中的Web服务器ping中提取往返时间.所以我基本上有一个文本文件:

    PING e11699.b.akamaiedge.net (104.100.153.112) 56(84) bytes of data.
    64 bytes from a104-100-153-112.deploy.static.akamaitechnologies.com (104.100.153.112): icmp_seq=1 ttl=60 time=17.2ms
    64 bytes from a104-100-153-112.deploy.static.akamaitechnologies.com (104.100.153.112): icmp_seq=2 ttl=60 time=12.6ms
    64 bytes from a104-100-153-112.deploy.static.akamaitechnologies.com (104.100.153.112): icmp_seq=3 ttl=60 time=11.7ms
    ... (a bunch more ping responses here)
    --- e11699.b.akamaiedge.net ping statistics ---
    86400 packets transmitted, 86377 received, 0% packet loss, time 86532481ms
    rtt min/avg/max/mdev = 6.281/18.045/1854.971/28.152 ms, pipe 2
Run Code Online (Sandbox Code Playgroud)

我是python的新手,需要帮助才能使用正则表达式命令只提取"time ="和"ms"之间的时间,并将其发送到另一个文本文件,如下所示:

11.7
12.6
17.2
...
Run Code Online (Sandbox Code Playgroud)

任何帮助将不胜感激!

python text-processing

0
推荐指数
1
解决办法
636
查看次数

Python + 数据框:AttributeError:'float' 对象没有属性 'replace'

我正在尝试编写一个函数来对 Pandas 数据帧的指定列(描述、事件名称)进行一些文本处理。我写了这段代码:

#removal of unreadable chars, unwanted spaces, words of at most length two from 'description' column and lowercase the 'description' column

def data_preprocessing(source):

    return source.replace('[^A-Za-z]',' ')
    #data['description'] = data['description'].str.replace('\W+',' ')
    return source.lower()
    return source.replace("\s\s+" , " ")
    return source.replace('\s+[a-z]{1,2}(?!\S)',' ')
    return source.replace("\s\s+" , " ")

data['description'] = data['description'].apply(lambda row: data_preprocessing(row))
data['event_name'] = data['event_name'].apply(lambda row: data_preprocessing(row))
Run Code Online (Sandbox Code Playgroud)

它给出了以下错误:

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-94-cb5ec147833f> in <module>()
----> 1 data['description'] = data['description'].apply(lambda row: data_preprocessing(row))
      2 data['event_name'] = data['event_name'].apply(lambda row: …
Run Code Online (Sandbox Code Playgroud)

python text-processing dataframe pandas

0
推荐指数
1
解决办法
9356
查看次数

当键/值是某些值时,如何仅打印某些文本块?

因此,如果我有这样的事情,我只想在“帐户已禁用:错误”时捕获或打印出帐户信息。

$ ipa user-find

---------------
2 users matched
---------------
  User login: jpeterson
  First name: john
  Last name: peterson
  Home directory: /home/jpeterson
  Login shell: /bin/sh
  UID: 855800007
  GID: 855800007
  Account disabled: False

  User login: jsmith
  First name: john
  Last name: smith
  Home directory: /home/jsmith
  Login shell: /bin/sh
  UID: 855800004
  GID: 855800004
  Account disabled: True
----------------------------
Number of entries returned 2
----------------------------
Run Code Online (Sandbox Code Playgroud)

预期输出为:

  User login: jpeterson
  First name: john
  Last name: peterson
  Home directory: /home/jpeterson
  Login shell: /bin/sh
  UID: 855800007
  GID: 855800007 …
Run Code Online (Sandbox Code Playgroud)

linux bash text-processing

0
推荐指数
1
解决办法
68
查看次数

检查字符串是否等于单词列表的第一个字母

我对一项简单的任务感到困惑

用户会给我一个字符串,我的程序将检查该字符串是否等于单词列表的第一个字母(就像这个例子)

>>> html_attr = ["onerror","onload"]
>>> example_task(html_attr,"on")
["onerror","onload"]
>>> example_task(html_attr,"one")
["onerror"]
Run Code Online (Sandbox Code Playgroud)

我应该在这里使用 fuzzywuzzy 还是什么?

谢谢

python string text-processing matching

0
推荐指数
1
解决办法
969
查看次数