标签: text-processing

html选择选项到列表中

有没有什么方法可以<option>s将以下HTML表单中的所有内容选择<select>到python列表中,如此,['a','b','c','d']？

<select name="sel">
   <option value="a">a</option>
   <option value="b">b</option>
   <option value="c">c</option>
   <option value="d">d</option>
</select>

Run Code Online (Sandbox Code Playgroud)

提前谢谢了.

html python text-processing

DGT*_*DGT

2010 12-07

0
推荐指数

1
解决办法

2115
查看次数

如何使用VB6将文本文件加载到字符串中

如何使用VB6快速将文本文件加载到字符串中？

string vb6 text-processing filesystemobject

CJ7*_*CJ7

lucky-day

0
推荐指数

2
解决办法

3万
查看次数

我正在开发一个基于Web的日志管理系统,它将构建在Grails框架上,我将使用Python或Perl等文本处理语言之一.我创建了Python和Perl脚本来加载日志文件并解析每一行以将它们保存到MySQL数据库(该文件包含大约40,000行,大约7MB).使用Perl花了1分2秒,使用Python花了17秒.我曾经认为Perl比Python更快,因为Perl是原始的文本处理语言(我怀疑也来自不同的博客,我正在阅读有关Perl文本处理性能的文章).我也没想到Perl和Python之间有47秒的差异.为什么Perl需要比Python更多的时间来处理我的日志文件？是因为我使用了一些错误的数据库模块或我的代码和Perl的正则表达式可以改进吗？

注意:我是一名Java和Groovy开发人员,我没有使用Perl的经验(我使用的是Strawberry Perl v5.16).我也用Java(1分5秒)和Groovy(1分7秒)进行了这个测试,但处理日志文件的时间超过1分钟,所以两种语言都已经出来了,现在我想在Perl和蟒蛇.

PERL代码

use DBI;
use DBD::mysql;
# make connection to database
$connection = DBI->connect("dbi:mysql:logs:localhost:3306","root","") || die      "Cannot connect: $DBI::errstr";

# set the value of your SQL query
$query = "insert into logs (line_number, dated, time_stamp, thread, level, logger, user, message)
        values (?, ?, ?, ?, ?, ?, ?, ?) ";

# prepare your statement for connecting to the database
$statement = $connection->prepare($query); 

$runningTime = time;

# open text file
open …

Run Code Online (Sandbox Code Playgroud)

python regex perl performance text-processing

Mar*_* M.

2012 11-11

0
推荐指数

1
解决办法

1638
查看次数

Unindent或线性化XML

我正在寻找一种在JAVA中线性化XML的快速方法

我正在使用~2GB文件,因此排除了DOM.Java targhet是1.5.0.22我必须从xml生成一个由80bytes + newline组成的文件.我必须在一个将由Cobol程序读取的DB2表中编写它.

在Cobol中,重要的是大小,因为数据从表中读取为CHAR,这意味着空行为80个空格.

我读取文件字节到字节(我必须)但我可以使用内部临时缓冲来存储可能的序列以忽略

例5字节af ascii文件

<a><b><c>psofpisogiosigpsfiogpo</c></b></a>

<a><b
><c>p
sofpi
sogio
sigps
fiogp
o</c>
</b><
/a>

Run Code Online (Sandbox Code Playgroud)

问题与文件

<a>
    <b>
       <c>psofpisogiosigpsfiogpo</c>
    </b>
</a>







<a>

  <b
>


<c>ps
ofpis
ogios
igpsf
iogpo
</c>

    <
/b>

   </
a>

Run Code Online (Sandbox Code Playgroud)

非线性化XML在表中创建空行或某些行未充分发挥其潜力.

这成为了一个丢失的付费cpu循环unde HOST CICS环境

如果我可以线性化文件,我会得到相同的输出,如果文件是缩进的,XML保持相同的信息

任何的想法？

java xml text-processing

use*_*895

2018 02-10

0
推荐指数

1
解决办法

4342
查看次数

一个循环迭代影响另一个循环迭代的优雅方式是什么？

我刚才需要处理配置文件.由于它的生成方式,它包含这样的行:

---(more 15%)---

Run Code Online (Sandbox Code Playgroud)

第一步是剥离这些不需要的线.稍微扭曲一下,这些线条中的每一条都跟着一条空白线,我也想剥离它.我创建了一个快速Python脚本来执行此操作:

skip_next = False
for line in sys.stdin:
    if skip_next:
        skip_next = False
        continue    
    if line.startswith('---(more'):
        skip_next = True
        continue    
    print line,

Run Code Online (Sandbox Code Playgroud)

现在,这可行,但它比我希望的更黑.难点在于,当循环遍历行时,我们希望一行的内容影响后续行.因此我的问题是:一个循环迭代影响另一个循环迭代的优雅方式是什么？

python text-processing

paj*_*j28

lucky-day

0
推荐指数

2
解决办法

132
查看次数

使用正则表达式在字符串周围添加引号

我有一个文本文件要处理，有很多这样的行：

000AA 西尔维斯特史泰龙

000AD黛米摩尔

我会为每个单词添加一个单引号，如下所示：

《000AA》《西尔维斯特》《史泰龙》

'000AD' '黛咪' '摩尔'

我想最好的（也许是唯一的方法？）是使用 notepadd++ find/replace with regex，但不幸的是我没有足够的知识。请问，有人可以帮我吗？这将是一个巨大的节省时间的帮助！！

regex text-processing notepad++

Alf*_*nse

2020 06-20

0
推荐指数

1
解决办法

7172
查看次数

在python中解析文本文件

所以我正在尝试python程序,它将从存储在文本文件中的Web服务器ping中提取往返时间.所以我基本上有一个文本文件:

    PING e11699.b.akamaiedge.net (104.100.153.112) 56(84) bytes of data.
    64 bytes from a104-100-153-112.deploy.static.akamaitechnologies.com (104.100.153.112): icmp_seq=1 ttl=60 time=17.2ms
    64 bytes from a104-100-153-112.deploy.static.akamaitechnologies.com (104.100.153.112): icmp_seq=2 ttl=60 time=12.6ms
    64 bytes from a104-100-153-112.deploy.static.akamaitechnologies.com (104.100.153.112): icmp_seq=3 ttl=60 time=11.7ms
    ... (a bunch more ping responses here)
    --- e11699.b.akamaiedge.net ping statistics ---
    86400 packets transmitted, 86377 received, 0% packet loss, time 86532481ms
    rtt min/avg/max/mdev = 6.281/18.045/1854.971/28.152 ms, pipe 2

Run Code Online (Sandbox Code Playgroud)

我是python的新手,需要帮助才能使用正则表达式命令只提取"time ="和"ms"之间的时间,并将其发送到另一个文本文件,如下所示:

11.7
12.6
17.2
...

Run Code Online (Sandbox Code Playgroud)

任何帮助将不胜感激!

python text-processing

作者

lucky-day

0
推荐指数

1
解决办法

636
查看次数

Python + 数据框：AttributeError：'float' 对象没有属性 'replace'

我正在尝试编写一个函数来对 Pandas 数据帧的指定列（描述、事件名称）进行一些文本处理。我写了这段代码：

#removal of unreadable chars, unwanted spaces, words of at most length two from 'description' column and lowercase the 'description' column

def data_preprocessing(source):

    return source.replace('[^A-Za-z]',' ')
    #data['description'] = data['description'].str.replace('\W+',' ')
    return source.lower()
    return source.replace("\s\s+" , " ")
    return source.replace('\s+[a-z]{1,2}(?!\S)',' ')
    return source.replace("\s\s+" , " ")

data['description'] = data['description'].apply(lambda row: data_preprocessing(row))
data['event_name'] = data['event_name'].apply(lambda row: data_preprocessing(row))

Run Code Online (Sandbox Code Playgroud)

它给出了以下错误：

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-94-cb5ec147833f> in <module>()
----> 1 data['description'] = data['description'].apply(lambda row: data_preprocessing(row))
      2 data['event_name'] = data['event_name'].apply(lambda row: …

Run Code Online (Sandbox Code Playgroud)

python text-processing dataframe pandas

Deb*_*bie

lucky-day

0
推荐指数

1
解决办法

9356
查看次数

当键/值是某些值时，如何仅打印某些文本块？

因此，如果我有这样的事情，我只想在“帐户已禁用：错误”时捕获或打印出帐户信息。

$ ipa user-find

---------------
2 users matched
---------------
  User login: jpeterson
  First name: john
  Last name: peterson
  Home directory: /home/jpeterson
  Login shell: /bin/sh
  UID: 855800007
  GID: 855800007
  Account disabled: False

  User login: jsmith
  First name: john
  Last name: smith
  Home directory: /home/jsmith
  Login shell: /bin/sh
  UID: 855800004
  GID: 855800004
  Account disabled: True
----------------------------
Number of entries returned 2
----------------------------

Run Code Online (Sandbox Code Playgroud)

预期输出为：

  User login: jpeterson
  First name: john
  Last name: peterson
  Home directory: /home/jpeterson
  Login shell: /bin/sh
  UID: 855800007
  GID: 855800007 …

Run Code Online (Sandbox Code Playgroud)

linux bash text-processing

cdm*_*cdm

2019 11-10

0
推荐指数

1
解决办法

68
查看次数

检查字符串是否等于单词列表的第一个字母

我对一项简单的任务感到困惑

用户会给我一个字符串，我的程序将检查该字符串是否等于单词列表的第一个字母（就像这个例子）

>>> html_attr = ["onerror","onload"]
>>> example_task(html_attr,"on")
["onerror","onload"]
>>> example_task(html_attr,"one")
["onerror"]

Run Code Online (Sandbox Code Playgroud)

我应该在这里使用 fuzzywuzzy 还是什么？

谢谢

python string text-processing matching

Jik*_*ika

lucky-day

0
推荐指数

1
解决办法

969
查看次数

标签统计

text-processing ×10

python ×6

regex ×2

string ×2

bash ×1

dataframe ×1

filesystemobject ×1

html ×1

java ×1

linux ×1

matching ×1

notepad++ ×1

pandas ×1

performance ×1

perl ×1

vb6 ×1

xml ×1

标签 统计

标签统计