我在 Pandas DataFrame 的列 (COL_NAME) 中有一些数据。我想提取“(”和“)”之间的一些文本(该数据要么存在,要么括号根本不存在,尽管数据中可能有不止一组括号)。然后我想将括号中的数据写入另一列,然后从原始字符串中删除“(XXX)”。
IE
COL_NAME
========
(info) text (yay!)
I love text
Text is fun
(more info) more text
lotsa text (boo!)
Run Code Online (Sandbox Code Playgroud)
变成:
COL_NAME NEW_COL
======== =======
text (yay!) info
i love text None
Text is fun None
more text more info
lots text (boo!) None
Run Code Online (Sandbox Code Playgroud)
我可以通过隔离列、迭代其元素、拆分 (、创建两个新列表,然后将它们添加到 DataFrame 中来完成此操作,但肯定有一种更 Pythonic/Pandic 的方式来做到这一点,对吧?
谢谢!
问题很简单,但我猜答案是“否”:
我有一个 HTML 表,我正在用 pandas.read_html 读取它,效果很好。但有些单元格(列)中包含图像、列表或其他显然被 read_html 丢弃的格式。我显然不希望 pandas 解析其中的任何内容,但是有什么方法可以让它返回原始 HTML,例如 DataFrame 单元格中的字符串,以便我可以自己解析它?
例子:
<table>
<th>Column 1</th>
<th>Column 2</th>
<tr>
<td>Cell1</td>
<td>Cell2 <img src="http://www.link.com/image.jpg /></td>
</tr>
<tr>
<td>Cell3</td>
<td>Cell4 <img src="http://www.website.com/picture.gif /></td>
</tr>
</table>
Run Code Online (Sandbox Code Playgroud)
如果 Pandas 要解析这个,我可能只会从第 2 列中获取“Cell2”和“Cell4”。我想做的是以某种方式获取单元格的全部内容,包括标签的 [raw?] HTML 内容<img>。然后我可以自己解析它们。
简单问题:我构建了一个准处理器模拟器,它采用优先级图形,确定优先级(和"就绪"指令),在可用功能单元上安排任务等.几乎是一个非常基本的模拟器.
但我意识到我应该在DES引擎之上构建它,因为我没有容量(除了设置标志并检查每个"时钟滴答"上的每个节点),因为它说"在10个循环中,执行此操作"(即在预定时间提升信号并处理将来应该发生的事件或者当满足预定标准时的事件.
我显然可以自己实现这个; 建立了一个"事件"类,把它们粘在一个队列,并在年底每个周期(或开始),检查队列,看看有什么在那里,但我想有一个在重新发明轮子是没有意义的.
因此,复杂的网络模拟器显然是过度杀伤.我不需要花哨的建模,排队等等.我需要的只是一个内置时钟,能够设置事件发生,在事情发生时引发标志等,如上所述.
免费软件和C++会很棒.
有人有主意吗?(我最接近的 - 感谢其他一些相关的问题 - 就是所谓的SIMLIB.)
非常感谢!
dataframe ×2
pandas ×2
python ×2
c++ ×1
des ×1
events ×1
html ×1
scheduler ×1
simulation ×1
web-scraping ×1