小编jxp*_*hon的帖子

来自tika python模块的使用unpack方法的警告消息

我目前正在使用tika从pdf文件中提取文本.我在tika模块中找到了一种非常快速的方法.调用此方法unpack.这是我的代码:

from tika import unpack

text = unpack.from_file('example.pdf')['content']
Run Code Online (Sandbox Code Playgroud)

但是,有一段时间(并非总是!)我得到这个警告:

2018-11-02 15:30:25,533 [MainThread ] [WARNI] Failed to see startup log message; retrying...
Run Code Online (Sandbox Code Playgroud)

重试后,代码开始工作.但是,我不理解警告,也需要时间重试.任何人都知道为什么我会收到这个警告?

这是github页面:https: //github.com/chrismattmann/tika-python

python python-3.x apache-tika tika-server

6
推荐指数
1
解决办法
488
查看次数

从HTML,CSS和JavaScript中获取干净的字符串

目前,我正试图在sec.gov上搜索10-K提交文本文件.

这是一个示例文本文件:https:
//www.sec.gov/Archives/edgar/data/320193/000119312515356351/0001193125-15-356351.txt

文本文档包含HTML标记,CSS样式和JavaScript等内容.理想情况下,我想在删除所有标签和样式后仅删除内容.

首先,我尝试了get_text()BeautifulSoup 的明显方法.这没有成功.
然后我尝试使用正则表达式删除<和>之间的所有内容.不幸的是,这也没有完全解决.它保留了一些标签,样式和脚本.

有没有人为我实现目标有一个干净的解决方案?

到目前为止,这是我的代码:

import requests
import re

url = 'https://www.sec.gov/Archives/edgar/data/320193/000119312515356351/0001193125-15-356351.txt'
response = requests.get(url)
text = re.sub('<.*?>', '', response.text)
print(text)
Run Code Online (Sandbox Code Playgroud)

python regex web-scraping python-3.x

5
推荐指数
1
解决办法
194
查看次数

在Windows中按住SHIFT键的同时如何模拟鼠标单击?

您好,我正在尝试按住SHIFT键的同时模拟鼠标单击。我一直在尝试使用该pynput模块。

到目前为止,这是我的代码:

from pynput.keyboard import Key
from pynput.keyboard import Controller as Cont
from pynput.mouse import Button, Controller
import time

mouse = Controller()
keyboard = Cont()

with keyboard.pressed(Key.shift):
    mouse.position = (1892, 838)
    mouse.click(Button.left)
Run Code Online (Sandbox Code Playgroud)

我知道用于按住Shift键的代码正在工作(如果我尝试按代码中的“ a”按钮,则会看到“ A”)。我也知道鼠标单击正在工作。但是,在一起无法正常工作。


我也尝试了StackOverflow帖子中的另一个代码:Pyautogui-需要按住shift键并单击

我从中尝试了以下代码:

import pyautogui

pyautogui.keyDown('shift')
pyautogui.click()
pyautogui.keyUp('shift')
Run Code Online (Sandbox Code Playgroud)

这工作了一分钟,然后停止工作!很奇怪。10次​​失败中有9次失败。

python keyboard mouse pyautogui pynput

5
推荐指数
1
解决办法
442
查看次数

查找pandas中最长列的长度

目前我有以下数据框:

data = {'shoe': ['a', 'b'], 'fury': ['c','d','e','f'], 'chaos': ['g','h', 'i']}
dataFrame = pandas.DataFrame({k:pandas.Series(v) for k, v in data.items()})
Run Code Online (Sandbox Code Playgroud)

输出:

  shoe fury chaos
0    a    c     g
1    b    d     h
2  NaN    e     i
3  NaN    f   NaN
Run Code Online (Sandbox Code Playgroud)

有没有办法找到数据框中最长列的长度?在这种情况下,这应该是4.是否pandas有可用于类似目的的方法?

谢谢阅读

python dataframe python-3.x pandas

3
推荐指数
1
解决办法
500
查看次数

创建一个与数据中最长列长度相同的列

我有以下数据:

data = [[1,2,3], [1,2,3,4,5], [1,2,3,4,5,6,7]]
dataFrame = pandas.DataFrame(data).transpose()
Run Code Online (Sandbox Code Playgroud)

输出:

     0    1    2
0  1.0  1.0  1.0
1  2.0  2.0  2.0
2  3.0  3.0  3.0
3  NaN  4.0  4.0
4  NaN  5.0  5.0
5  NaN  NaN  6.0
6  NaN  NaN  7.0
Run Code Online (Sandbox Code Playgroud)

是否可以在同一时间创建第4列,其他列是在数据中创建的,其长度与此数据帧的最长列(第3列)相同?

本专栏的数据无关紧要.假设它是8.所以这是所需的输出可以是:

     0    1    2    3
0  1.0  1.0  1.0  8.0
1  2.0  2.0  2.0  8.0
2  3.0  3.0  3.0  8.0
3  NaN  4.0  4.0  8.0
4  NaN  5.0  5.0  8.0
5  NaN  NaN  6.0  8.0
6  NaN  NaN …
Run Code Online (Sandbox Code Playgroud)

python dataframe python-3.x pandas

-1
推荐指数
2
解决办法
296
查看次数