我目前正在使用tika从pdf文件中提取文本.我在tika模块中找到了一种非常快速的方法.调用此方法unpack.这是我的代码:
from tika import unpack
text = unpack.from_file('example.pdf')['content']
Run Code Online (Sandbox Code Playgroud)
但是,有一段时间(并非总是!)我得到这个警告:
2018-11-02 15:30:25,533 [MainThread ] [WARNI] Failed to see startup log message; retrying...
Run Code Online (Sandbox Code Playgroud)
重试后,代码开始工作.但是,我不理解警告,也需要时间重试.任何人都知道为什么我会收到这个警告?
这是github页面:https: //github.com/chrismattmann/tika-python
目前,我正试图在sec.gov上搜索10-K提交文本文件.
这是一个示例文本文件:https:
//www.sec.gov/Archives/edgar/data/320193/000119312515356351/0001193125-15-356351.txt
文本文档包含HTML标记,CSS样式和JavaScript等内容.理想情况下,我想在删除所有标签和样式后仅删除内容.
首先,我尝试了get_text()BeautifulSoup 的明显方法.这没有成功.
然后我尝试使用正则表达式删除<和>之间的所有内容.不幸的是,这也没有完全解决.它保留了一些标签,样式和脚本.
有没有人为我实现目标有一个干净的解决方案?
到目前为止,这是我的代码:
import requests
import re
url = 'https://www.sec.gov/Archives/edgar/data/320193/000119312515356351/0001193125-15-356351.txt'
response = requests.get(url)
text = re.sub('<.*?>', '', response.text)
print(text)
Run Code Online (Sandbox Code Playgroud) 您好,我正在尝试按住SHIFT键的同时模拟鼠标单击。我一直在尝试使用该pynput模块。
到目前为止,这是我的代码:
from pynput.keyboard import Key
from pynput.keyboard import Controller as Cont
from pynput.mouse import Button, Controller
import time
mouse = Controller()
keyboard = Cont()
with keyboard.pressed(Key.shift):
mouse.position = (1892, 838)
mouse.click(Button.left)
Run Code Online (Sandbox Code Playgroud)
我知道用于按住Shift键的代码正在工作(如果我尝试按代码中的“ a”按钮,则会看到“ A”)。我也知道鼠标单击正在工作。但是,在一起无法正常工作。
我也尝试了StackOverflow帖子中的另一个代码:Pyautogui-需要按住shift键并单击
我从中尝试了以下代码:
import pyautogui
pyautogui.keyDown('shift')
pyautogui.click()
pyautogui.keyUp('shift')
Run Code Online (Sandbox Code Playgroud)
这工作了一分钟,然后停止工作!很奇怪。10次失败中有9次失败。
目前我有以下数据框:
data = {'shoe': ['a', 'b'], 'fury': ['c','d','e','f'], 'chaos': ['g','h', 'i']}
dataFrame = pandas.DataFrame({k:pandas.Series(v) for k, v in data.items()})
Run Code Online (Sandbox Code Playgroud)
输出:
shoe fury chaos
0 a c g
1 b d h
2 NaN e i
3 NaN f NaN
Run Code Online (Sandbox Code Playgroud)
有没有办法找到数据框中最长列的长度?在这种情况下,这应该是4.是否pandas有可用于类似目的的方法?
谢谢阅读
我有以下数据:
data = [[1,2,3], [1,2,3,4,5], [1,2,3,4,5,6,7]]
dataFrame = pandas.DataFrame(data).transpose()
Run Code Online (Sandbox Code Playgroud)
输出:
0 1 2
0 1.0 1.0 1.0
1 2.0 2.0 2.0
2 3.0 3.0 3.0
3 NaN 4.0 4.0
4 NaN 5.0 5.0
5 NaN NaN 6.0
6 NaN NaN 7.0
Run Code Online (Sandbox Code Playgroud)
是否可以在同一时间创建第4列,其他列是在数据中创建的,其长度与此数据帧的最长列(第3列)相同?
本专栏的数据无关紧要.假设它是8.所以这是所需的输出可以是:
0 1 2 3
0 1.0 1.0 1.0 8.0
1 2.0 2.0 2.0 8.0
2 3.0 3.0 3.0 8.0
3 NaN 4.0 4.0 8.0
4 NaN 5.0 5.0 8.0
5 NaN NaN 6.0 8.0
6 NaN NaN …Run Code Online (Sandbox Code Playgroud) python ×5
python-3.x ×4
dataframe ×2
pandas ×2
apache-tika ×1
keyboard ×1
mouse ×1
pyautogui ×1
pynput ×1
regex ×1
tika-server ×1
web-scraping ×1