我正在使用请求将pdf上传到API.它存储为下面的"响应".我想把它写成一个excel.
import requests
files = {'f': ('1.pdf', open('1.pdf', 'rb'))}
response = requests.post("https://pdftables.com/api?&format=xlsx-single",files=files)
response.raise_for_status() # ensure we notice bad responses
file = open("out.xls", "w")
file.write(response)
file.close()
Run Code Online (Sandbox Code Playgroud)
我收到错误:
file.write(response)
TypeError: expected a character buffer object
Run Code Online (Sandbox Code Playgroud) 我使用这个方便的方程式来搜索excel中单元格内的术语.
=IF(ISNUMBER(SEARCH("*Gingrich*",C1)),"1","")
Run Code Online (Sandbox Code Playgroud)
此等式在C1中搜索Gingrich的存在,如果存在,则显示1.
我想要做的就是一次搜索多个术语.任何人都知道如何添加OR函数,所以我可以搜索Gingrich或奥巴马或罗姆尼等...?
我有一个清单:
Cat
Dog
Monkey
Pig
Run Code Online (Sandbox Code Playgroud)
我有一个脚本:
import sys
input_file = open('list.txt', 'r')
for line in input_file:
sys.stdout.write('"' + line + '",')
Run Code Online (Sandbox Code Playgroud)
输出是:
"Cat
","Dog
","Monkey
","Pig",
Run Code Online (Sandbox Code Playgroud)
我想要:
"Cat","Dog","Monkey","Pig",
Run Code Online (Sandbox Code Playgroud)
我无法摆脱处理列表中的行所发生的回车.在最后摆脱的奖励点.不知道如何查找和删除最后一个实例.
我一直在阅读几个地方,Excel 2013(64位)能够打开更大的数据集,比以前有更多的行.然而,我的极限似乎与2010年的情况相符.
关于拥有超过一百万行的行,我得到了同样的错误.我很好奇是否有人能够获得更大的数据集导入/打开.如果是这样,您所经历的任何步骤都可能对所有人有所帮助.我尝试了4种不同的64位Office 2013 PC并且没有运气.
我基本上喜欢结合的力量
grep -f
Run Code Online (Sandbox Code Playgroud)
同
awk '{ if($2=="this is where I'd like to input a file of fixed string patterns") print $0}'
Run Code Online (Sandbox Code Playgroud)
也就是说,我想用模式的输入文件(文件2)搜索文件的特定列(文件1).如果找到匹配只是:
> outputfile.txt
Run Code Online (Sandbox Code Playgroud)
从上一篇文章中,这个awk系列非常接近:
awk 'NR==FNR{a[$0]=1;next} {n=0;for(i in a){if($0~i){n=1}}} n' file1 file2
Run Code Online (Sandbox Code Playgroud)
从使用ack或awk获取一个文件中的模式或使用比grep更好的方式获取模式?
但它不会搜索文件1的特定列.我也可以使用其他工具.
我想在带有-f的文本文件上使用grep来匹配长列表(10,000)的模式.事实证明,grep不喜欢这个(谁知道?).一天后,它没有产生任何东西.较小的列表几乎可以瞬间完成.
我以为我可能会把我的长列表分开并做几次.知道模式列表的最大长度是多少?
另外,我对unix很新.欢迎采用其他方法.模式列表或搜索术语位于纯文本文件中,每行一个.
谢谢大家的指导.
我有一个项目清单
alist = ['dog', 'cat', 'fish']
Run Code Online (Sandbox Code Playgroud)
我想返回所有唯一的无序对,所以在这种情况下:
(dog,cat)(dog,fish)(fish,cat)
Run Code Online (Sandbox Code Playgroud)
itertools.combinations 不考虑无序条件,所以它不是我需要的.
我有一个清单:
somelist = [500, 600, 200, 1000]
Run Code Online (Sandbox Code Playgroud)
我想生成该列表的排名顺序:
rankorderofsomelist = [3, 2, 4, 1]
Run Code Online (Sandbox Code Playgroud)
有一些复杂的解决方案,但有人有任何简单的方法吗?
这里的简单问题:我想使用Sikuli在mac上截取窗口的屏幕截图,这可以通过点击CMD + SHIFT + 4然后点击Space,然后点击一个窗口来完成.
对于CMD + SHIFT + 4我遇到了麻烦.这不起作用:
keyDown(KEY_META)
keyDown(Key.SHIFT)
wait(1)
type("4")
wait(1)
keyUp(Key.SHIFT)
keyUp(KEY_META)
Run Code Online (Sandbox Code Playgroud)
有人有主意吗?我对其他打击关键组合的路径持开放态度,例如,我知道复制这个很有效:
type("c",KEY_META)
Run Code Online (Sandbox Code Playgroud)
但是,它不接受三个论点.
在 Sublime Text 中使用正则表达式。我想在制表符 (\t) 之前找到所有字符。字符串:
Peace love and happiness 2
Run Code Online (Sandbox Code Playgroud)
会返回:
Peace love and happiness
Run Code Online (Sandbox Code Playgroud)
我基本上这样做是为了取消制表符分隔文档 (.tsv) 中的第一列。在 Sublime Text 中删除制表符分隔的列可能有更好的方法,但我还没有找到。
python ×6
python-2.7 ×4
excel ×2
excel-2013 ×2
grep ×2
unix ×2
awk ×1
bigdata ×1
excel-2007 ×1
excel-2010 ×1
nlp ×1
regex ×1
scipy ×1
sed ×1
sikuli ×1
sublimetext ×1
sublimetext2 ×1
sublimetext3 ×1
wordnet ×1