小编Nan*_*ncy的帖子

如何使用python-docx从现有docx文件中提取文本

我正在尝试使用python-docxmodule(pip install python-docx),但它似乎非常混乱,因为在github repo测试样本中他们使用的是opendocx函数,但在readthedocs中他们正在使用Document类.即使他们只是展示如何将文本添加到docx文件而不是读取现有文件？

第一个(opendocx)不起作用,可能会被弃用.对于第二种情况,我试图使用:

from docx import Document

document = Document('test_doc.docx')

print document.paragraphs

Run Code Online (Sandbox Code Playgroud)

它返回了一份清单 <docx.text.Paragraph object at 0x... >

然后我做了:

for p in document.paragraphs:
    print p.text

Run Code Online (Sandbox Code Playgroud)

它返回了所有文本,但缺少一些东西.控制台上的文本中不存在所有URL(CTRL + CLICK转到URL).

有什么问题？为什么缺少网址？

如何在不迭代循环的情况下获得完整的文本(类似open().read())

python python-2.7 python-3.x python-docx

Nan*_*ncy

2014 08-10

39
推荐指数

6
解决办法

8万
查看次数

Selenium自动代理用户名/密码无效

ip = "username:password@123.456.78.9"
#ip = "http://username:password@123.456.78.9"  # tried this as well but same result

profile = webdriver.FirefoxProfile()
profile.set_preference("network.proxy.type", 1)
profile.set_preference("network.proxy.http", ip)
profile.set_preference("network.proxy.http_port", 80)
profile.set_preference("general.useragent.override","some_user_agent")
profile.update_preferences()
driver = webdriver.Firefox(firefox_profile=profile)
driver.maximize_window()
driver.get('http://www.whatismyip.com/')

Run Code Online (Sandbox Code Playgroud)

当我这样做这个页面没有加载(因为互联网断开)但当我从ip变量删除用户名:密码的东西时,一个窗口弹出窗口要求输入用户名密码.

我不知道如何自动化这个东西我的意思是通过编程方式传递用户名/传递？我甚至不知道如何在弹出窗口中传递username/pass(send_keys当我不知道标签名称时如何使用)我alert = driver.switch_to.alert 现在做了什么？

无论如何,如果有某些事情会很好

profile.set_preference("network.proxy.user_name", 'username')
profile.set_preference("network.proxy.password", 'password')

Run Code Online (Sandbox Code Playgroud)

我不知道.

我已经访问了5-6个SOF线程并尝试了他们的解决方案(所有这些都是建议相同的解决方案,但在2012/13).这里如何在Selenium 2的FirefoxDriver中设置像"user:pass@6.6.6.6:8043"这样的代理？有人发布(2012年)Java解决方案我们fp.setPreference("browser.safebrowsing.malware.enabled", false); 在python中有类似的东西吗？

python python-2.7 python-3.x selenium-webdriver

Nan*_*ncy

2017 05-23

5
推荐指数

0
解决办法

1024
查看次数

方法：python-pdfkit 将网页（JS生成）转换为PDF

视图.py

def download_as_pdf(request):
    # some stuff/function call to get updated(with data and JS) template and render it

    return render(request, temp)

def download(request):
    import pdfkit
    pdfkit.from_url('/download/', 'out.pdf', options={'ignore-load-errors': None})
    return HttpResponse('DONE')

Run Code Online (Sandbox Code Playgroud)

urls.py

url(r'^download/', views.download_as_pdf, name="download_pdf")

Run Code Online (Sandbox Code Playgroud)

我想打印/download/pdf 中 url 的所有内容（一些图表（JS 生成 - fllotcharts））。如果我把这两行

import pdfkit
pdfkit.from_url('/download/', 'out.pdf', options={'ignore-load-errors': None})

Run Code Online (Sandbox Code Playgroud)

鉴于download_as_pdf它在pdf中不打印任何内容（pdf虽然可以下载但为空）（我认为因为模板渲染发生在这些语句之后，这就是为什么？）

我应该如何继续处理 pdf 中的 prit graph（我可以通过线程解决这个问题吗？如何？）或任何其他方法

python django pdfkit django-views python-2.7

Nan*_*ncy

2014 09-10

3
推荐指数

1
解决办法

5133
查看次数

标签统计

python ×3

python-2.7 ×3

python-3.x ×2

django ×1

django-views ×1

pdfkit ×1

python-docx ×1

selenium-webdriver ×1

如何使用python-docx从现有docx文件中提取文本

Selenium自动代理用户名/密码无效

方法：python-pdfkit 将网页（JS生成）转换为PDF

标签 统计

小编Nan_ncy的帖子

标签统计