我的 Mac 上有一个 FAT .a 存档(一个库),我只是想知道如何从中提取文件?
我有一段包含一些电子邮件、电话和 URL 的列表。
我想从该单个字符串中提取所有 (600) 电子邮件、电话和 URL。
我试图用 Javascript 中的 substr 来做到这一点,但我可能遗漏了某个地方。
这是我的示例数据的示例:
*Email:info@abc.com
Url: www.example.com
Tel: +123-456-789
Email:info@abc.com
Url: www.example.com
Tel: +123-456-789
Email:info@abc.com
Url: www.example.com
Tel: +123-456-789
Email:info@abc.com
Url: www.example.com
Tel: +123-456-789*
Run Code Online (Sandbox Code Playgroud)
请用 JavaScript 指导我。
var myEmail = [];
var ol = myS.substr((myS.indexOf("Email:")+1),(myS.indexOf('Url:')-2));
for(let i=0;i<600;i++){
var ml = myS.substr((myS.indexOf(ol)+1),(myS.indexOf('Url:')-2));
console.log(ml);
}
Run Code Online (Sandbox Code Playgroud) 我正在开发一个文档摘要 NLP 项目,因此我想从维基百科中提取埃隆·马斯克的简介。我尝试在维基百科库(API)的帮助下提取它,
我第一次尝试使用页面标题(即,埃隆·马斯克),但它给了我一个页面错误,PageError: Page id "e on musk" does not match any pages. Try another id!你注意到它显示的页面 ID了吗"e on musk",然后我尝试使用它的页面 ID 号(即 Q317521),它输出了有关某些植物的结果'Matthiola incana'
这是我的代码
import wikipedia
elon = wikipedia.page('Elon Musk').content
elon
# outputs
PageError: Page id "e on musk" does not match any pages. Try another id!
elon = wikipedia.page('Q317521').content
elon
# outputs (shorted)
Matthiola incana is a species of flowering plant in the cabbage family Brassicaceae. Common names include Brompton stock,
Run Code Online (Sandbox Code Playgroud)
我尝试了艾伦旋转,但不起作用,还尝试了阿尔伯特_爱因斯坦,它显示出奇怪的输出,就像埃隆·马斯克一样。
然而,它与尼古拉·特斯拉、加来道雄、纳伦德拉·莫迪等人合作,这表明我没有做错。
我有一个应用程序,它显示了一些数据.我需要附加到这个应用程序的进程,在内存中找到我需要的数据(实际上是一个数字),并将其保存在某个地方.这个应用程序似乎没有使用标准的Windows控件,所以事情不会像使用AutoIt或类似的东西读取控件数据那么简单.
目前我是一个自学数据库的人,对Windows应用程序调试知之甚少.甚至不确定我是否正确地问了我的问题.
那么,你能否给我一些入门指南,比如说,我应该先阅读什么,以及我应该做的一般指示?
谢谢.
我有一个数据集,我想在其中提取1-3,7-9,13-15列,一直到矩阵的末尾
作为一个例子,我使用标准魔术函数来创建矩阵
A =魔法(10)
A =
92 99 1 8 15 67 74 51 58 40
98 80 7 14 16 73 55 57 64 41
4 81 88 20 22 54 56 63 70 47
85 87 19 21 3 60 62 69 71 28
86 93 25 2 9 61 68 75 52 34
17 24 76 83 90 42 49 26 33 65
23 5 82 89 91 48 30 32 39 66
79 6 13 95 …Run Code Online (Sandbox Code Playgroud) 我正在尝试编写一个自动 PHP 脚本来从 URL https://chenmed.wd1.myworkdayjobs.com/en 中抓取和提取所有“职位”(初级保健医师 - 潮水市场、初级保健医师 - 里士满市场等)-美国/jencare/
然而,这似乎并不简单,因为所需的数据在网页的源代码中并不直接可见。我还尝试检查不同浏览器的“开发人员工具->网络”,但找不到数据源。
任何帮助将不胜感激。
感谢和问候!
我有一组日期,我正在使用以下方法来验证它们。我想确认使用这么多 try-except 块是正确的方法还是有更好的方法?
此外,日期也可以采用其他格式,例如 dd/mm/yyyy,所以我应该包括所有可能的格式还是有更好的方法?
dob="""
10/23/1964
9/14/2010
12-23-98
"""
try:
date_time= datetime.strptime(dob, '%m/%d/%Y')
except:
try:
date_time= datetime.strptime(dob, '%m-%d-%Y')
except:
try:
date_time= datetime.strptime(dob, '%m/%d/%y')
except:
try:
date_time= datetime.strptime(dob, '%m-%d-%y')
except:
date_time="invalid date"
print(date_time)
Run Code Online (Sandbox Code Playgroud) 我有一个 C:/a/b/c/d,我只想压缩文件“d”。当我使用 py7zr 库在 Python 中执行此操作时
archive = py7zr.SevenZipFile('C:/a/b/c/d.7z', 'w')
archive.writeall('C:/a/b/c/d')
archive.close()
Run Code Online (Sandbox Code Playgroud)
它可以工作,但是当我提取 zip 时,我最终得到了整个 a/b/c 路径,而不是我只想压缩当前文件。有任何想法吗?
我一直在尝试从扫描的 PDF(带有不可选择文本的图像)中提取文本。
但是,我得到的输出不是人类可读的。
我想要包含 pdf 链接中的日期、发票号的信息(https://drive.google.com/file/d/1qQsqhlSKTZs-hlswrV8PIirR36896KXZ/view)。
请帮助我以纯文本形式提取和存储相同的内容。
import PyPDF2
from PIL import Image
pdf_reader = PyPDF2.PdfFileReader(r'document.pdf', 'rb')
page = pdf_reader.getPage(85)
if '/XObject' in page['/Resources']:
xobject = page['/Resources']['/XObject'].getObject()
for obj in xobject:
if xobject[obj]['/Subtype'] == '/Image':
size = (xobject[obj]['/Width'], xobject[obj]['/Height'])
data = xobject[obj]._data
print("*******", data)
print(xobject[obj]['/Filter'])
Run Code Online (Sandbox Code Playgroud) 这是我编写的用于抓取“blablacar”网站的代码。
# -*- coding: utf-8 -*-
import scrapy
class BlablaSpider(scrapy.Spider):
name = 'blabla'
allowed_domains = ['blablacar.in']
start_urls = ['http://www.blablacar.in/ride-sharing/new-delhi/chandigarh']
def parse(self, response):
print(response.text)
Run Code Online (Sandbox Code Playgroud)
运行上述程序时,我收到错误消息
2018-06-11 00:07:05 [scrapy.extensions.telnet] 调试:Telnet 控制台监听 127.0.0.1:6023 2018-06-11 00:07:06 [scrapy.core.engine] 调试:爬行 (403) ) http://www.blablacar.in/robots.txt> (referer: None) 2018-06-11 00:07:06 [scrapy.core.engine] DEBUG: Crawled (403) http://www.blablacar .in/ride-sharing/new-delhi/chandigarh> (referer: None) 2018-06-11 00:07:06 [scrapy.spidermiddlewares.httperror] INFO:忽略响应 <403 http://www.blablacar.in /ride-sharing/new-delhi/chandigarh >: HTTP 状态代码未处理或不允许 2018-06-11 00:07:06 [scrapy.core.engine] INFO: Closing spider (finished)
data-extraction ×10
python-3.x ×3
python ×2
web-crawler ×2
web-scraping ×2
7zip ×1
debugging ×1
dom ×1
extract ×1
extraction ×1
file ×1
iphone ×1
javascript ×1
matlab ×1
memory ×1
php ×1
pypdf ×1
regex ×1
scrapy ×1
scripting ×1
submatrix ×1
wikipedia ×1
windows ×1
xcode ×1