标签: data-extraction

提取 FAT .a 文件 Mac

我的 Mac 上有一个 FAT .a 存档（一个库），我只是想知道如何从中提取文件？

iphone xcode extract data-extraction

max*_*ax_

2011 09-24

2
推荐指数

1
解决办法

2092
查看次数

如何从Javascript中具有不同值的字符串中提取子字符串？

我有一段包含一些电子邮件、电话和 URL 的列表。

我想从该单个字符串中提取所有 (600) 电子邮件、电话和 URL。

我试图用 Javascript 中的 substr 来做到这一点，但我可能遗漏了某个地方。

这是我的示例数据的示例：

*Email:info@abc.com
Url: www.example.com
Tel: +123-456-789
Email:info@abc.com
Url: www.example.com
Tel: +123-456-789
Email:info@abc.com
Url: www.example.com
Tel: +123-456-789
Email:info@abc.com
Url: www.example.com
Tel: +123-456-789*

Run Code Online (Sandbox Code Playgroud)

请用 JavaScript 指导我。

var myEmail = [];
var ol = myS.substr((myS.indexOf("Email:")+1),(myS.indexOf('Url:')-2));
for(let i=0;i<600;i++){
   var ml = myS.substr((myS.indexOf(ol)+1),(myS.indexOf('Url:')-2));
console.log(ml);

}

Run Code Online (Sandbox Code Playgroud)

javascript dom data-extraction

Age*_*t K

lucky-day

2
推荐指数

1
解决办法

65
查看次数

如何解决在 python 中阅读时维基百科 API 页面错误？

我正在开发一个文档摘要 NLP 项目，因此我想从维基百科中提取埃隆·马斯克的简介。我尝试在维基百科库（API）的帮助下提取它，

我第一次尝试使用页面标题（即，埃隆·马斯克），但它给了我一个页面错误，PageError: Page id "e on musk" does not match any pages. Try another id!你注意到它显示的页面 ID了吗"e on musk"，然后我尝试使用它的页面 ID 号（即 Q317521），它输出了有关某些植物的结果'Matthiola incana'

这是我的代码

import wikipedia

elon = wikipedia.page('Elon Musk').content
elon
# outputs
PageError: Page id "e on musk" does not match any pages. Try another id!


elon = wikipedia.page('Q317521').content
elon
# outputs (shorted)
Matthiola incana is a species of flowering plant in the cabbage family Brassicaceae. Common names include Brompton stock,

Run Code Online (Sandbox Code Playgroud)

我尝试了艾伦旋转，但不起作用，还尝试了阿尔伯特_爱因斯坦，它显示出奇怪的输出，就像埃隆·马斯克一样。

然而，它与尼古拉·特斯拉、加来道雄、纳伦德拉·莫迪等人合作，这表明我没有做错。

wikipedia text-extraction data-extraction python-3.x

Dar*_*eam

lucky-day

2
推荐指数

1
解决办法

974
查看次数

如何从Windows应用程序内存中读取一些数据？

我有一个应用程序,它显示了一些数据.我需要附加到这个应用程序的进程,在内存中找到我需要的数据(实际上是一个数字),并将其保存在某个地方.这个应用程序似乎没有使用标准的Windows控件,所以事情不会像使用AutoIt或类似的东西读取控件数据那么简单.

目前我是一个自学数据库的人,对Windows应用程序调试知之甚少.甚至不确定我是否正确地问了我的问题.

那么,你能否给我一些入门指南,比如说,我应该先阅读什么,以及我应该做的一般指示？

谢谢.

memory windows debugging data-extraction

Kir*_*tev

lucky-day

1
推荐指数

2
解决办法

9021
查看次数

MATLAB:将列组提取到子矩阵中？

我有一个数据集,我想在其中提取1-3,7-9,13-15列,一直到矩阵的末尾

作为一个例子,我使用标准魔术函数来创建矩阵

A =魔法(10)

A =

92    99     1     8    15    67    74    51    58    40
98    80     7    14    16    73    55    57    64    41
 4    81    88    20    22    54    56    63    70    47
85    87    19    21     3    60    62    69    71    28
86    93    25     2     9    61    68    75    52    34
17    24    76    83    90    42    49    26    33    65
23     5    82    89    91    48    30    32    39    66
79     6    13    95 …

Run Code Online (Sandbox Code Playgroud)

matlab extraction submatrix data-extraction

作者

lucky-day

1
推荐指数

1
解决办法

2万
查看次数

当在网页的“源代码”中不可见时，从 https://chenmed.wd1.myworkdayjobs.com/en-US/jencare/ 抓取和提取数据

我正在尝试编写一个自动 PHP 脚本来从 URL https://chenmed.wd1.myworkdayjobs.com/en 中抓取和提取所有“职位”（初级保健医师 - 潮水市场、初级保健医师 - 里士满市场等）-美国/jencare/

然而，这似乎并不简单，因为所需的数据在网页的源代码中并不直接可见。我还尝试检查不同浏览器的“开发人员工具->网络”，但找不到数据源。

任何帮助将不胜感激。

感谢和问候！

php web-crawler web-scraping data-extraction

Sam*_*Sam

lucky-day

1
推荐指数

1
解决办法

2284
查看次数

在 Python 中验证一组日期的方法

我有一组日期，我正在使用以下方法来验证它们。我想确认使用这么多 try-except 块是正确的方法还是有更好的方法？

此外，日期也可以采用其他格式，例如 dd/mm/yyyy，所以我应该包括所有可能的格式还是有更好的方法？

dob="""
10/23/1964
9/14/2010
12-23-98
"""

try:
    date_time= datetime.strptime(dob, '%m/%d/%Y')
except:
       try:
           date_time= datetime.strptime(dob, '%m-%d-%Y')
       except:
              try:
                  date_time= datetime.strptime(dob, '%m/%d/%y')
              except:
                     try:
                         date_time= datetime.strptime(dob, '%m-%d-%y') 
                     except:
                            date_time="invalid date"
print(date_time)

Run Code Online (Sandbox Code Playgroud)

regex data-extraction python-3.x

Sli*_*ind

2018 08-22

1
推荐指数

1
解决办法

112
查看次数

在 Python 中使用 7zip 压缩时如何不包含整个路径？

我有一个 C:/a/b/c/d，我只想压缩文件“d”。当我使用 py7zr 库在 Python 中执行此操作时

archive = py7zr.SevenZipFile('C:/a/b/c/d.7z', 'w')
archive.writeall('C:/a/b/c/d')
archive.close()

Run Code Online (Sandbox Code Playgroud)

它可以工作，但是当我提取 zip 时，我最终得到了整个 a/b/c 路径，而不是我只想压缩当前文件。有任何想法吗？

python scripting file 7zip data-extraction

tar*_*lay

lucky-day

1
推荐指数

1
解决办法

1299
查看次数

使用 Python PyPDF2 从扫描的 pdf（图像）中提取文本

我一直在尝试从扫描的 PDF（带有不可选择文本的图像）中提取文本。

但是，我得到的输出不是人类可读的。

我想要包含 pdf 链接中的日期、发票号的信息（https://drive.google.com/file/d/1qQsqhlSKTZs-hlswrV8PIirR36896KXZ/view）。

请帮助我以纯文本形式提取和存储相同的内容。

import PyPDF2
from PIL import Image
pdf_reader = PyPDF2.PdfFileReader(r'document.pdf', 'rb')
page = pdf_reader.getPage(85)
if '/XObject' in page['/Resources']:
    xobject = page['/Resources']['/XObject'].getObject()
    for obj in xobject:
        if xobject[obj]['/Subtype'] == '/Image':
            size = (xobject[obj]['/Width'], xobject[obj]['/Height'])
            data = xobject[obj]._data
            print("*******", data)
            print(xobject[obj]['/Filter'])

Run Code Online (Sandbox Code Playgroud)

python pypdf python-imaging-library data-extraction

Mou*_*a K

2020 05-27

1
推荐指数

1
解决办法

1万
查看次数

爬行时scrapy中的错误403

这是我编写的用于抓取“blablacar”网站的代码。

# -*- coding: utf-8 -*-
import scrapy


class BlablaSpider(scrapy.Spider):
    name = 'blabla'

    allowed_domains = ['blablacar.in']
    start_urls = ['http://www.blablacar.in/ride-sharing/new-delhi/chandigarh']

    def parse(self, response):
        print(response.text)

Run Code Online (Sandbox Code Playgroud)

运行上述程序时，我收到错误消息

2018-06-11 00:07:05 [scrapy.extensions.telnet] 调试：Telnet 控制台监听 127.0.0.1:6023 2018-06-11 00:07:06 [scrapy.core.engine] 调试：爬行 (403) ) http://www.blablacar.in/robots.txt> (referer: None) 2018-06-11 00:07:06 [scrapy.core.engine] DEBUG: Crawled (403) http://www.blablacar .in/ride-sharing/new-delhi/chandigarh> (referer: None) 2018-06-11 00:07:06 [scrapy.spidermiddlewares.httperror] INFO：忽略响应 <403 http://www.blablacar.in /ride-sharing/new-delhi/chandigarh >: HTTP 状态代码未处理或不允许 2018-06-11 00:07:06 [scrapy.core.engine] INFO: Closing spider (finished)

web-crawler scrapy web-scraping data-extraction python-3.x

rij*_*n.p

2018 06-11

-1
推荐指数

1
解决办法

4346
查看次数