标签: data-extraction

提取 FAT .a 文件 Mac

我的 Mac 上有一个 FAT .a 存档(一个库),我只是想知道如何从中提取文件?

iphone xcode extract data-extraction

2
推荐指数
1
解决办法
2092
查看次数

如何从Javascript中具有不同值的字符串中提取子字符串?

我有一段包含一些电子邮件、电话和 URL 的列表。

我想从该单个字符串中提取所有 (600) 电子邮件、电话和 URL。

我试图用 Javascript 中的 substr 来做到这一点,但我可能遗漏了某个地方。

这是我的示例数据的示例:

*Email:info@abc.com
Url: www.example.com
Tel: +123-456-789
Email:info@abc.com
Url: www.example.com
Tel: +123-456-789
Email:info@abc.com
Url: www.example.com
Tel: +123-456-789
Email:info@abc.com
Url: www.example.com
Tel: +123-456-789*
Run Code Online (Sandbox Code Playgroud)

请用 JavaScript 指导我。

var myEmail = [];
var ol = myS.substr((myS.indexOf("Email:")+1),(myS.indexOf('Url:')-2));
for(let i=0;i<600;i++){
   var ml = myS.substr((myS.indexOf(ol)+1),(myS.indexOf('Url:')-2));
console.log(ml);

}
Run Code Online (Sandbox Code Playgroud)

javascript dom data-extraction

2
推荐指数
1
解决办法
65
查看次数

如何解决在 python 中阅读时维基百科 API 页面错误?

我正在开发一个文档摘要 NLP 项目,因此我想从维基百科中提取埃隆·马斯克的简介。我尝试在维基百科库(API)的帮助下提取它,

我第一次尝试使用页面标题(即,埃隆·马斯克),但它给了我一个页面错误,PageError: Page id "e on musk" does not match any pages. Try another id!你注意到它显示的页面 ID了吗"e on musk",然后我尝试使用它的页面 ID 号(即 Q317521),它输出了有关某些植物的结果'Matthiola incana'

埃隆·马斯克维基百科页面

这是我的代码

import wikipedia

elon = wikipedia.page('Elon Musk').content
elon
# outputs
PageError: Page id "e on musk" does not match any pages. Try another id!


elon = wikipedia.page('Q317521').content
elon
# outputs (shorted)
Matthiola incana is a species of flowering plant in the cabbage family Brassicaceae. Common names include Brompton stock,
Run Code Online (Sandbox Code Playgroud)

我尝试了艾伦旋转,但不起作用,还尝试了阿尔伯特_爱因斯坦,它显示出奇怪的输出,就像埃隆·马斯克一样。

然而,它与尼古拉·特斯拉、加来道雄、纳伦德拉·莫迪等人合作,这表明我没有做错。

wikipedia text-extraction data-extraction python-3.x

2
推荐指数
1
解决办法
974
查看次数

如何从Windows应用程序内存中读取一些数据?

我有一个应用程序,它显示了一些数据.我需要附加到这个应用程序的进程,在内存中找到我需要的数据(实际上是一个数字),并将其保存在某个地方.这个应用程序似乎没有使用标准的Windows控件,所以事情不会像使用AutoIt或类似的东西读取控件数据那么简单.

目前我是一个自学数据库的人,对Windows应用程序调试知之甚少.甚至不确定我是否正确地问了我的问题.

那么,你能否给我一些入门指南,比如说,我应该先阅读什么,以及我应该做的一般指示?

谢谢.

memory windows debugging data-extraction

1
推荐指数
2
解决办法
9021
查看次数

MATLAB:将列组提取到子矩阵中?

我有一个数据集,我想在其中提取1-3,7-9,13-15列,一直到矩阵的末尾

作为一个例子,我使用标准魔术函数来创建矩阵

A =魔法(10)

A =

92    99     1     8    15    67    74    51    58    40
98    80     7    14    16    73    55    57    64    41
 4    81    88    20    22    54    56    63    70    47
85    87    19    21     3    60    62    69    71    28
86    93    25     2     9    61    68    75    52    34
17    24    76    83    90    42    49    26    33    65
23     5    82    89    91    48    30    32    39    66
79     6    13    95 …
Run Code Online (Sandbox Code Playgroud)

matlab extraction submatrix data-extraction

1
推荐指数
1
解决办法
2万
查看次数

当在网页的“源代码”中不可见时,从 https://chenmed.wd1.myworkdayjobs.com/en-US/jencare/ 抓取和提取数据

我正在尝试编写一个自动 PHP 脚本来从 URL https://chenmed.wd1.myworkdayjobs.com/en 中抓取和提取所有“职位”(初级保健医师 - 潮水市场、初级保健医师 - 里士满市场等)-美国/jencare/

然而,这似乎并不简单,因为所需的数据在网页的源代码中并不直接可见。我还尝试检查不同浏览器的“开发人员工具->网络”,但找不到数据源。

任何帮助将不胜感激。

感谢和问候!

php web-crawler web-scraping data-extraction

1
推荐指数
1
解决办法
2284
查看次数

在 Python 中验证一组日期的方法

我有一组日期,我正在使用以下方法来验证它们。我想确认使用这么多 try-except 块是正确的方法还是有更好的方法?

此外,日期也可以采用其他格式,例如 dd/mm/yyyy,所以我应该包括所有可能的格式还是有更好的方法?

dob="""
10/23/1964
9/14/2010
12-23-98
"""

try:
    date_time= datetime.strptime(dob, '%m/%d/%Y')
except:
       try:
           date_time= datetime.strptime(dob, '%m-%d-%Y')
       except:
              try:
                  date_time= datetime.strptime(dob, '%m/%d/%y')
              except:
                     try:
                         date_time= datetime.strptime(dob, '%m-%d-%y') 
                     except:
                            date_time="invalid date"
print(date_time)
Run Code Online (Sandbox Code Playgroud)

regex data-extraction python-3.x

1
推荐指数
1
解决办法
112
查看次数

在 Python 中使用 7zip 压缩时如何不包含整个路径?

我有一个 C:/a/b/c/d,我只想压缩文件“d”。当我使用 py7zr 库在 Python 中执行此操作时

archive = py7zr.SevenZipFile('C:/a/b/c/d.7z', 'w')
archive.writeall('C:/a/b/c/d')
archive.close()
Run Code Online (Sandbox Code Playgroud)

它可以工作,但是当我提取 zip 时,我最终得到了整个 a/b/c 路径,而不是我只想压缩当前文件。有任何想法吗?

python scripting file 7zip data-extraction

1
推荐指数
1
解决办法
1299
查看次数

使用 Python PyPDF2 从扫描的 pdf(图像)中提取文本

我一直在尝试从扫描的 PDF(带有不可选择文本的图像)中提取文本。

但是,我得到的输出不是人类可读的。

我想要包含 pdf 链接中的日期、发票号的信息(https://drive.google.com/file/d/1qQsqhlSKTZs-hlswrV8PIirR36896KXZ/view)。

请帮助我以纯文本形式提取和存储相同的内容。

import PyPDF2
from PIL import Image
pdf_reader = PyPDF2.PdfFileReader(r'document.pdf', 'rb')
page = pdf_reader.getPage(85)
if '/XObject' in page['/Resources']:
    xobject = page['/Resources']['/XObject'].getObject()
    for obj in xobject:
        if xobject[obj]['/Subtype'] == '/Image':
            size = (xobject[obj]['/Width'], xobject[obj]['/Height'])
            data = xobject[obj]._data
            print("*******", data)
            print(xobject[obj]['/Filter'])
Run Code Online (Sandbox Code Playgroud)

python pypdf python-imaging-library data-extraction

1
推荐指数
1
解决办法
1万
查看次数

爬行时scrapy中的错误403

这是我编写的用于抓取“blablacar”网站的代码。

# -*- coding: utf-8 -*-
import scrapy


class BlablaSpider(scrapy.Spider):
    name = 'blabla'

    allowed_domains = ['blablacar.in']
    start_urls = ['http://www.blablacar.in/ride-sharing/new-delhi/chandigarh']

    def parse(self, response):
        print(response.text)
Run Code Online (Sandbox Code Playgroud)

运行上述程序时,我收到错误消息

2018-06-11 00:07:05 [scrapy.extensions.telnet] 调试:Telnet 控制台监听 127.0.0.1:6023 2018-06-11 00:07:06 [scrapy.core.engine] 调试:爬行 (403) ) http://www.blablacar.in/robots.txt> (referer: None) 2018-06-11 00:07:06 [scrapy.core.engine] DEBUG: Crawled (403) http://www.blablacar .in/ride-sharing/new-delhi/chandigarh> (referer: None) 2018-06-11 00:07:06 [scrapy.spidermiddlewares.httperror] INFO:忽略响应 <403 http://www.blablacar.in /ride-sharing/new-delhi/chandigarh >: HTTP 状态代码未处理或不允许 2018-06-11 00:07:06 [scrapy.core.engine] INFO: Closing spider (finished)

web-crawler scrapy web-scraping data-extraction python-3.x

-1
推荐指数
1
解决办法
4346
查看次数