这甚至可能!?!
我有一堆遗留报告需要导入数据库.但是,它们都是pdf格式.有没有R
可以阅读pdf的软件包?或者我应该将其留给命令行工具?
报告是在excel中进行的,然后是pdfed,所以它们有规则的结构,但很多空白的"细胞".
我想解析一个简单的网站,并从该网站上抓取信息.
我曾经用DocumentBuilderFactory解析XML文件,我试图对html文件做同样的事情,但它总是陷入无限循环.
URL url = new URL("http://www.deneme.com");
URLConnection uc = url.openConnection();
InputStreamReader input = new InputStreamReader(uc.getInputStream());
BufferedReader in = new BufferedReader(input);
String inputLine;
FileWriter outFile = new FileWriter("orhancan");
PrintWriter out = new PrintWriter(outFile);
while ((inputLine = in.readLine()) != null) {
out.println(inputLine);
}
in.close();
out.close();
File fXmlFile = new File("orhancan");
DocumentBuilderFactory dbFactory = DocumentBuilderFactory.newInstance();
DocumentBuilder dBuilder = dbFactory.newDocumentBuilder();
Document doc = dBuilder.parse(fXmlFile);
NodeList prelist = doc.getElementsByTagName("body");
System.out.println(prelist.getLength());
Run Code Online (Sandbox Code Playgroud)
什么是问题?或者有没有更简单的方法从网站上抓取给定html标签的数据?
是否有支持表格识别和提取的开源库?
我的意思是:
我在这个主题上看了类似的问题,发现了以下内容:
目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别PDF中的表格结构.因此,任何替代方法都非常受欢迎!
在浏览器中,导航到此URL会启动302(暂时移动)请求,该请求又会下载文件.
http://www.targetsite.com/target.php/?event=download&task_id=123
当我通过Chrome网络工具查看实际发生的情况时,我发现重定向将转到动态生成的路径,该路径在下载后立即取消.换句话说,即使我知道完整路径,我也没有时间手动调用它.
那么,如何使用命令行我可以模仿浏览器操作?
我试过了
curl --cookies bin/cookies.txt -O -L" http://www.targetsite.com/target.php/?event=download&task_id=123 " - 压缩
但这只会带来胡言乱语.这样做的目的是以编程方式下载此文件,而无需导航到该站点.不幸的是,我不能在这里共享网站,因为它是登录后面的.
我有一个小网站,我尝试镜像到我的本地机器只有html文件,没有图像,图像附加文件... pdf,..等.
我之前从未反映过一个网站,并认为在做任何灾难性事件之前提出这个问题是个好主意.
这是我想要运行的命令,并想知道是否应该添加任何其他内容.
wget --mirror <url>
Run Code Online (Sandbox Code Playgroud)
谢谢!
是否可以使用JavaScript来清除对使用AJAX进行实时更新的网页的所有更改?我希望每秒使用AJAX抓取更新数据的网站,我想抓住所有的变化.这是一个拍卖网站,只要用户出价,就可以更改多个对象.出价时,进行以下更改:
当前买入价当前高出价者拍卖定时器已将时间添加回其中
我希望使用基于JavaScript构建的Chrome扩展程序获取此数据.是否有JavaScript的AJAX监听器可以实现这一目标?工具包?我需要一些方向.JavaScript可以实现这个吗?
我想使用Scrapy从给定的网站获取所有外部链接.使用以下代码,蜘蛛也会抓取外部链接:
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor
from myproject.items import someItem
class someSpider(CrawlSpider):
name = 'crawltest'
allowed_domains = ['someurl.com']
start_urls = ['http://www.someurl.com/']
rules = (Rule (LinkExtractor(), callback="parse_obj", follow=True),
)
def parse_obj(self,response):
item = someItem()
item['url'] = response.url
return item
Run Code Online (Sandbox Code Playgroud)
我错过了什么?"allowed_domains"是否阻止外部链接被抓取?如果我为LinkExtractor设置"allow_domains",它不会提取外部链接.只是为了澄清:我不想抓取内部链接,但提取外部链接.任何帮助appriciated!
我在网站上等待一些信息.我不想每小时检查一次.我想要一个脚本来为我这样做,并通知我这个网站是否已经更新了我正在寻找的关键字.
我正在尝试在我正在处理的Ruby脚本中抓取网页.该项目的目的是显示哪些ETF和股票共同基金与价值投资理念最相容.
我要抓的页面的一些例子是:
http://finance.yahoo.com/q/pr?s=SPY+Profile
http://finance.yahoo.com/q/hl?s=SPY+Holdings
http://www.marketwatch.com/tools/mutual-fund/list/V
Run Code Online (Sandbox Code Playgroud)
你为Ruby推荐什么网络抓取工具?为什么?请记住,那里有成千上万的股票基金,所以我使用的任何工具都必须相当快.
我是Ruby的新手,但我有使用lxml在Python中抓取网页的经验(https://github.com/jhsu802701/dopplervalueinvesting/blob/master/screen.py).一旦下载了5000多只股票的页面,lxml就可以在几分钟内完成所有这些操作.(我记得尝试过BeautifulSoup但拒绝它,因为它太慢了.)
我试图从torrent跟踪器获取peer-list:IP地址列表
与此处的问题类似:如何从torrent跟踪器响应中获取对等列表
我写的代码,解码使用Python torrent文件bencode位种子库 我写的代码下面这段代码在这里凑洪流跟踪.
至少对于像mininova tracker这样的http请求,我得到了特定info_hash的以下输出
{'files': {'\xbf\xff&\xcdY\x05\x9b\xb2C2j\x83\xf5F_\x9bg\x9d\xe2G': {'downloaded': 25416, 'complete': 12, 'incomplete': 0}}}
Run Code Online (Sandbox Code Playgroud)
我没有看到任何其他的按键了BitTorrent的文件,这里的规范.(比如tracker_id,min_interval,peer ...等)
我如何获得同行列表?
scrape ×10
python ×3
bash ×2
pdf ×2
pdf-scraping ×2
ajax ×1
bittorrent ×1
curl ×1
hook ×1
html ×1
html-parsing ×1
java ×1
javascript ×1
linux ×1
lxml ×1
mirror ×1
r ×1
ruby ×1
scrapy ×1
tracker ×1
web ×1
web-crawler ×1
wget ×1