Ste*_*ven 21 html php screen-scraping http-headers
我有一个合作伙伴为我创造了一些内容.
我可以使用我的浏览器访问该页面,但在尝试用户时file_get_contents,我得到了一个403 forbidden.
我尝试过使用stream_context_create,但这没有帮助 - 可能是因为我不知道应该去哪里.
1)我有什么方法可以抓取数据吗?
2)如果否,如果不允许合作伙伴配置服务器以允许我访问,那么我该怎么办?
我尝试使用的代码:
$opts = array(
'http'=>array(
'user_agent' => 'My company name',
'method'=>"GET",
'header'=> implode("\r\n", array(
'Content-type: text/plain;'
))
)
);
$context = stream_context_create($opts);
//Get header content
$_header = file_get_contents($partner_url,false, $context);
Run Code Online (Sandbox Code Playgroud)
Cle*_*ric 33
这不是您的脚本中的问题,它是您合作伙伴Web服务器安全性的一项功能.
很难说是什么阻止了你,很可能是某种阻止刮擦的方法.如果您的合作伙伴可以访问其Web服务器设置,则可能有助于精确定位.
您可以做的是通过设置用户代理标头来"伪造Web浏览器",以便模仿标准Web浏览器.
我建议cURL这样做,并且很容易找到这样做的好文档.
// create curl resource
$ch = curl_init();
// set url
curl_setopt($ch, CURLOPT_URL, "example.com");
//return the transfer as a string
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.13) Gecko/20080311 Firefox/2.0.0.13');
// $output contains the output string
$output = curl_exec($ch);
// close curl resource to free up system resources
curl_close($ch);
Run Code Online (Sandbox Code Playgroud)
Abi*_*ain 18
//首先设置用户代理
ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 6.0)');
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
23690 次 |
| 最近记录: |