使用WebRequests下载pdf文件

Aab*_*ela 10 c# pdf webrequest binaryreader

我正在尝试自动下载一些pdf文件,给出一个网址列表.

这是我的代码:

HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);

request.Method = "GET";

var encoding = new UTF8Encoding();

request.Headers.Add(HttpRequestHeader.AcceptLanguage, "en-gb,en;q=0.5");
request.Headers.Add(HttpRequestHeader.AcceptEncoding, "gzip, deflate");

request.Accept = "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8";
request.UserAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:12.0) Gecko/20100101 Firefox/12.0";

HttpWebResponse resp = (HttpWebResponse)request.GetResponse();

BinaryReader reader = new BinaryReader(resp.GetResponseStream());

FileStream stream = new FileStream("output/" + date.ToString("yyyy-MM-dd") + ".pdf",FileMode.Create);

BinaryWriter writer = new BinaryWriter(stream);

while (reader.PeekChar() != -1)
      {
       writer.Write(reader.Read());
      }
       writer.Flush();
       writer.Close();
Run Code Online (Sandbox Code Playgroud)

所以,我知道第一部分有效.我最初得到它并使用TextReader读取它 - 但这给了我损坏的pdf文件(因为pdfs是二进制文件).

现在,如果我运行它,reader.PeekChar()总是-1并且没有任何反应 - 我得到一个空文件.

在调试它时,我注意到reader.Read()实际上在我调用时给出了不同的数字 - 所以也许Peek被打破了.

所以我尝试了一些很脏的东西

try
{
 while (true)
   {
    writer.Write(reader.Read());
    }
 }
   catch
      {
      }
 writer.Flush();
 writer.Close();
Run Code Online (Sandbox Code Playgroud)

现在我收到一个非常小的文件,里面有一些垃圾,但它仍然不是我想要的.

那么,任何人都可以指出我正确的方向?

附加信息:

标题不建议压缩或其他任何东西.

HTTP/1.1 200 OK
Content-Type: application/pdf
Server: Microsoft-IIS/7.5
X-Powered-By: ASP.NET
Date: Fri, 10 Aug 2012 11:15:48 GMT
Content-Length: 109809
Run Code Online (Sandbox Code Playgroud)

Mar*_*age 17

跳过BinaryReaderBinaryWriter公正的输入流复制到输出FileStream.简要地

var fileName = "output/" + date.ToString("yyyy-MM-dd") + ".pdf";
using (var stream = File.Create(fileName))
  resp.GetResponseStream().CopyTo(stream);
Run Code Online (Sandbox Code Playgroud)

  • 我想知道是否有办法将其放入字节数组而不是将其发送到文件系统? (2认同)
  • @ioSamurai:用`new MemoryStream()` 替换`File.Create(filename)`,然后在`using` 块的末尾检索字节:`var bytes = stream.ToArray()`。`MemoryStream` 不使用任何非托管资源,因此您也可以完全删除 `using` 块。 (2认同)

Ser*_*nov 10

为什么不WebClient上课?

using (WebClient webClient = new WebClient())
{
    webClient.DownloadFile("url", "filePath");
}
Run Code Online (Sandbox Code Playgroud)