小编Wil*_*ill的帖子

用C#屏幕抓取HTML

我已经完成了屏幕抓取我们的一个遗留Web应用程序的任务,从代码中提取某些数据.数据被格式化并且"应该"每次都显示完全相同.我只是不确定如何去做这件事.这是一个包含页眉和页脚导航的完整html文件,但在这一切的中间是我需要的数据.

我需要提取公司名称值,联系人姓名,电话,电子邮件地址等.

以下是代码的示例:

...html above here

<br /><br />
<table cellpadding="0" cellspacing="12" border="0">
    <tr>
        <td valign="top" align="center">
            <!-- Company Info -->

            <table cellpadding="0" cellspacing="0" border="0">
                <tr>
                    <td class="black">
                        <table cellspacing="1" cellpadding="0" border="0" width="370">
                            <tr>
                                <th>ABC INDUSTRIES</th>
                            </tr>
                            <tr>
                                <td class="search">

                                    <table cellpadding="5" cellspacing="0" border="0" width="100%">
                                        <tr>
                                            <td>
                                                <table cellpadding="1" cellspacing="0" border="0" width="100%">
                                                   <tr>
                                                        <td align="center" colspan="2"><hr></td>
                                                    </tr>
                                                    <tr>
                                                        <td align="right" nowrap><b><font color="FF0000">Contact Person&nbsp;<img src="/images/icon_contact.gif" align="absmiddle">&nbsp;:</font></b></td>
                                                        <td align="left" width="100%">&nbsp;Joe Smith</td>
                                                    </tr>
                                                    <tr>
                                                        <td align="right" nowrap><b><font color="FF0000">Phone Number&nbsp;<img src="/images/icon_phone.gif" align="absmiddle">&nbsp;:</font></b></td>
                                                        <td align="left" …
Run Code Online (Sandbox Code Playgroud)

c# screen-scraping

12
推荐指数
1
解决办法
2万
查看次数

高级HTML Agility Pack用法

我对HTML Agility Pack很陌生,所以我需要一些帮助来解决下一步的问题.我可以做一些简单的事情,比如从一个href中提取一个值(知道我正在寻找的url字符串),并且我可以根据正在使用的特定类来调整范围中的值.但是我不明白如何在有大量或标签的情况下使用HTML Agility Pack,而不是一个真正的固定锚来绑定?

这是我正在研究的实际代码块.我在单元格中放置了虚拟数据来演示我在寻找什么.

提取以下内容的最佳方法是什么:

1.)公司名称?

2.)电话号码?

3.)电子邮件地址?

HTML ....

<td>
  <!-- Company Info -->
  <table cellpadding="0" cellspacing="0" border="0">
    <tr>
      <td class="black">
        <table cellspacing="1" cellpadding="0" border="0" width="370">
          <tr>
            <th>COMPANY NAME</th>
          </tr>
          <tr>
            <td class="search">
              <table cellpadding="5" cellspacing="0" border="0" width="100%">
                <tr>
                  <td>
                    <table cellpadding="1" cellspacing="0" border="0" width="100%">
                      <tr>
                        <td colspan="2" align="center">Un-needed Links...</td>
                      </tr>
                      <tr>
                        <td align="center" colspan="2"><hr></td>
                      </tr>
                      <tr>
                        <td align="right" nowrap>
                          <b>
                            <font color="FF0000">
                              Contact Person&nbsp;
                              <img src="/images/icon_contact.gif" align="absmiddle">&nbsp;:
                            </font>
                          </b>
                        </td>
                        <td align="left" width="100%">&nbsp;Judy Smith</td>
                      </tr>
                      <tr> …
Run Code Online (Sandbox Code Playgroud)

c# screen-scraping html-agility-pack

2
推荐指数
1
解决办法
3035
查看次数

什么是装配 EnvDTE 8.0.0.0?

我在 VS 2010 中制作了一个小型控制台应用程序,我刚刚发布它并去将它安装在另一台电脑(Win XP Sp3)上。安装程序让我更新了 .Net 框架,我这样做了,然后当我去运行实际安装应用程序的第二部分时,我得到以下模式框:

无法安装或运行该应用程序。该应用程序要求首先在全局程序集缓存 (GAC) 中安装程序集 EnvDTE 版本 8.0.0.0。

请联系您的系统管理员。

EnvDTE v8.0.0.0 到底是什么????

这是一个小型应用程序,它对 api 进行小型网络调用并返回结果。我确实使用来自 Codesmith/Nettiers(包括企业库)的一些生成的代码对选择和更新进行了数据库调用。尽管这些文件已经在应用程序中被引用。

任何想法如何解决或解决这个问题?

envdte

1
推荐指数
1
解决办法
6583
查看次数

标签 统计

c# ×2

screen-scraping ×2

envdte ×1

html-agility-pack ×1