新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论.NET,C#,ASP,VB技术
    [返回] 计算机科学论坛计算机技术与应用『 Dot NET,C#,ASP,VB 』 → [求助]XMLHTTP急呀!!!求各位多多帮忙了啊! 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 8577 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: [求助]XMLHTTP急呀!!!求各位多多帮忙了啊! 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     bqlzx 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:0
      积分:54
      门派:XML.ORG.CN
      注册:2004/9/2

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给bqlzx发送一个短消息 把bqlzx加入好友 查看bqlzx的个人资料 搜索bqlzx在『 Dot NET,C#,ASP,VB 』的所有贴子 引用回复这个贴子 回复这个贴子 查看bqlzx的博客楼主
    发贴心情 [求助]XMLHTTP急呀!!!求各位多多帮忙了啊!

    把网页的源文件用XMLHTTP取出来,放到一个字符串里。截取我想要取值的那一部分。也就是以<tr ...开头的到</tr>的那一部分。放到XmlDocument里。用他来对<td></td>进行取我真正想要的值。

    程序功能描述:
    远程抓取网页数据,然后对网页数据进行剥离,提取网页上的表格中的数据,存入数据库中。
    举例:
    1)网页网址如下:
    http://cring.zmcc.com.cn/CRBT/servlet/ControlerServlet/CRBTRing/Search?searchInfo=070001&searchType=1

    该网页的源文件中的需要被读取的部分代码如下:

    '-------------------------------------------------------
    <table width="580" border="0" cellspacing="0" cellpadding="2">
      <tr height="1">
        <td colspan="9" background="/images/dot_line_bg.gif"></td>
      </tr>
      <tr height="20" bgcolor="#f1f1f1">
        <td class="no">No.</td>
        <td>曲名</td>
        <td>歌手</td>
        <td>提供商</td>
        <td>人气</td>
        <td>价格</td>
        <td>试听</td>
        <td>设置</td>
        <td>赠送</td>
      </tr>
        
      <tr height="1">
        <td colspan="9" background="/images/dot_line_bg.gif"></td>
      </tr>
      <tr bgcolor="#FFFFFF">
        <td class="no">070001</td>
        <td>十年</td>
        <td>陈奕迅              </td>
        <td>深圳腾讯    </td>
        <td>
          161744
        </td>
        <td>
          ¥3.0
        </td>
        <td>
          <a href="#" onClick="prelisten('/RingAsfFile/107/000/00/preview/01.asf');return false;"><img alt=试听 src="/images/icon_listen.gif" border="0" align="middle"></a>
        </td>
        <td>
          
                <a href=# onClick="javascript:alertinfo('1');"> <img alt="设置" src="/images/icon_config.gif" width="7" height="16" border="0"></a>
          
        </td>
        <td>
              
                <a href=# onClick="javascript:alertinfo('1');"> <img alt="赠送" src="/images/icon_donate.gif" border="0"></a>
              

        </td>
      </tr>
        
      <tr height="1">
        <td colspan="9" background="/images/dot_line_bg.gif"></td>
      </tr>
    </table>
    '--------------------------------------------------------

    我的设计思路是如下步骤:
    1)读取网页的整个源文件。
    2)截取table表格这部分html。
    3)循环分析tr;
    4)分析每个tr,对tr中的每个td中的数据进行截取。

    实现的开发工具:c#+asp.net
    具体技术是:xmlhttp

    遇到的问题:
    目前已经读取了整个网页的所有html,但不会对其中的tr和td进行数据的提取。也就是说,不会进行截取tr、td中的数据的代码编写。

    如果知道,请指教。
    *****************************************************************
    private void Button1_Click(object sender, System.EventArgs e)
    {
       XMLHTTPClass xmlhttp=new XMLHTTPClass();
       string serverUrl="http://cring.zmcc.com.cn/CRBT/servlet/ControlerServlet/CRBTRing/Search?searchInfo=070001&searchType=1";
       xmlhttp.open("GET",serverUrl,false,null,null);
       xmlhttp.send(null);
       string  takehtml=xmlhttp.responseText;
       //接下来要对获取到的网页数据进行提取,即把表格中的数据列给拆分出来,然后存入数据库中
       //俺不知道其中关键的拆分代码这么写。
    }


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/9/2 17:22:00
     
     tiediy 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:0
      积分:55
      门派:XML.ORG.CN
      注册:2004/10/17

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给tiediy发送一个短消息 把tiediy加入好友 查看tiediy的个人资料 搜索tiediy在『 Dot NET,C#,ASP,VB 』的所有贴子 引用回复这个贴子 回复这个贴子 查看tiediy的博客2
    发贴心情 
    用正则表达式
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2004/10/17 15:08:00
     
     pcnetman 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:0
      积分:54
      门派:XML.ORG.CN
      注册:2005/8/18

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给pcnetman发送一个短消息 把pcnetman加入好友 查看pcnetman的个人资料 搜索pcnetman在『 Dot NET,C#,ASP,VB 』的所有贴子 引用回复这个贴子 回复这个贴子 查看pcnetman的博客3
    发贴心情 
    还有解码问题,分析是小事.
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2005/8/18 19:52:00
     
     godshen 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:1
      积分:60
      门派:XML.ORG.CN
      注册:2006/5/9

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给godshen发送一个短消息 把godshen加入好友 查看godshen的个人资料 搜索godshen在『 Dot NET,C#,ASP,VB 』的所有贴子 引用回复这个贴子 回复这个贴子 查看godshen的博客4
    发贴心情 
    JavaScript 正则太弱了!!呵呵,偶认为是这样的
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/9 19:29:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Dot NET,C#,ASP,VB 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/31 3:07:47

    本主题贴数4,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    79.102ms