新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 搜索引擎, 信息分类与检索, 语义搜索, Lucene, Nutch, GRUB, Larbin, Weka
    [返回] 计算机科学论坛计算机技术与应用『 Web挖掘技术 』 → 热烈祝贺由Sohu副总裁王小川作序并鼎力推荐的《走进搜索引擎》正式出版发行,欢迎本书作者梁斌先生作客论坛,开辟答疑专贴! 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 225301 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: 热烈祝贺由Sohu副总裁王小川作序并鼎力推荐的《走进搜索引擎》正式出版发行,欢迎本书作者梁斌先生作客论坛,开辟答疑专贴! 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     liangbin 帅哥哟,离线,有人找我吗?
      
      
      等级:大二期末(数据结构考了98分!)
      文章:30
      积分:433
      门派:XML.ORG.CN
      注册:2007/10/22

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给liangbin发送一个短消息 把liangbin加入好友 查看liangbin的个人资料 搜索liangbin在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看liangbin的博客11
    发贴心情 

    to timothy:
       使用 "Object-level Search Engine"搜索可以会有很多信息。
       另外关注微软亚研院,搜索引擎和数据挖掘研究组的相关论文,或者搜索“马维英”。
       另外我的书中也简单介绍了一些情况,可以参考。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/10/26 20:41:00
     
     sunjw 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:7
      积分:89
      门派:XML.ORG.CN
      注册:2007/3/7

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给sunjw发送一个短消息 把sunjw加入好友 查看sunjw的个人资料 搜索sunjw在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看sunjw的博客12
    发贴心情 
    关注ing~
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/10/27 20:30:00
     
     timothy 帅哥哟,离线,有人找我吗?巨蟹座1982-7-21
      
      
      威望:1
      等级:大四下学期(考上研究生啦!)
      文章:237
      积分:1701
      门派:XML.ORG.CN
      注册:2006/4/4

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给timothy发送一个短消息 把timothy加入好友 查看timothy的个人资料 搜索timothy在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给timothy 引用回复这个贴子 回复这个贴子 查看timothy的博客13
    发贴心情 
    谢谢梁老师,您的书我订购了!!!
          支持!

    ----------------------------------------------
    时间永远是向前的!

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/10/29 6:03:00
     
     liangbin 帅哥哟,离线,有人找我吗?
      
      
      等级:大二期末(数据结构考了98分!)
      文章:30
      积分:433
      门派:XML.ORG.CN
      注册:2007/10/22

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给liangbin发送一个短消息 把liangbin加入好友 查看liangbin的个人资料 搜索liangbin在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看liangbin的博客14
    发贴心情 
    to timothy:
        谢谢您的支持,希望该书能有助于了解搜索引擎的相关概念和知识。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/10/29 7:53:00
     
     bzbc 帅哥哟,离线,有人找我吗?
      
      
      等级:大三暑假(TOFEL考了660分!)
      文章:151
      积分:921
      门派:XML.ORG.CN
      注册:2006/4/15

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给bzbc发送一个短消息 把bzbc加入好友 查看bzbc的个人资料 搜索bzbc在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看bzbc的博客15
    发贴心情 
    很多人都说随着web 3.0的到来,语义网搜索引擎将成为搜索引擎新的霸主,我现在参与的项目也是用本体做的一个搜索引擎.这个问题您怎么看?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/10/29 8:48:00
     
     liangbin 帅哥哟,离线,有人找我吗?
      
      
      等级:大二期末(数据结构考了98分!)
      文章:30
      积分:433
      门派:XML.ORG.CN
      注册:2007/10/22

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给liangbin发送一个短消息 把liangbin加入好友 查看liangbin的个人资料 搜索liangbin在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看liangbin的博客16
    发贴心情 
    to bzbc
        ontology这个领域我了解很少,不敢乱说,我想可能本体的搜索引擎,就是所谓的object-level search engine.微软在这方面颇多建树,product search和guanxi search都可能是未来的方向。另外机器翻译,跨越语言的藩篱也是学界颇为关注的热点。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/10/29 16:09:00
     
     九月衣 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:1
      积分:58
      门派:XML.ORG.CN
      注册:2007/10/30

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给九月衣发送一个短消息 把九月衣加入好友 查看九月衣的个人资料 搜索九月衣在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看九月衣的博客17
    发贴心情 
    梁老师:
          您好! 目前我在公司里边负责管理几个adwords账户,对这个方面我没有什么经验,想提高自己,但是又不知道从何入手,您有什么建议么?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/10/30 9:48:00
     
     hongjuesir 帅哥哟,离线,有人找我吗?魔羯座1982-1-1
      
      
      等级:大三(要不要学学XML呢?)
      文章:73
      积分:625
      门派:XML.ORG.CN
      注册:2007/6/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给hongjuesir发送一个短消息 把hongjuesir加入好友 查看hongjuesir的个人资料 搜索hongjuesir在『 Web挖掘技术 』 的所有贴子 点击这里发送电邮给hongjuesir 访问hongjuesir的主页 引用回复这个贴子 回复这个贴子 查看hongjuesir的博客18
    发贴心情 
    真是一个特别的时刻,我的兴趣和焦点也在搜索。

    我已经看了梁老师书的目录,感觉很不错,尤其关于pagerank的算法以及倒排索引的结构,准备买下一本来。

    我从6月份开始,一致在阅读和学习Lucene的资料,根据Lucene in Action上面的说法,众多搜索引擎在索引结构上都很相似----倒排索引,索引结构相似,那么建立索引和查询索引的算法也不会有太大的差异。而真正造成他们不同的是排序算法,google用的是pagerank,而lucene也是有相应的score的计算,实际上在建立索引的时候,对每个文档设置文章中的每个域都可以设置它的boost factor值。

    信息量永远是无限的,却有永不疲倦的爬虫,现在的索引以及算法也可以做到足够快的定位内容,而真正体现价值的应该是rank算法,拯救人类注意力,也就是如何搜的准的问题。

    对于搜索大体的架构我已有一些了解,并也用lucene.net和lucene做了一些实践的工作,但是由于接触时间不长,对于rank算法,还不太了解,我觉得这不仅仅是一个算法的问题。我甚至认为google之所以强,我们不仅仅要看它的搜索技术,还要看它的js技术,为什么是js,因为重视js就是重视用户本身,重视界面的人性化,只有重视用户,它才知道我们要什么,所以它的pagerank才要胜出一筹!

    我希望能和梁老师有更进一步的学习和了解。

    ----------------------------------------------
    踏实啃书

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/10/30 14:06:00
     
     liangbin 帅哥哟,离线,有人找我吗?
      
      
      等级:大二期末(数据结构考了98分!)
      文章:30
      积分:433
      门派:XML.ORG.CN
      注册:2007/10/22

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给liangbin发送一个短消息 把liangbin加入好友 查看liangbin的个人资料 搜索liangbin在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看liangbin的博客19
    发贴心情 
    to hongjuesir
        如果说本书入门,我个人认为两个地方讲的比较透彻,一个就是PageRank(也叫Google Rank),本书很详细的介绍了其基本想法,理论依据,收敛性等,本来书中写了大段理论推导,后感觉过于冗长,不利于入门就删除了,但是给出了论文推荐,希望大家在学习随机过程的相关知识后能有更加深刻的理解。另一个就是TF/IDF。
       正如你所说,Rank技术足以称为搜索引擎一个时代的标志,然而目前Rank技术都比较成熟,可研究的领域不多,据我了解,目前主要集中在以下几点上。
       查询的时效性研究,时效性的查询更加需要考虑时间在排序上的重要性。
       查询类型的研究(信息类,导航类,综合类),不同类型在排序上也有很大区别。
       网页垃圾识别和处理,针对rank算法作弊的研究即具有理论意义,更加具有应用价值。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/10/30 15:34:00
     
     liangbin 帅哥哟,离线,有人找我吗?
      
      
      等级:大二期末(数据结构考了98分!)
      文章:30
      积分:433
      门派:XML.ORG.CN
      注册:2007/10/22

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给liangbin发送一个短消息 把liangbin加入好友 查看liangbin的个人资料 搜索liangbin在『 Web挖掘技术 』 的所有贴子 引用回复这个贴子 回复这个贴子 查看liangbin的博客20
    发贴心情 
    to 九月衣
       adwords,是否指得是google adwords,这方面我不了解。能把你的问题具体化一些吗?比如要想达到某个目标,如何入手,例如如何提高网站排名等。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2007/10/30 15:39:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Web挖掘技术 』 的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/5/14 1:24:10

    本主题贴数78,分页: [1] [2] [3] [4] [5]... [8]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    93.750ms