新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> 本版讨论Semantic Web(语义Web,语义网或语义万维网, Web 3.0)及相关理论,如:Ontology(本体,本体论), OWL(Web Ontology Langauge,Web本体语言), Description Logic(DL, 描述逻辑),RDFa,Ontology Engineering等。
    [返回] 计算机科学论坛W3CHINA.ORG讨论区 - Web新技术讨论『 Semantic Web(语义Web)/描述逻辑/本体 』 → OntoSCORM:一个基于领域本体的知识搜索引擎 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 751045 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: OntoSCORM:一个基于领域本体的知识搜索引擎 举报  打印  推荐  IE收藏夹 
       本主题类别: E-learning | 信息检索    
     addcplus 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究C++)
      文章:11
      积分:226
      门派:XML.ORG.CN
      注册:2005/3/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给addcplus发送一个短消息 把addcplus加入好友 查看addcplus的个人资料 搜索addcplus在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看addcplus的博客楼主
    发贴心情 OntoSCORM:一个基于领域本体的知识搜索引擎

    大家好!
         前面在语义网QQ群上聊到本人所做的毕业论文——一个基于本体的搜索引擎系统,有的朋友比较感兴趣,因此我把论文的关键部分整理出来抛砖引玉,供大家参考。
        基于本体的语义搜索其实有多种模式,我论文中的搜索系统仍然没有脱离传统信息检索的框架。其实还有一些新的模式值得探索,比如华东师大计算机系的贝克(QQ名)博士的项目则类似于一种基于本体的问答系统。当然,还有其他语义搜索产品形态,这都需要继续探索。
        本文实验系统均是基于开源开发包实现:Lucene,Jena,中科院的ICTCLAS等等。因此,任何一位朋友都可以基于这些工具搭建起来类似的系统。



       收藏   分享  
    顶(3)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/27 21:37:00
     
     jpz6311whu 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:研三(收到微软亚洲研究院的Offer了)(版主)
      文章:1718
      积分:10610
      门派:W3CHINA.ORG
      注册:2005/4/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给jpz6311whu发送一个短消息 把jpz6311whu加入好友 查看jpz6311whu的个人资料 搜索jpz6311whu在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看jpz6311whu的博客2
    发贴心情 

    此主题相关图片如下:
    按此在新窗口浏览图片
    有一个疑问:
    问中说采用了中科院的分词系统ICTCLAS,并做了JNI移植到java。
    但是又说它不够稳定,实际上用的是另外的CJKAnalyzer。
    请问那么到底用了ICTCLAS没有,用在哪个地方?
    另外,lucene的索引和检索要求Analyzer一致,既然Query用的是CJKAnalyzer,那么索引的时候也是用的CJKAnalyzer吗?那ICTCLAS分词体现在哪个地方?
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/27 22:51:00
     
     addcplus 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究C++)
      文章:11
      积分:226
      门派:XML.ORG.CN
      注册:2005/3/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给addcplus发送一个短消息 把addcplus加入好友 查看addcplus的个人资料 搜索addcplus在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看addcplus的博客3
    发贴心情 
    这位朋友的问题确实是使用Lucene时要注意的问题。
    应该说,对Analyzer的一致性要求对任何信息检索系统都是一样,比如说,“中华人民共和国”在索引的时候切分为“中华人民共和国”,但是用户在检索时,被另一个Analyzer切分为“中华 华人 人民 民共 共和 和国”,那么索引词为“中华人民共和国”的文档是肯定检索不出来的。
    我建索引的时候都是用的ICTCLAS,我在实验中发现ICTCLAS不太稳定(这对query接口来说是一个无法容忍的错误),所以query端一度采用CKJAnalyzer的bigram分词方式(这种方式确实非常影响检索效果,但确属无奈)。虽说ICTCLAS不太稳定,但是大多数时候还是可以的嘛。因此,我实际上两种方式都在用,而且只要ICTCLAS不出问题,我query接口还是用ICTCLAS。而我这一点没有在论文中作说明,确为不当。


    [此贴子已经被作者于2006-5-28 9:57:04编辑过]
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/28 8:34:00
     
     jpz6311whu 帅哥哟,离线,有人找我吗?
      
      
      
      威望:9
      等级:研三(收到微软亚洲研究院的Offer了)(版主)
      文章:1718
      积分:10610
      门派:W3CHINA.ORG
      注册:2005/4/12

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给jpz6311whu发送一个短消息 把jpz6311whu加入好友 查看jpz6311whu的个人资料 搜索jpz6311whu在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看jpz6311whu的博客4
    发贴心情 
    两种方式都用?那在程序设计的时候怎么写呢?
    传给Index和Query的Analyzer应该只有一个,用if语句判断,try,catch吗?
    ICTCLAS如果出错的话,应该是java虚拟机以外的win32错误,用try,catch是不能捕获的,而且如果出错,程序马上立刻错误结束,比如以下这个就是我们在使用它的时候的报错:

    hs_err_pid1204.log
    ————————————————————
    #
    # An unexpected error has been detected by HotSpot Virtual Machine:
    #
    #  EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x100024a1, pid=1204, tid=268
    #
    # Java VM: Java HotSpot(TM) Client VM (1.5.0_06-b05 mixed mode, sharing)
    # Problematic frame:
    # C  [slice.dll+0x24a1]
    #

    ---------------  T H R E A D  ---------------

    Current thread (0x00823890):  JavaThread "main" [_thread_in_native, id=268]

    siginfo: ExceptionCode=0xc0000005, reading address 0x1ea4a0a8

    Registers:
    EAX=0x03591e58, EBX=0x26ce96e8, ECX=0x003e6373, EDX=0x1b4b8250
    ESP=0x0006f780, EBP=0x0006f83c, ESI=0x26ce96e8, EDI=0x0006f83c
    EIP=0x100024a1, EFLAGS=0x00010202

    Top of Stack: (sp=0x0006f780)
    0x0006f780:   0006f8d8 26ce96e8 26ce96e8 cccccccc
    0x0006f790:   cccccccc cccccccc cccccccc cccccccc
    0x0006f7a0:   cccccccc cccccccc cccccccc cccccccc
    0x0006f7b0:   cccccccc cccccccc cccccccc cccccccc
    0x0006f7c0:   cccccccc cccccccc cccccccc cc007377
    0x0006f7d0:   6372733c 6c6c413e 6f666e69 74616d72
    0x0006f7e0:   636e6f69 61746e6f 64656e69 65726568
    0x0006f7f0:   73696e69 70656874 65706f72 6f797472

    Instructions: (pc=0x100024a1)
    0x10002491:   c7 45 f8 01 00 00 00 8b 55 f8 6b d2 70 8b 45 08
    0x100024a1:   0f be 0c 10 85 c9 0f 84 e8 01 00 00 8b 55 f8 6b


    Stack: [0x00030000,0x00070000),  sp=0x0006f780,  free space=253k
    Native frames: (J=compiled Java code, j=interpreted, Vv=VM code, C=native code)
    C  [slice.dll+0x24a1]
    C  [slice.dll+0x3f4c]
    C  [slice.dll+0x176f]
    C  [slice.dll+0x19ad]
    j  org.apache.lucene.analysis.cn.slice.Slice.slice(Ljava/lang/String;II)Ljava/lang/String;+0
    j  org.apache.lucene.analysis.cn.slice.Slice.slice(Ljava/lang/String;IIZZ)Ljava/lang/String;+130
    j  cn.edu.whu.sim.ontolt.util.PDFConverter.main([Ljava/lang/String;)V+38
    v  ~StubRoutines::call_stub
    V  [jvm.dll+0x845a9]
    V  [jvm.dll+0xd9317]
    V  [jvm.dll+0x8447a]
    V  [jvm.dll+0x8b44a]
    C  [javaw.exe+0x14c5]
    C  [javaw.exe+0x3151]
    C  [kernel32.dll+0x16d4f]

    Java frames: (J=compiled Java code, j=interpreted, Vv=VM code)
    j  org.apache.lucene.analysis.cn.slice.Slice.slice(Ljava/lang/String;II)Ljava/lang/String;+0
    j  org.apache.lucene.analysis.cn.slice.Slice.slice(Ljava/lang/String;IIZZ)Ljava/lang/String;+130
    j  cn.edu.whu.sim.ontolt.util.PDFConverter.main([Ljava/lang/String;)V+38
    v  ~StubRoutines::call_stub

    ---------------  P R O C E S S  ---------------

    Java Threads: ( => current thread )
      0x00831e70 JavaThread "Low Memory Detector" daemon [_thread_blocked, id=556]
      0x0082f7f0 JavaThread "CompilerThread0" daemon [_thread_blocked, id=2164]
      0x0082e650 JavaThread "Signal Dispatcher" daemon [_thread_blocked, id=552]
      0x0082d9d0 JavaThread "Finalizer" daemon [_thread_blocked, id=3976]
      0x0082c750 JavaThread "Reference Handler" daemon [_thread_blocked, id=276]
    =>0x00823890 JavaThread "main" [_thread_in_native, id=268]

    Other Threads:
      0x0082b9f0 VMThread [id=3968]
      0x00832b50 WatcherThread [id=320]

    VM state:not at safepoint (normal execution)

    VM Mutex/Monitor currently owned by a thread: None

    Heap
    def new generation   total 640K, used 84K [0x22bd0000, 0x22c80000, 0x230b0000)
      eden space 576K,   3% used [0x22bd0000, 0x22bd5040, 0x22c60000)
      from space 64K,  99% used [0x22c70000, 0x22c7fff8, 0x22c80000)
      to   space 64K,   0% used [0x22c60000, 0x22c60000, 0x22c70000)
    tenured generation   total 7716K, used 4900K [0x230b0000, 0x23839000, 0x26bd0000)
       the space 7716K,  63% used [0x230b0000, 0x23579058, 0x23579200, 0x23839000)
    compacting perm gen  total 8192K, used 1161K [0x26bd0000, 0x273d0000, 0x2abd0000)
       the space 8192K,  14% used [0x26bd0000, 0x26cf2558, 0x26cf2600, 0x273d0000)
        ro space 8192K,  63% used [0x2abd0000, 0x2b0db178, 0x2b0db200, 0x2b3d0000)
        rw space 12288K,  46% used [0x2b3d0000, 0x2b969fa8, 0x2b96a000, 0x2bfd0000)

    Dynamic libraries:
    0x00400000 - 0x0040c000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\javaw.exe
    0x7c920000 - 0x7c9b4000  C:\WINDOWS\system32\ntdll.dll
    0x7c800000 - 0x7c91c000  C:\WINDOWS\system32\kernel32.dll
    0x77da0000 - 0x77e49000  C:\WINDOWS\system32\ADVAPI32.dll
    0x77e50000 - 0x77ee1000  C:\WINDOWS\system32\RPCRT4.dll
    0x77d10000 - 0x77d9f000  C:\WINDOWS\system32\USER32.dll
    0x77ef0000 - 0x77f37000  C:\WINDOWS\system32\GDI32.dll
    0x77be0000 - 0x77c38000  C:\WINDOWS\system32\MSVCRT.dll
    0x76300000 - 0x7631d000  C:\WINDOWS\system32\IMM32.DLL
    0x62c20000 - 0x62c29000  C:\WINDOWS\system32\LPK.DLL
    0x73fa0000 - 0x7400b000  C:\WINDOWS\system32\USP10.dll
    0x6d670000 - 0x6d804000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\client\jvm.dll
    0x76b10000 - 0x76b3a000  C:\WINDOWS\system32\WINMM.dll
    0x6d280000 - 0x6d288000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\hpi.dll
    0x76bc0000 - 0x76bcb000  C:\WINDOWS\system32\PSAPI.DLL
    0x6d640000 - 0x6d64c000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\verify.dll
    0x6d300000 - 0x6d31d000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\java.dll
    0x6d660000 - 0x6d66f000  D:\JavaProgramFiles\Java\jre1_5_0_06\bin\zip.dll
    0x10000000 - 0x1022e000  D:\JavaProgramFiles\Java\jdk1_5_0_06\slice\slice.dll
    0x5d170000 - 0x5d207000  C:\WINDOWS\system32\COMCTL32.dll
    0x72f70000 - 0x72f96000  C:\WINDOWS\system32\WINSPOOL.DRV
    0x76320000 - 0x76367000  C:\WINDOWS\system32\comdlg32.dll
    0x77f40000 - 0x77fb6000  C:\WINDOWS\system32\SHLWAPI.dll
    0x7d590000 - 0x7dd82000  C:\WINDOWS\system32\SHELL32.dll
    0x77180000 - 0x77282000  C:\WINDOWS\WinSxS\x86_Microsoft.Windows.Common-Controls_6595b64144ccf1df_6.0.2600.2180_x-ww_a84f1ff9\comctl32.dll

    VM Arguments:
    java_command: cn.edu.whu.sim.ontolt.util.PDFConverter
    Launcher Type: SUN_STANDARD

    Environment Variables:
    JAVA_HOME=D:\JavaProgramFiles\Java\jdk1_5_0_06
    PATH=C:\WINDOWS\system32;C:\WINDOWS;C:\WINDOWS\System32\Wbem;D:\JavaProgramFiles\Java\jdk1_5_0_06\slice;C:\Program Files\Microsoft SQL Server\80\Tools\BINN
    USERNAME=jpz6311whu
    OS=Windows_NT
    PROCESSOR_IDENTIFIER=x86 Family 6 Model 9 Stepping 5, GenuineIntel

    ---------------  S Y S T E M  ---------------

    OS: Windows XP Build 2600 Service Pack 2

    CPU:total 1 family 6, cmov, cx8, fxsr, mmx, sse, sse2

    Memory: 4k page, physical 515440k(41860k free), swap 1009016k(579960k free)

    vm_info: Java HotSpot(TM) Client VM (1.5.0_06-b05) for windows-x86, built on Nov 10 2005 11:12:14 by "java_re" with MS VC++ 6.0

    ————————————————————

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/28 10:05:00
     
     addcplus 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究C++)
      文章:11
      积分:226
      门派:XML.ORG.CN
      注册:2005/3/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给addcplus发送一个短消息 把addcplus加入好友 查看addcplus的个人资料 搜索addcplus在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看addcplus的博客5
    发贴心情 
    可能是俺没有表达清楚,我说的两者都用并不是同时来用,或者根据当前状态来判断用哪一个。我只是说有有一段时间用ICTCLAS(这个时候把CJKAnalyzer注释掉),或者有一段时间用CJKAnalyzer(这时把ICTCLAS注释掉)。比如这段时间我发现ICTCLAS不怎么出错,所以就坚持用它。说不定我哪天不爽了,我就用CJKAnalyzer,当然这肯定会影响检索效果的,最好还是要保持切词工具的一致性。
    另外强调的是,保持切词工具的一致性是检索系统的基本要求,如果不一致的话,检索本身还是没有问题的,只是说不一定能检索出正确的结果。
    索引和检索是两个不同的模块,当然可以指定不同的切词器了。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/28 11:18:00
     
     fengguier 美女呀,离线,快来找我吧!
      
      
      等级:大一新生
      文章:3
      积分:69
      门派:XML.ORG.CN
      注册:2006/5/30

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给fengguier发送一个短消息 把fengguier加入好友 查看fengguier的个人资料 搜索fengguier在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看fengguier的博客6
    发贴心情 
    请问那位做“一种基于本体的问答系统”的博士QQ是多少啊,我也想做这一块。谢谢。
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 0:31:00
     
     MerryZhang 美女呀,离线,快来找我吧!
      
      
      威望:4
      头衔:CTO
      等级:计算机学士学位
      文章:442
      积分:2808
      门派:W3CHINA.ORG
      注册:2006/1/4

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给MerryZhang发送一个短消息 把MerryZhang加入好友 查看MerryZhang的个人资料 搜索MerryZhang在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看MerryZhang的博客7
    发贴心情 
    除了Lucene还有其它的全文搜索引擎吗?

    ----------------------------------------------
    那一段我们曾心贴着心,我想我更有权力关心你,可能你已走进别人风景,多希望也有星光的投影.努力为你改变,却变不了预留的伏笔.以为在你身边那也算永远
    仿佛还是昨天,可是昨天已非常遥远,但闭上双眼我还看得见.

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 9:23:00
     
     sanfan1981 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:0
      积分:61
      门派:XML.ORG.CN
      注册:2006/5/30

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给sanfan1981发送一个短消息 把sanfan1981加入好友 查看sanfan1981的个人资料 搜索sanfan1981在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看sanfan1981的博客8
    发贴心情 
    来点实际的东西
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 11:12:00
     
     fengguier 美女呀,离线,快来找我吧!
      
      
      等级:大一新生
      文章:3
      积分:69
      门派:XML.ORG.CN
      注册:2006/5/30

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给fengguier发送一个短消息 把fengguier加入好友 查看fengguier的个人资料 搜索fengguier在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看fengguier的博客9
    发贴心情 
    您好!请问您能把您用protege构建的“教育技术”领域的本体发给我好吗?因为我还不知道怎么能详细的构建,您能把您做的发给我,供我参考一下,非常感谢!
    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 11:38:00
     
     addcplus 帅哥哟,离线,有人找我吗?
      
      
      等级:大二(研究C++)
      文章:11
      积分:226
      门派:XML.ORG.CN
      注册:2005/3/5

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给addcplus发送一个短消息 把addcplus加入好友 查看addcplus的个人资料 搜索addcplus在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 引用回复这个贴子 回复这个贴子 查看addcplus的博客10
    发贴心情 
    以下是引用fengguier在2006-5-30 0:31:00的发言:
    请问那位做“一种基于本体的问答系统”的博士QQ是多少啊,我也想做这一块。谢谢。

    他在论坛上得ID是 backby,你联系他吧

    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2006/5/30 19:26:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 Semantic Web(语义Web)/描述逻辑/本体 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2024/12/1 21:09:12

    本主题贴数102,分页: [1] [2] [3] [4]... [11]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    13,750.000ms