以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『 Semantic Web(语义Web)/描述逻辑/本体 』  (http://bbs.xml.org.cn/list.asp?boardid=2)
----  翻译了 “The Semantic Web In Breadth” ,发上来请指教!  (http://bbs.xml.org.cn/dispbbs.asp?boardid=2&rootid=&id=17068)


--  作者:jiexincao
--  发布时间:4/16/2005 8:41:00 PM

--  翻译了 “The Semantic Web In Breadth” ,发上来请指教!
语义网的外延
作者:Aaron Swartz(多人协助完成)

:这篇文章涉及到语义网的不同的部分以及它们是如何组合在一起的。如果要从高层次的角度来看这个问题,请看Sandro Hawke的《语义网(简明)》。另一方面,如果你是一个对建立语义网站或者语义web服务感兴趣的网络开发人员,请参见《语义网(网络开发人员用书)》。现在回到你正常的阅读进度上来。
标识符:统一资源标识符(URI)
如果我要讨论某事物,首先我必须标识它。否则,你怎么知道我指的是什么?也许我用一种间接的方式来表达“北极星”,“食品杂货店里的一个陌生人”,“那些Bob总是在吃的非常酸的糖果”。也许我也会用一种更加直接的方式“Jonathan Roberts”,“Mega Warheads”。
我们也用标识符来标识网上的项目。因为我们使用一种标识符的统一的系统,并且因为每一个被标识出来的项目被认为是一种“资源”,所以我们称这些标识符为“统一资源标识符”或者简称为URIs。我们能够给任何事物一个URI,并且任何有一个URI的事物可以被认为“在网上”:你,你上周买的书,在你耳边嗡嗡作响的飞虫和任何你能想到的其他事物——它们都能有一个URI。
URI是网络的基础。几乎网络的其他每一个部分都可以被取代,URI不行:它将网络的其他部分结合在一起。
也许你已经熟悉了URI的一种形式:URL或者统一资源定位符。URL是一个让你访问一个网页的地址,例如:http://www.w3.org/Addressing/。如果你将它分解开来看,你可以看到一个URL告诉你的电脑到哪里去找一个特别的资源(在这个例子中,W3C的网址)。与其他多数形式的URIs不一样,URL既标识又定位。与一种叫做“mid:”的URI相反,一个“mid:”URI标识一个Email消息,但是它不能为你定位这个消息的一个副本。
因为网络太大,没有任何一个组织能够控制它,所以URIs是分散的。没有一个人或者一个组织来控制谁建立它们或者它们如何使用。一些URI scheme(如http:)依赖于集中的系统(如DNS),其他的格式(比如说freenet:)则完全是分散的。
这就意味着创建一个URI你不需要得到任何一个人的允许。你甚至能够给一件不属于的你的东西创建一个URIs。这些灵活性使得URIs非常强大的同时也给它带来了一些问题。因为任何一个人都能创建一个URI,我们不可避免的遇到多个URIs代表同一个事物的问题。更严重的是,没有办法来指出两个URIs是否确切的指代同一个资源。结果,我们永远不能够确切的说出一个给定的URI代表着什么。但是如果我们要创建像语义网这样巨大的事物,这些是必须做出的折中。
创建URIs通常的实践是从一个网页开始。网页描述了需要被标识的对象并解释说这个网页的URL就是这个对象的URI。例如,我要为我的那本Tim Berners-Lee所著的《编织万维网》创建一个URI。首先,我建立一个网页来描述我的这本书。然后在那个网页上注明网页的网址就是我的那本书的URI。这样做,我已经将URI(http://logicerror.com/myWeavingTheWeb))与我的那本《编织万维网》联系在了一起。创建一个URI能够就像这么简单。
也许你已经注意到在这个实例中URI(http://logicerror.com/myWeavingTheWeb)有两个功能:它同时代表那本物质实体的书和描述书的网页。这是一些讨论所关注的领域——它被称为“语义网识别问题”,它也是语义网工作人员反复讨论的焦点。
下面是一个需要理解的重要事实。一个URI并不是告诉你的电脑如何在网上获得特定文件的方法的集合(尽管也许它能够做到这一点)。它是一个“资源”(一件事物)的名称。这个资源也许能也许不能在网上获得,URI也许会也许不会向你的电脑提供获得资源的更多信息的途径。诚然,URL是一种确实能够提供一种方法获得关于某资源的信息,或者它自己去检索资源,但是其它的用于提供关于URIs的信息和它们所标识的资源的方法仍然在研究过程中。说明URIs所指示的事物的能力也是语义网非常重要的一个部分的说法也是正确的,但是你不能认定一个URI除了唯一给资源提供标识符外还能做其他任何事。
文档:可扩展标记语言(XML)
人们设计XML是希望通过一种简单的方式通过网络发送文档。它允许任何人设计自己的文档格式然后按照那种格式书写一个文档。这些文档格式能够包括标记来突出文档内容的含义。这些标记是“机器可读的”,也就是说,程序能够读取并理解它。通过在我们的文档里包括机器可读的含义,我们使得它们更加强大。
考虑这样一个简单的例子:如果一个文档包含被标记为“强调”的词,这些词呈现出来的方式能够与上下文相符合。一个web浏览器也许只是简单的用斜体字来显示,而一个声音浏览器(大声读出网页的工具)也许通过改变语调或者音量来表明这些强调。相反的,如果我简单的将这些词标记为“斜体字”,计算机没有办法知道为什么这些词是斜体。它是用来强调还是单单为了视觉效果?声音浏览器如何表达这个效果?
下面是一个用纯文本书写的文档的例子:
      我刚刚得到了一只新的宠物狗。
就你的电脑而言,这只是一个文本。对于电脑,它没有任何特别的意思。但是现在来考虑这个用基于XML的标记语言标记出来的相同的段落(我们为了这个例子自己创建了标记)
<sentence>
<person href="http://aaronsw.com/">我</person> 刚刚得到了一只新的宠物 <animal>狗</animal>. </sentence>
注意这段话和上面的有相同的内容,但是内容的一部分被标记了。每一个标记由两个“标签”组成:一个开标签 (如:<sentence>)和一个闭标签(如:</sentence>)。标签的名字(“sentence”)是两标签之间内容的标记。我们称这些标签和其内容为一个“元素”。这样,上面的文档中sentence这个元素包含句子,“我刚刚得到一只新的宠物狗。”这告诉电脑“我刚刚得到一只新的宠物狗。”是一个“句子”,但重要的是,它没有告诉电脑“句子”是什么。尽管如此,电脑现在获得了关于文档的一些信息,我们能够使用这些信息。
相似的,电脑现在知道“我”是一个“人”(不管“人”是什么),“狗”是一只“动物”。有时,除了单单提供元素名以外提供关于元素的内容的更多的信息是非常有用的。例如,电脑知道上面句子中的“我”代表一个人,但是它不知道是哪个人。通过给我们的元素增加一个“属性”,我们能够提供这种信息。“属性”既有名字又有值。例如,我们能够这样重写我们的例子:
<sentence>
<person href="http://aaronsw.com">我</person> 刚刚得到了一只新的宠物 <animal type="dog" href="http://aaronsw.com/myDog">狗</animal>.
</sentence>

为了避免冲突,我必须唯一的“标识”我的标记元素。还有什么比使用统一资源标识符来它们更好的方法吗?因此,我为我的每一个元素和属性指派一个URI。我使用被称为“XML名称空间”的东西来实现。这样,任何人都能够创建他们自己的标签并和其他人创建的标签混合使用。名称空间只是把网络(空间)的一部分和被我们剥夺了名称的意义的东西区分开来的一种方式。我通过给它创建一个URI来为我的标记语言建立一个“名称空间”(就如我们前文所说,我也许会建一个网页来描述我的标记语言,并且使用这个网页的网址作为我的名称空间的URI)
既然每个人的标签有它们自己的URI,我们不必为标签名冲突而担心。当然,XML会让我们工作更简单,并且可以让我们设置默认的URIs,这样,我们不必每次都将它们打出来:
<sentence
xmlns="http://example.org/xml/documents/"
xmlns:c="http://animals.example.net/xmlns/"><c:person c:href="http://aaronsw.com/">我</c:person>刚刚得到了一只新的宠物<c:animal>狗</c:animal>.</sentence>

声明:资源描述框架(RDF)
现在,我们开始进入语义网的话题。我们能够创建URI并且在我们的网页上讨论它们是一件非常奇妙的事情。然而,如果我们能够用一种电脑能够处理我们所说的话的方式来谈论它们将会更加奇妙。例如,在一个网络讨论版上说“我非常喜欢《编织万维网》”是一件事。但是这对于电脑意味着什么?
RDF向我们提供一种机器可以处理的方法来做出声明。现在电脑不能真正“理解”你说什么,当然,但它能够以一种像是“理解”的方式来处理它。例如,我能够在网上搜索所有的书评并为每一本书创建一个平均的等级。然后,我会把这些信息放回到网上。另一个网站能够使用这个信息(书平均等级的列表),并创建一个“等级最高的十本书”的网页。
RDF确实非常简单。除了所有的词都是URI外,一条RDF声明非常像一个简单的句子。每一条RDF声明都有三个部分:一个主语,一个谓词和一个宾语。我们来看一个简单的RDF声明:
<http://aaronsw.com/> <http://love.example.org/terms/reallyLikes> <http://www.w3.org/People/Berners-Lee/Weaving/>
你能够猜出这句话说的是什么吗?第一个URI是主语。在这个例子中,主语是我。第二个URI是谓词。它将主语和宾语联系在一起。在这个例子中,谓词是“非常喜欢(realyLikes)”,第三个URI是宾语。这里,宾语是Tim Berners-Lee的书《编织万维网》(Weaving the Web)。所以上面的RDF声明说的是“我非常喜欢《编织万维网》”。
你也许注意到RDF声明几乎能够说任何事,并且它并不在乎是谁说了这些。没有任何一个官方的站点说出关于《编织万维网》的每一件事或者关于我的每一件事。这向我们传达了一条重要的RDF原理,名字叫“任何事物能够说关于任何事物的任何事物”。信息是通过网络来传播的。两个人甚至能够说处完全相反的事——Bob说Aaron爱《编织万维网》,但是John却说Aaron恨它。这是网络所提供的自由。
上面的陈述是用三元组写的,三元组是一种允许你写简单RDF声明的语言。然而,正式的RDF规范定义了RDF的XML表示法,这种方法更复杂一点,但是表达相同的事
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:love="http://love.example.org/terms/"
>
<rdf:Description rdf:about="http://aaronsw.com/">
<love:reallyLikes rdf:resource="http://www.w3.org/People/Berners-Lee/Weaving/" </rdf:Description>
</rdf:RDF>
现在,像那样书写RDF并不是世界上最简单的事,似乎不可能每个人都会很快的开始说这种奇怪的新语言。那么,我们期待着从哪里获得这些RDF信息呢?最有可能的来源是数据库。
世界上有数以千计的数据库,大多数包含着有趣的机器可处理的信息。政府在数据库中储存着逮捕记录;企业在数据库中存储着零件和存货信息;大多数计算机化的地址本在——你猜什么地方——数据库中存储着人们的名字和电话号码。当信息存储在数据库中的时候,问计算机关于数据的某个问题是非常简单的:“给我显示出过去六个月中逮捕的每一个人”,“打印出我们正在减少的所有零件的记录”,“给我姓Jones的人的电话号码”。
RDF非常完美的适合将这些数据库发布到网上。当我们把它们放到网上的时候,我们为数据库里的每个东西赋予一个URI。这样,其他人也能谈论它。现在,智能程序能够将这些数据组合在一起。通过使用这些可用的信息,电脑能够开始将你地址本里的Bob Jones和上周被逮捕的Bob Jones以及刚订了100,000个零件的Bob Jones联系在一起。现在,我们能一下子向所有这些数据库提问:“给我每个订了超过100,000个零件并且过去六个月被逮捕的人的名单”。
Schema和本体:RDF Schemas, DAML+OIL, 和 WebOnt
关于数据库的所有工作假定数据是几乎完美的。但是,很少的(如果有的话)数据库系统对于网络的混乱是有所准备的。当新的术语被发明和定义,任何“硬编码”以理解特定术语的系统都将可能过时,或者至少其应用受到了限制。如果有人开发了一个使用1-10的指标评价书的新系统而不是只是说有人“非常喜欢”它们会怎么样?基于旧系统的程序将不能处理新的信息。
更严重的是,对于人或者电脑来说没有办法指出一个特定的术语是什么意思,或者它应该怎样使用。如果我们从来都不描述URIs的含义,它们将是毫无用处的。这就是为什么要引进schema和本体。schema和本体是描述术语的含义及其关系的方法。这些描述(当然是用RDF表达出来的)帮助电脑系统更容易的使用术语,决定如何在转换这些术语。
人们已经开发了两个密切相关的系统,RDF Schemas 和 带有本体接口层的DARPA智能描述语言(DAML+OIL)来解决这个问题。例如,一个schema这样说:
@prefix dc: <http://purl.org/dc/elements/1.1/> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
# A creator is a type of contributor: dc:creator rdfs:subClassOf dc:contributor .
(这里我们使用允许我们使用起来更缩略的三元组的超集Notation3)
这是说创建者是有贡献者的一个子集。这有什么用?好,我们来举个例子:你设计了一个程序收集各种文档的创建者和有贡献者。你的程序用这个词汇(dc:creator 和 dc:contributor) 来理解它找到的信息。一天,大量的来自AOL的新手开始创建RDF文档。他们中没有人知道dc:creator,因此,他们建立自己的术语ed:hasAuthor
# The old way:
<http://aaronsw.com/> is dc:creator of <http://logicerror.com/semanticWeb-long>

# The new way:
<http://logicerror.com/semanticWeb-long> ed:hasAuthor <http://aaronsw.com/> .
正常情况下,你的程序将简单的忽略这些新声明,因为它不能理解它们。然而,一种灵魂非常的聪明以至于通过提供如何在它们之间转换的信息在这两个世界建立了桥梁:
# [ X dc:creator Y] is the same as [ Y ed:hasAuthor X] dc:creator daml:inverse ed:hasAuthor .
这告诉你的程序ed:hasAuthor与dc:creator是相反的,这意味着你的程序所需要做的事就是交换主语和宾语并将ed:hasAuthor变为dc:creator。既然你的程序理解DAML本体,它现在获取这个信息并使用它处理所有它以前并不理解的hasAuthor声明。
到2001年9月3日,W3C在准备开始一个网络本体(WebOnt)工作组(有些人称之为WOW-G)。这个组织被授权在RDF Schema 和 DAML+OIL的工作的基础上建立网络本体语言。这个组织将开发出什么非常有趣的事,我们拭目以待。
逻辑
从现在开始,我们将讨论语义网尚未开发出来的部分。不像上面讨论的那样,我不是在讨论特定的系统,而是讨论可能成为(正在成为)很多不同系统的基本概念。
有可用来理解那些基本概念(子类,相反等等)系统是非常好的一件事,然而我们能够声明任何的原理并允许电脑使用这些原理来推理是一件更好的事。
这里有个例子:我们说一家公司决定,如果有人售出超过100件我们的产品,那么他将是超级销售人员俱乐部的一员。一个聪明的程序能够遵照这个规则作简单的推理:“John已经卖出了102件商品,因此,John是超级销售人员俱乐部的一员”。
证据
一旦我们建立遵照逻辑的系统,使用它们来证明事情才有意义的。全世界的人都能够书写逻辑声明。你的机器然后就能够按照这些语义“链”建立证据。
例:企业销售记录显示Jane已经售出55个小部件和66个链轮齿。存货系统说明小部件和链轮都是不同的公司产品,固有的数学规则说明55 + 66 = 121并且121大于100。并且,据我们所知,销售超过100件产品的人是超级销售人员俱乐部的一员。电脑将这些所有的逻辑规则放到一起形成证据,表明Jane是是超级销售人员俱乐部的一员。
建立这些证据是困难的(这需要遵循数以千计,或者可能是数以百万计的语义网中的“链”),相比之下,检查它们是很简单的。这样,我们开始建立信息处理者的网络。他们其中的一些仅仅为其他人提供数据以供使用。其他人更聪明一些,使用这些数据建立规则。最聪明的是按照所有这些规则和声明获得结论,并恰当的将他们的结果放回到网络(包括纯文本的老数据)中作为证据的“启发式引擎”。
信赖:数字签名和信赖网
现在你也许已经想到这整个的计划是伟大的,但是如果任何人能够说任何事它将是毫无用处的。谁能够相信这样的系统?你就不会让我进你的站点?好,我只要说我是世界之王并且我是被授权的。按照“任何事物能够说关于任何事物的任何事物”的规则,谁能够阻止我?
这就是为什么需要数字签名。基于数学和密码学,数字签名提供证据表明某个人书写了(或者认同)一篇文档或者一段声明。啊哈!因此我用数字化的方法给我的所有的RDF陈述签名。那样,你能够确定我书写了它们(或者至少说我担保它们的真实性)。现在,你简单的告诉你的程序相信谁的签名不相信谁的签名。每个人都能设定自己的等级或者信赖(妄想),电脑能够决定多大程度上相信所读到的东西。
现在你足够相信人们并让他们利用网上的大多数东西是非常不可能的。那就是为什么需要“信赖网”。你将告诉你的电脑,你信赖你的最好的朋友Robert。Robert突然成了网上相当走红的一个人,并且信赖很多人。当然,所有他信赖的人信赖其他一组人。每个这些人又信赖其他一组人等等。当这些信赖关系从你身边扩散开来,它们形成了“信赖网”。每一个这些关系中的人通过它有一定程度的信赖(或者不信赖)。
注意不信赖和信赖一样有用。假定你的电脑发现一篇没有人显式的表明信赖也没有人显式的表明不信赖的文档。最有可能的是,相比于对一篇显式的表明不可信赖的文档,你的电脑更信赖这篇文档。
当决定一段信息有多大程度的可信度时,电脑将考虑所有这些因素。它也能够按照你所期望的透明的或者不透明的作出处理。例如,你也很喜欢一个简单的“赞许或者不赞许”的显示。另外有些人坚持用一种复杂的解释,包括所有包含在决定中的描述。
Tim Berners-Lee刚按了“Oh, yeah? ”这个按钮,点击那个按钮时你的电脑被要求尝试提供相信这些数据的原因。但是你是否自己决定或者把它留给你的电脑,所需的用来作出这个决定足够的信息可以通过信赖网获得。
结论:盛大的景象
关于网络最好的事就是对于这么多不同的人来说,它是这么样的不同。即将出现的语义网将是这种多样性增加数以千倍。对于一些人来说,语义网的这些定义出来的特点将使你的生活变得很轻松。通过它,你的PDA,你的笔记本电脑,你的台式机,你的服务器和你的汽车将彼此通讯。对于其他人,它将使企业决策自动化避免枯燥的手工处理。对于另外的人,它将是评定网上文档的可信度的能力,我们将感觉到非常轻松的就能够获取我们的问题的答案——而这目前来说使充满着沮丧。
不管原因是什么,几乎所有的人都能够发现原因来支持这个语义网的盛大的景象。当然,通往那里有很长的路要走——我们也不能保证我们将会实现它——但是我们已经取得了很大的进步。可能是无止境的,即使我们什么也不能实现,这段旅程将会使它自身最大的酬劳。


--  作者:admin
--  发布时间:4/17/2005 5:11:00 PM

--  
不错啊!

辛苦了!


--  作者:jiexincao
--  发布时间:4/17/2005 11:19:00 PM

--  
谢谢斑竹鼓励!呵呵
--  作者:yuanjinxiu001
--  发布时间:5/30/2005 1:56:00 PM

--  
我觉得很好,能把原文贴出来或发给我吗?
email:yuanjinxiu@163.com
--  作者:jiexincao
--  发布时间:5/30/2005 11:59:00 PM

--  
to四楼:邮件已发,请查收!
--  作者:yuanjinxiu
--  发布时间:5/31/2005 2:19:00 PM

--  
谢谢,我看看邮箱有否?
--  作者:xuhy
--  发布时间:6/3/2005 11:52:00 AM

--  
楼主,能把原文发给我吗?谢谢!
xhy19800426@hotmail.com
--  作者:yuhongli
--  发布时间:6/3/2005 9:45:00 PM

--  
能否发给我一份? josie_yancn@yahoo.com.cn
thanks
--  作者:jiexincao
--  发布时间:6/4/2005 10:47:00 AM

--  
to7楼,8楼,邮件已发
--  作者:jiexincao
--  发布时间:6/4/2005 11:00:00 AM

--  
to7楼:邮件发送错误:
This message is generated by COREMAIL email system.
I'm sorry to have to inform you that the message returned

你发送到xhy19800426@hotmail.com的邮件由于以下原因被退回 : xhy19800426@hotmail.com SMTP error, RCPT TO: 550 Requested action not taken: mailbox unavailable


--  作者:hohowu
--  发布时间:6/8/2005 4:48:00 PM

--  
麻烦搂主也给我发一份吧
dut2000@yeah.net
--  作者:xuhy
--  发布时间:6/8/2005 4:51:00 PM

--  
啊,出错了,麻烦你再发一次好吗?
hy19800426@126.com
麻烦了,谢谢!
--  作者:笑容也寂寞
--  发布时间:6/9/2005 9:01:00 AM

--  
麻烦楼主也发一份给我zzm@mail.hbu.edu.cn
--  作者:jiexincao
--  发布时间:6/9/2005 10:27:00 AM

--  


既然这么多人要,我就干脆传上来吧。(本来就想传的,以前一直传不了!)
--  作者:zhenchiyufei
--  发布时间:6/14/2005 9:56:00 AM

--  
麻烦楼主也给我发一份吧,谢谢!
E-mail: wenrui9@126.com
--  作者:jiexincao
--  发布时间:6/14/2005 10:10:00 AM

--  
已经传上去了啊,见14楼
--  作者:liuhg
--  发布时间:8/24/2005 10:19:00 AM

--  
楼主大哥,给我发一个,谢谢
--  作者:liuhg
--  发布时间:8/24/2005 10:21:00 AM

--  
楼主给我也发一份,谢谢。
haogong890@163.com
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
93.750ms