计算机科学论坛--显示贴子

以文本方式查看主题

-  计算机科学论坛  (http://bbs.xml.org.cn/index.asp)
--  『生物信息学』   (http://bbs.xml.org.cn/list.asp?boardid=46)
----  大会摘要（3）  (http://bbs.xml.org.cn/dispbbs.asp?boardid=46&rootid=&id=10510)

--  作者：admin
--  发布时间：9/23/2004 2:05:00 AM

--  大会摘要（3）

大会摘要（3）

发信人: happymood (土豆块儿), 信区: Bioinformatics
标题: 大会摘要（3）
发信站: 北大未名站 (2001年04月15日22:18:55 星期天), 站内信件

发信人: tider (行者), 信区: LifeScience
标题: 基因芯片相关生物信息学进展
发信站: BBS 水木清华站 (Fri Apr 13 01:35:36 2001)

基因芯片相关生物信息学进展
(2001-04-12 15:03:23)
----------------------------------------------------------------------------
----
新生命网站基因芯片又称寡核苷酸芯片或DNA芯片，通过把大量的DNA片断以可寻址的方
式，高密度地固定到一块指甲大小的玻璃片或硅片上，利用核酸碱基之间的配对，用来
进行样品DNA高通量、并行的分析信息的工具。随着国际大规模的基因测序计划的爆炸性
发展，人们已经把目光从单纯的测序转向进行基因功能研究的后基因组时代。面对浩如
烟海的序列信息，DNA芯片以其并行、高通量的特点当之无愧的成为后基因组时代的首要
研究工具。由于基因芯片的高集成性，每一次芯片实验都要产生巨大的信息量。以平均
每片5000个点，每个实验设4个水平，每个水平重复3次计算，则一次完整的实验将产生
6万个数据。如此大量的数据如何进行存储、分析，是提交给研究人员的一个巨大挑战。

为了定位和跟踪物理资源（例如，克隆子，阵列或探针），计算机系统在实验前后都必
须存储大量的数据。建立芯片数据库是使数据在一定范围内最有效的共享和分配最好的
途径。虽然，当今大量的序列、结构数据库为生物芯片数据库的建立提供了一个较好模
式，但生物芯片的数据仍有其特有的性质，给建立一个通用的、有效的、可以和别的数
据库交换数据的数据库带来很大的麻烦，必须发展新的数据库模式。例如，芯片杂交结
果的扫描图片，芯片数据的描述，不同平台之间的结果比较等等。
目前世界上主要的芯片数据库有：美国基因组研究中心（NCGR）的GeneX，欧洲生物信息
研究所（EBI）的ArrayExpress，美国生物技术信息国家中心（NCBI）的GEO（gene exp
ression omnibus），MIT的ChipDB，Harvard的ExpressDB，宾州大学的EPODB，加州大学
San Francisco分校的AMAD等。
现在用来分析生物芯片数据的算法还不多，已经发展得比较成熟的算法是聚类分析（cl
uster）,包括自组织图（SOM）,k-means cluster，多维排列（multi-dimensional sca
ling，MDS）等等。另外还有主成分分析（PCA），Support Vector Machines(SVM)，隐
式马尔可夫模型（HMM）等。
生物芯片的分析软件主要有Stanford大学开放源代码、免费的一系列软件：用来分析芯
片图象的ScanAyze，和数据处理和可视化的Cluster，TreeView。另外MIT的Whitehead实
验室的GeneCluster是一个基于自组织图算法的一个分析软件。商用软件有Spotfire公司
的GeneSpring和Partek公司的Partek Pro 2000。这些商用软件可选择的算法比较多，而
且可视化工作做得很好，用户界面友好。但无论是学术的还是商业的，至今还没有一个
集成芯片制造，图象处理，数据归一化处理，数据分析为一体的软件套。（摘自全国首
届生物信息学大会）

--
※ 来源:·北大未名站 bbs.pku.edu.cn·[FROM: 166.111.185.231]

W 3 C h i n a ( since 2003 ) 旗下站点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》

31.250ms