新书推介:《语义网技术体系》
作者:瞿裕忠,胡伟,程龚
   XML论坛     W3CHINA.ORG讨论区     计算机科学论坛     SOAChina论坛     Blog     开放翻译计划     新浪微博  
 
  • 首页
  • 登录
  • 注册
  • 软件下载
  • 资料下载
  • 核心成员
  • 帮助
  •   Add to Google

    >> The future of AI, is the future of computer
    [返回] 计算机科学论坛计算机理论与工程『 人工智能 :: 机器学习|数据挖掘|进化计算 』 → [下载]Corpus: Chinese Short Message Service 查看新帖用户列表

      发表一个新主题  发表一个新投票  回复主题  (订阅本版) 您是本帖的第 4581 个阅读者浏览上一篇主题  刷新本主题   树形显示贴子 浏览下一篇主题
     * 贴子主题: [下载]Corpus: Chinese Short Message Service 举报  打印  推荐  IE收藏夹 
       本主题类别:     
     nlplab 帅哥哟,离线,有人找我吗?
      
      
      等级:大一新生
      文章:2
      积分:55
      门派:XML.ORG.CN
      注册:2010/10/14

    姓名:(无权查看)
    城市:(无权查看)
    院校:(无权查看)
    给nlplab发送一个短消息 把nlplab加入好友 查看nlplab的个人资料 搜索nlplab在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 引用回复这个贴子 回复这个贴子 查看nlplab的博客楼主
    发贴心情 [下载]Corpus: Chinese Short Message Service

    *************************************************************

    NLPLAB No.: NLPLAB2010T003

    Release Date: May 28, 2010

    Corpus: Chinese Short Message Service

    Abbreviation: CSMS

    Version: 1.0

    Copyright: Wuying Liu

    Contact:
      (1)email: nlplab@163.com; <Natural Language Processing Laboratory>
      (2)mobile phone: 13787784974
      (3)qq: 44631423
      (4)web: http://nlplab.webhop.net

    Data Type: Text, UTF-8 code

    Language: Chinese

    Application: SMS Spam Filtering, Short Text Processing

    Introduction:
    (1)The CSMS corpus is made up of real-world Chinese mobile messages in their chronological sequence, obtained from volunteers and manually labeled two categories {spam, ham} according to volunteers' feedbacks.
    (2)The CSMS corpus consists of 85,870 messages, containing 21,099 spams and 64,771 hams.
    (3)Each message includes FromPhoneNumber, ToPhoneNumber and BodyText fields; For the privacy protection, the phone numbers are replaced without changing the communication relation network.
    (4)The SMS texts and category labels are stored separately; The SMS texts are stored under the dir "csms/data/", including 85,870 text files; The category labels are stored under the dir "csms/full/".

    Example: (1)The SMS file "csms\data\csms.1" is showed as below
                  13910000001
                  13810000002
                  $$$$$$$$ 这八个金钱符转发给八个好朋友.你这一年就会财源滚滚.如果删除不发.那你这一年就会破财.发吧!我也是被逼的,谁叫你人缘好呢
             (2)The category label file "csms\full\index" is showed as below
                  spam ../data/csms.1
                  ham ../data/csms.2
                  ham ../data/csms.3
                  ...

    *************************************************************
    Download: csms-toy.zip
    http://cid-2c1d19cb59beaf62.skydrive.live.com/redir.aspx?client=wnf&resId=2C1D19CB59BEAF62!110&ct=&page=self&parid=&type=3


       收藏   分享  
    顶(0)
      




    点击查看用户来源及管理<br>发贴IP:*.*.*.* 2010/10/14 17:09:00
     
     GoogleAdSense
      
      
      等级:大一新生
      文章:1
      积分:50
      门派:无门无派
      院校:未填写
      注册:2007-01-01
    给Google AdSense发送一个短消息 把Google AdSense加入好友 查看Google AdSense的个人资料 搜索Google AdSense在『 人工智能 :: 机器学习|数据挖掘|进化计算 』的所有贴子 访问Google AdSense的主页 引用回复这个贴子 回复这个贴子 查看Google AdSense的博客广告
    2025/8/2 23:33:39

    本主题贴数1,分页: [1]

    管理选项修改tag | 锁定 | 解锁 | 提升 | 删除 | 移动 | 固顶 | 总固顶 | 奖励 | 惩罚 | 发布公告
    W3C Contributing Supporter! W 3 C h i n a ( since 2003 ) 旗 下 站 点
    苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
    46.875ms