中国高等教育学会语文教育专业委小学语文教学法研究中心副秘书长管季超创办的公益服务教育专业网站 TEl:13971958105

教师之友网

 找回密码
 注册
搜索
查看: 85|回复: 0
打印 上一主题 下一主题

图书馆,维基百科和大数据

[复制链接]
跳转到指定楼层
1#
发表于 2013-12-4 17:31:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
图书馆,维基百科和大数据
尼克   

  美国大学的图书馆学院系现在纷纷改名为“信息”或“信息管理”。一直领风气之先的加州大学伯克利分校,老早就把“图书馆学院”改名为“信息管理学院”,最近干脆把“管理”俩字也拿掉,就叫“信息学院”(School of Information),简称ischool,尽管是全校最小的学院,但这名字叫起来时髦、性感。全美图书馆专业最强的华盛顿大学,紧跟伯克利,也把图书馆学院改名为信息学院,也简称ischool。看起来真是大势所趋,有点像上世纪七十年代初全美大学纷纷设立计算机系的劲头,按这速度,应该很快会传遍全美。我估计这有几方面的因素:第一,图书的物理体现正在快速变化,越来越多的人从书之外的媒体获得信息,即使是书,也从纸质变为电子;第二,新的信息载体需要新的管理方式,大数据也带来图书馆的革命;第三,更易招生,作为职业教育的“图书馆”院系,生源第一重要,如果不变革,更无法同商学院、法学院、医学院竞争了。伯克利真是不想再培养图书馆管理员了,这事貌似北大更有经验;第四,方便募款,伯克利信息学院的新募款对象包括了谷歌、雅虎等科技新贵,如果还举着“图书馆学院”的牌子,估计“新钱”(new money)的大佬们才不会待见呢。
  新名字并不只是新瓶装旧酒。伯克利改名后,课程设置也全部革新,不教怎么包书皮儿了,改教大数据。原来图书馆相关的课程已所剩无几,最流行的课程是信息查询(即搜索技术),数据挖掘,和信息可视化(Information Visualization)。改名后的第一任院长是伯克利著名的经济学家瓦里安(Hal Varian),以提出“信息经济学”和“网络经济学”闻名。他最近已离任前往谷歌担任首席经济学家。教授的成分也焕然一新,一些计算机科学家、经济学家和法学家加盟,而且信息学院和计算机等系科联合任命教授。教授中三分之一都是计算机博士毕业,而课程竟然有一半都是计算机课,如数据库、信息查询、网络与信息安全、大数据等。当然,除了计算机课程之外,也得有点别的,例如知识产权、社交媒体、信息经济学等,要不然真没法形成新学院的特色。某些号召力强且比较软性的课程则直接把视频摆到网上。除了本校教授,伯克利还从外边请人走穴,如亚马逊(Amazon)的前首席科学家安德烈斯·维根(Andreas Weigend),就两次开设“社交数据的进化”课程,尽管干货不多,但老头儿段子不少,讲的都是工业界正在发生的事,听起来倒也有趣。
  谷歌、维基百科等也在努力改进信息的组织方式,以更方便计算机理解原始信息。谷歌的“知识图”(Knowledge Graph)就是一种新的语义知识库。谷歌把关于各种客体(object)的事实结构化,进而为谷歌的搜索引擎、机器翻译和其他应用提供基础语义信息。这些被结构化的语义信息的一个主要来源就是维基百科。维基百科中的人名、地名等都被结构化后,它们的格式可以通过元数据定义清楚,机器和人可以利用结构化的数据做更精准的语义搜索和关联。一个例子是维基百科的infobox(信息盒)。当我们在维基百科上搜索“Issac Newton”时,在页面的右上侧,就会呈现出“牛顿”的infobox,这个盒子里有关于牛顿的结构化信息,如生卒年月、毕业院校、老师是谁、所做贡献、受何人影响又影响过何人等。在这些信息之上,还可以进一步开发各种好玩的应用。前一阵,就有个学生写了一段简单的程序:挑出维基百科中的所有哲学家,在他们的infobox中找出受谁影响和影响别人的字段,然后画一张图,一个圈代表一个哲学家,影响度高的对应的圈就大一些。这些在现在的“信息”时代轻而易举可以做到的事情,在以前“图书馆”的时代,几乎不可能。
  维基百科最常用的方式是输入关键词,然后得到一个或几个结果。其实它还有另一种按类查找的功能。例如,我们想知道在“物理学”的类别下,还有些什么子学科,那么输入“Category: Physics”,就可得到一个列表,它包括诸如“经典力学”“量子物理”“理论物理”等属于“物理学”的子学科,列表中的每一个项,在维基百科中被称为“子类”(subcategory)。有了这个分类,维基百科中的所有词条都可分门别类,维基百科在每个词条页面的底部,都会显示这个词条所属的所有类别。例如,“牛顿”就分属于“英国物理学家”、“卢卡斯数学教授”、“剑桥三一学院研究员”、“微积分历史”,甚至“1727年死去的人”等。我们由此点击“卢卡斯数学教授”,就可得到剑桥有史以来担任过“卢卡斯”讲座教授的所有人的名单,其中当然有上届已退休的霍金和本届的麦克-格林(Michael Green)。这个分类信息,程序和人都可读取。
  上图展示了维基百科分类系统的一个片段。这里我们可以看到:“社会科学”是“科学”的子类,“科学”又是“知识”的子类;而“人文”是“文化”的子类,“文化”又是“社会”的子类,等等。
  更多的例子:“矩阵论”是“线性代数”的子类,依次又是“代数”的子类,依次又是“数学”的子类。又如,“范冰冰”(Fan Bingbing)属于几个类,其中有“山东演员”“山东歌手”(范爷还会唱歌?)等。如果我们顺着“山东歌手”的类再往上爬,就可以到“山东音乐家”(这个类厉害),再往上爬,可到“中国音乐家”,又可到“亚洲音乐家”等等。
  维基百科的这种信息分类技术,对于计算机科学家来说再熟悉不过。“面向客体的程序设计”(Object-Oriented,也有翻译为“面向目标”的,简称OO),就是这个思路。每个类(class)都可以有多个子类(subclass),每个子类也可以有多个超类(superclass)。只不过OO那里叫class,维基百科这里叫category;那里叫“实例”(instance),这里叫“文章”(article),结构和原理是一样的。其实电子书的内容将来也可按此方式组织,对纸质书的研究是旧的死学问,而对电子书的研究则是新的活学问。从这个角度看,伯克利将图书馆学院改名信息学院,并改革课程设置,是顺历史潮流而动。
  在谷歌知识图和维基百科之前,早就有关于知识管理的理论研究。一种最近被经常提到的方法:“形式化概念分析”(Formal Concept Analysis,简称FCA),是由德国数学家鲁道夫-威勒(Rudolf Wille)在1984年提出的。他用代数中一种被称为“格”(Lattice)的结构为概念分类提供了数学基础。每个概念都有一个客体集和属性集,客体集就是这个概念的外延,属性集就是这个概念的内涵。一个概念越广泛,它的外延自然越大,而内涵越小。动物的外延比人要大,因为客体集更大;而人的内涵比动物要大,因为人更特殊。在维基百科中,子类的外延自然比父类的外延要小,例如,“剑桥数学家”或“英国统计学家”类中的一员必定出现在“英国数学家”类中。
  程序设计中的OO和维基百科分类都可以用“格”来刻画。在程序设计中,“格”的概念清晰可寻,而在维基百科中,因为涉及的编辑人员鱼龙混杂,也缺乏自动化工具,分类的概念就没有被严谨地遵循。有时会闹笑话。比如在维基百科的分类系统中,可以从“物理学”类出发,一级一级地通过子类,到达“数学”。如下所示:
  物理学(Physics)→应用及交叉学科物理学(Applied and interdisciplinary physics) →天体物理学(Astrophysics) →宇宙(Universe)→生命(Life)→社会(Society)→教育(Education)→学术(Academia)→学术学科(Academic disciplines)→社会科学(Social sciences)→人类学(Anthropology)→语言学(Linguistics)→认知科学(Cognitive science)→记忆(Memory)→知识(Knowledge)→ 认识论(Epistemology)→认知(Cognition)→思维(Thought)→抽象(Abstraction)→数学(Mathematics)
  也就是说“数学”是“物理学”的子类,这有点说不过去了。稍微分析一下,我们可以看出几个跳跃比较大的步骤:“天体物理学”的子类中有“宇宙”,“宇宙”和“宇宙学”可不是一回事。而把“学术”置于“教育”之下也不对,而“认知科学”又凭什么被置于“语言学”之下。
  更不靠谱的是,从“数学”类出发,通过若干步的子类运算后,还有一条路径可以到达“物理学”,也就是说“物理学”又是“数学”的子类。从“格”的角度看,“物理学”就等于“数学”了。其实不用懂什么数学原理,直觉上,我们就知道这肯定有问题。“格”里不能有循环。
  这样的问题,目前还不严重,因为维基百科的用户当下主要是人,没什么人会有兴趣一层一层地爬分类结构。但如果以后有计算机程序想了解人类学问是怎样分门别类的,那,这问题可就大了。目前,DBPedia正在从维基百科中抽取结构化的信息,形成知识的本体论(ontology),这些本体论就可以被用作其他程序的基础信息,例如,自然语言理解和翻译。如果基本的分类都做不好,那上层的工作结果肯定也不靠谱。把数学、物理分类搞差了,问题不大,如果把范爷分错了类,那是要犯政治错误的。顺便说一句,这个分类循环问题是本文作者去年帮儿子做大数据编程作业时发现的,最后声明一下本人没有代笔儿子的作业,他程序编得比我溜多了,而且正在考虑怎么解决这个问题呢。
您需要登录后才可以回帖 登录 | 注册

本版积分规则


QQ|联系我们|手机版|Archiver|教师之友网 ( [沪ICP备13022119号]

GMT+8, 2024-11-23 09:12 , Processed in 0.114521 second(s), 26 queries .

Powered by Discuz! X3.1 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表