基于SNA的国外医学信息学领域合著网络研究

时间:2023-05-27 16:36:03 公文范文 来源:网友投稿

〔摘 要〕以JCR2014年收录的医学信息学领域的7种核心期刊为数据来源,利用书目共现分析系统——BICOMB软件生成作者共现矩阵,运用UCINET软件实现高产作者合著网络的可视化,分析合著网络的密度、平均距离、凝聚子群、核心-边缘结构以及中心度,揭示国外医学信息学领域合著网络整体结构特性、核心学术团体和高产作者之间的合作情况。研究结果表明,国外医学信息学领域高产作者合著网络整体信息交流不通畅,作者合作范围不广泛,合作模式单一,缺乏能够连接不同合著群体的桥梁作者。

〔关键词〕医学信息学;合著网络;社会网络分析;BICOMB;UCINET

DOI:10.3969/j.issn.1008-0821.2016.03.022

〔中图分类号〕G252;R-058 〔文献标识码〕A 〔文章编号〕1008-0821(2016)03-0129-06

〔Abstract〕This paper took 7 kinds of medical informatics core journals from 2014 JCR as the data samples,used bibliographic items co-occurrence matrix builder BICOMB generating the author co-occurrence matrix,realized the core author co-authorship networks visualization through UCINET software,analyzed the co-authorship networks density,average path length,cohesive subgroups,core-periphery and centralization,revealed the overall network structure characteristics of foreign medical informatics field,the core academic groups and the cooperation between the prolific authors.The result showed that in the co-authorship network of the foreign medical informatics field,the information communication is not smooth,the cooperation between the prolific authors is not widespread,cooperation pattern is single,and lack of the bridge author who can connect different co-authorship group.

〔Key words〕medical informatics;co-authorship networks;social network analysis;BICOMB;UCINET

随着科学技术的迅速发展,学科之间和学科内部的交流也越来越广泛,科学研究者之间的合作也越来越频繁,合著成果成为促进科学发展的巨大动力。合著网络的建立是科研团队形成、稳定和发展的基础。因此,科研合作网络研究,对于分析科学领域合著网络结构与特性、发掘优秀科研团队和发现核心位置作者有着重要的意义。社会网络分析方法(Social Network Analysis,SNA)主要是对社会网络中行为者之间的关系进行量化研究[1],也是合著网络研究的重要方法。Newman构建生物学家、医学家、物理学家和计算机学家的合著网络,网络分析指标包括:作者平均发文量、文献平均作者数量、合著者数量、最大组分大小、平均测地距离和聚类系数,发现四个研究领域网络都具有 “小世界”特性,同时还表现出高度聚类[2]。Liu XM等人对ACM和IEEE的数字图书馆会议以及ACM/IEEE联合召开的数字图书馆会议JCDL(Joint Conference on Digital Library)的文献进行研究[3],根据社会网络理论建立著者合著网络,利用点度中心度、中间中心度和接近中心度指标研究该合著网络的属性,同时在PageRank方法的基础上提出了AuthorRank方法,筛选出该领域的重要作者,并对比分析两种方法的结果。Yan等人运用社会网络分析方法检测中国图书馆和信息科学(LIS)的18种核心期刊网络的宏观和微观属性,研究发现,这个网络同时拥有小世界和无标度的特性[4]。近年来,国内外学者运用SNA来研究合著网络的研究越来越多,研究领域覆盖了社会科学和自然科学领域的各个学科,研究角度包括国家合著网络分析、机构合著网络分析和作者合著网络分析等。

本文利用SNA,从整体网络和个体指标两个方面研究国外医学信息学领域合著网络,分析合著网络的密度、平均距离、凝聚子群、核心-边缘结构以及个体中心度指标,揭示国外医学信息学领域高产作者合著网络整体网络特性、核心学术团体和核心位置作者,以期更加全面清晰地了解医学信息学领域高产作者合著网络结构,作者合著模式以及作者合作交流现状,为科研人员对该领域的深入研究提供一定的参考。

1 研究方法

11 研究对象

本文选取2014年JCR(Journal Citation Report)期刊引文报告收录的医学信息学MEDICAL INFORMATICS领域的期刊的文献作为数据来源,医学信息学领域期刊的平均影响因子为1828,选取影响因子大于或者等于1828,且剔除期刊类别同时属于统计科学、计算机科学的多学科期刊,最终选定7种只属于MEDICAL INFORMATICS领域的核心期刊[5],这7种期刊分别是:JOURNAL OF MEDICAL INTERNET RESEARCH(3428),MEDICAL DECISION MAKING(3240),METHODS OF INFORMATION IN MEDICINE(2248),JOURNAL OF MEDICAL SYSTEMS(2213),JOURNAL OF BIOMEDICAL INFORMATICS(2194),INTERNATIONAL JOURNAL OF MEDICAL INFORMATICS(2004),BMC MEDICAL INFORMATICS AND DECISION MAKING(1830)。具体检索时间范围为2011年1月1日-2015年9月20日,将文献类型限定为“Article”“Review”“Proceedings Paper”,最终共得到4 256篇科学论文。

12 研究工具

121 BICOMB

BICOMB(Bibliographic Items Co-Occurrence Matrix Builder)软件是由中国医科大学医学信息学院崔雷教授主持开发的一款文本挖掘工具,可对国际权威生物医学文献数据库PubMed、引文数据库Science Citation Index(SCI)、中国知网(CNKI)和万方数据等数据库的文献记录进行读取分析,快速提取关键字段,并生成书目数据的共现矩阵,为进一步研究提供准确的基础数据[6]。

122 UCINET

UCINET(University of California at Irvine NETwork)软件是由加州大学欧文(Irvine)分校的Borgatti、Everett和Freman开发编写的[7],是社会网络分析的专用软件,可进行中心性分析、密度分析、凝聚子群分析、核心-边缘结构分析和基于置换的统计分析等,同时集成了社会网络绘图软件NetDraw,操作简单易行[8]。

2 结果与分析

21 整体分析和高产作者群确定

本次研究中共有4 256篇论文,涉及15 857位作者,平均一篇论文有37位作者,其中合著论文有4 096篇,占论文总数的9624%;参与合著的作者有15 774位,占作者总数的9948%。表1列出了国外医学信息学论文作者合著情况。

由表1可知,合著论文数和作者间合作率均在90%以上,2~10人合作最为普遍,也存在更多人合著的情况,一部分文章合作者数量超过20人,最高一篇文章作者数量为24人。

根据普赖斯定律来选取医学信息学领域的高产核心作者,即以本领域最高产作者发表论文数的平方根的0749倍为界,高于此发文量的作者即为该领域的核心作者,本文中最高产作者发文20篇,则核心作者中最低产作者论文数应为334篇,取最大整数为4篇。统计数据表明,发文4篇及以上的作者共418人,通过分析这418位医学信息领域核心作者构成的合著网络,可以有效反映该领域的稳定合作团体和高产作者间的合作情况[9]。

22 合著网络整体分析

社会网络分析方法研究合著网络中,为了构建医学信息学领域合著网络,首先需要生成作者共现矩阵。本文使用BICOMB软件,提取作者字段,生成作者共现矩阵,将矩阵导入UCINET软件中,再利用Netdaw功能构建合著网络。医学信息学领域共有15 857位作者,数量巨大,为更好的反映合著网络中作者之间的联系,得到更为清晰明确的图谱,本文只绘制了通过普赖斯定律确定的418位高产核心作者构成的合著网络,见图1。

221 网络密度分析

网络密度是指网络中实际存在的连线数量占网络中理论上可能存在的最大连线数量的比例,用于评价网络中节点之间关系的紧密程度[10]。合著网络中节点关系越紧密,信息越流通,内部成员合作越频繁;合著网络中节点关系越稀疏,信息流通不畅,成员间的合作越少。利用UCINET软件,通过NETWORK—COHEGION—DENSITY路径,可计算出整个合著网络的密度。通过密度分析得出国外医学信息学领域合著网络的密度为00155,网络密度比较低,说明该领域作者合作还不够紧密,互动交流比较少,缺乏长期稳定合作的团体;同时也说明了医学信息学领域还存在一定的发展空间,仍需加强和扩大成员间的交流合作,以促进本领域的信息传播与成果共享。

222 网络平均距离

网络的平均距离是指网络中所有节点之间最短路径的平均长度。合著网络的平均距离是衡量整个网络联系紧密程度和信息传播速度的重要指标,平均距离越短,网络联系就越紧密,信息传播的速度也就越快。通过NETWORK—COHEGION—GEODESIC DISTANCE步骤,可以计算得出医学信息学合著网络的平均距离是8927,即任意两个作者之间平均只要通过9个人就可以互相建立联系。一般合著网络平均距离不超过10,即可认为该网络具有“小世界效应”,相对而言,8927是一个相对较大的网络距离,同时也说明医学信息学领域合著网络的小世界效应并不是很显著,该领域信息畅通性不强、科研人员合作交流渠道不快捷,信息传播速度不高[11]。

223 凝聚子群分析

凝聚子群分析中k—丛分析是分析网络小群体结构最常用的方法。k—丛是指在子群中,每个点都至少与除了k个点之外的其他点直接相连[12]。换而言之,如果一个凝聚子群的规模为n,那么只有当该子群中的任何点的度数都不小于(n-k)这个值的时候,才称之为k—丛[13]。本研究中k取值2,子群最小成员数为3,共找到了852个2—丛,子群规模最大为7,表2列举了规模大于等于6的群组列表。

通过分析结果,大部分2—丛的规模都为3,即该类子群中的成员至少和其他1位作者有直接联系,最小规模的子群有662个,占子群总数的777%,说明医学信息学领域合作网络中作者的合作范围不广,大部分作者只和少数作者有合作关系。也有作者属于多个子群,例如Legare,France分别隶属于68个规模不同的2—丛,de Vries,Hein、Kelders,Saskia M和Dugas,Martin等作者属于多个子群规模为6的2—丛,说明这些作者有多个“合著群”,通过这些作者跨子群的合作,使不同的2—丛联系在一起,这些作者对于整个合著网络的沟通联系起了极其重要的桥梁作用。

224 核心—边缘结构分析

核心-边缘结构是一种中间核心区域节点连接紧密,外部边缘区域节点连接松散的网络结构,核心—边缘结构分析是根据合著网络内部节点之间连接的紧密程度,找出网络中处于核心位置联系紧密的成员和处于边缘地带紧密程度较低的成员。通过NETWORK—CORE/PERIPHERY—CATEGORICAL路径,我们可以知道作者在网络中所处的位置,判断其在网络中的作用,越处于核心位置的作者,他所掌握的信息资源也越多,关系网也越大,在实际网络中也就越有价值[14],通过分析得出,de Vries,Hein、Schulz,Daniela N、Crutzen,Rik等9名作者位于网络的核心位置,其他409名作者位于网络边缘位置。核心位置作者中最高发文20篇,最低发文4篇,发文在10篇以上的仅有2位处于核心位置,即有相当一部分高产作者未能进入合著网络的核心位置,这说明了医学信息学领域高产作者与其他作者合著交流较少,合著伙伴范围不广。

23 合著网络个体分析

社会网络分析的中心性分析是对网络中节点相对重要性评价的主要方法,节点在网络中的中心性往往能够反映与之相应的个体在实际网络中的地位。本研究采用点度中心度、中间中心度和接近中心度3种方法,对医学信息合著网络的节点进行分析。

231 点度中心度

点度中心度(Degree Centrality)是指与节点直接相连的邻居节点总数量,反映的是节点直接获取网络流动内容的能力和在网络中的地位与影响[15]。作者点度中心度越大,说明该作者的合作者越多。统计结果显示,在医学信息学合著网络的418位高产作者中,点度中心度最高为42,即他与42位作者合著发表过文献;最低为0,在图谱中表现为孤立节点。点度中心度为21~42的作者共有15位,占作者总数的359%;点度中心度在11~20的作者有65位,占作者总数的1555%;点度中心度为1~10的作者有274位,占作者总数的6555%;另外有64位作者的点度中心度为0,占比1531%。表3列举了医学信息学领域点度中心度值高于20的作者。

232 中间中心度

中间中心度(Betweenness Centrality)是指网络中所有节点对的最短路径之中经过该节点的数量。使用中间中心度可以准确找到网络中某些“流量”非常大的重要节点[16]。Bates,David W的中间中心度值达到10 000以上,表4列出高中间中心度值的作者,他们对于医学信息学领域作者之间的联系起着重要的桥梁作用,对整个网络中信息流动和知识传播产生的影响也最大,但有251位作者的中间中心度为0,即说明超过半数的作者没有控制其他节点沟通联系的能力,在网络中去除这些0值节点,对整个网络的连通性影响不大,出现这一结果的原因,可能与医学信息学领域作者合著交流规模不广泛有关。

233 接近中心度

接近中心度(Closeness Centrality)是指节点到网络中所有其他节点的最短路径之和,该指标反映了节点在网络中居于中心的程度,作者到达其他所有作者的距离越短,其接近中心度值越小,接近中心性越高,越处于合著网络的中心位置,与其他作者越容易发生合作[17]。表5列出了接近中心性前10位的核心位置作者。

从结果中可知Bates,David W的接近中心度值最低,说明他能以最短的路径联系上其他作者,以最短的时间在网络中传递信息,因此在网络中处于核心位置。结合表4和表5可以发现,中间中心度高的作者,其接近中心的程度也高,说明了Bates,David W、Peters,Ellen和Middleton,Blackford等位于医学信息学合著网络的核心位置,对于其他作者的联系起重要枢纽作用,同时他们也是医学信息学领域传播信息最快的,最易促进信息交流的科研人员。

3 结 论

社会网络分析方法研究科学合著网络,是合著分析的一种有效工具,也是近年来情报学领域的研究热点,本文运用SNA网络分析工具UCINET将国外医学信息学领域合著情况进行可视化,并分析各项网络指标,得到以下结论。

整体网络分析结果表明,医学信息学领域高产作者合著网络密度比较低,网络平均距离为8927,“小世界效应”不明显,说明本领域高产作者内部联系不紧密,信息交流不通畅。凝聚子群分析结果表明,子群数量多但很疏松,作者间的合作范围狭窄,合作模式单一,大部分作者只和少数其他作者有合作关系,能够将不同合著子群连接起来的作者还比较少。核心—边缘结构分析结果得出,大部分高产作者未能进入网络核心位置,也证明了高产作者与其他作者合作交流较少,合著圈的范围不广泛。

网络个体分析结果表明,点度中心度大于10的作者仅占1914%,占比较低,中间中心度和接近中心度结果有很强的相似性,说明了位于医学信息学合著网络的核心位置的作者,也具有很强的控制资源的能力,对于其他作者的联系起重要沟通枢纽作用,但超过半数的作者其中间中心度值为0,也说明了医学信息学领域大部分作者对其他作者没有控制沟通联系的能力,对维持整个领域的连通性作用不大,这与医学信息学领域作者合著交流规模不广泛有关。

根据本研究的阶段性结果,国外医学信息学领域高产作者交流不频繁,合作范围不广,合作模式单一,高产作者应有意识的扩大合作交流圈,更多的交流科研成果,以促进医学信息学领域的科研合作,知识交流与成果共享。本文只提取了作者全名,未进行同名同姓处理,使得研究结果存在一定的偏差,有待对数据做进一步的精细处理,得出更加可靠的结果;同时为了降低BICOMB数据运行内存,提高UCINET可视化效果,只选择研究本领域的高产作者的合著网络,对反映整个国外医学信息学领域的合著现状存在一定的局限性,因此对于本研究结论,还有待进一步深入探究验证。

参考文献

[1]林聚任,刘玉安,泥安儒.社会科学研究方法[M].济南:山东人民出版社,2004:283.

[2]Newman M E J.Scientific collaboration networks.I.network construction and fundamental results[J].Physical Review E,2001,64(1):1-8.

[3]Liu XM,Bollen J,Nelson M L,et al.Co-authorship networks in the digital library research community[J].Information Processing and Management,2005,(41):1462-1480.

[4]Yan E J,Ding Y,Zhu Q H.Mapping library and information science in China:a coauthorship network analysis[J].Scientometrics,2010,83(1):115-131.

[5]许丹,侯跃芳.国外医学信息学研究领域可视化引文分析[J].医学信息学杂志,2011,32(10):12-19.

[6]钟秀梅,崔雷.科学映射工具在医学知识图谱构建中的比较[J].医学信息学杂志,2015,36(4):49-53.

[7]Borgatti S P,Everett M G,Freeman L C.Ucinet for Windows:Software for Social Network Analysis[M].Harvard,MA:Analytic Technologies,2002:1-25.

[8]徐媛媛,朱庆华.社会网络分析法在引文分析中的实证研究[J].情报理论与实践,2008,31(2):184-188.

[9]曹霞,陈云香,杨华.基于SCI-E数据库的转化医学文献计量分析[J].现代情报,2013,33(8):108-111.

[10]朱庆华,范哲,施文蔚.信息系统领域中外合著网络研究[J].情报理论与实践,2011,34(11):6-10,20.

[11]黄开木,樊振佳,卢胜军,等.我国竞争情报领域期刊论文合著网络研究[J].情报杂志,2015,34(2):142-147.

[12]李亮,朱庆华.社会网络分析方法在合著分析中的实证研究[J].情报科学,2008,26(4):549-555.

[13]刘军.整体网分析讲义——UCINET软件应用[M].第2版.上海:格致出版社,2014:166.

[14]陈少龙.基于社会网络分析方法的合著网络在上海大学管理学院的应用[J].现代情报,2012,32(4):165-168,177.

[15]张洋,刘锦源.基于SNA的我国竞争情报领域论文合著网络研究[J].图书情报知识,2012,(2):87-94.

[16]Freeman L C.Centrality in social networks conceptual clarification[J].Social Network,1979,1(3):215-239.

[17]尹莉.TopRank(k)算法与PageRank算法的比较研究[J].情报探索,2014,(11):13-15,19.

(本文责任编辑:孙国雷)

推荐访问:合著 信息学 国外 领域 医学