数据科学研究在社会科学中的应用前景

时间:2023-05-28 13:00:11 公文范文 来源:网友投稿

摘要:在网络化、信息化不断深化,大数据渗透到整个世界的背景下,我们以WOK平台核心合集为数据来源,采用文献计量和知识图谱分析方法,梳理了数据科学研究的总体态势、演化进程、发展现状、研究结构及与其他学科之间交叉、渗透的关系。在此基础上,结合数据科学交叉学科特性和在社会科学领域应用取得的成果,我们认为数据科学对社会科学研究转型的作用机制及应用前景主要表现在六个方面:(1)为解决目前社会科学研究存在的问题提供可能,(2)对社会科学认知体系产生结构性的影响,(3)构建社会科学全新的研究路径,(4)社会科学研究转向跨学科的事件导向建构方法,(5)实现对真实世界的多路径“涌现”,(6)为我国社会科学发展提供重要机遇。在此过程中,我们应当处理好交叉学科研究、辩证看待大数据、建立风险意识、处理好大数据与小数据的关系、构建新的研究技能与团队合作及促进政府数据开放和建设数据科学基础设施等问题。

关键词:数据科学;社会科学;研究范式;知识图谱

中图分类号:C0; TP311.13文献标识码:A文章编号:0257-5833(2018)09-0078-11

作者简介:章昌平,桂林理工大学公共管理与传媒学院副教授、哈尔滨工业大学管理学院博士研究生;米加宁,哈尔滨工业大学管理学院教授;李大宇,哈尔滨商业大学财政与公共管理学院讲师(广西桂林541004)

一、问题的提出

人类社会正在快速进入大数据时代。数据开始渗透并充斥着整个世界,成为重要的生产要素和战略资源。数据科学也越来越受到人们的重视。然而,目前对数据科学的综述却不尽如人意,一方面偏向历史演进的总结和研究现状中期刊、作者的展示,另一方面偏向具体应用领域。同时,关于数据科学的理论渊源的梳理也过于注重计算机科学,对其与数学、统计学、信息学等学科的渗透关系,与大数据、数据挖掘、机器学习、人工智能等领域间的交叉关系关注不够,缺乏数据科学在人文社会科学领域应用的总结和趋势分析。据此,本文拟利用一源多图(一个文献题录数据来源和多种知识图谱分析)和内容分析相结合的方法,从文献信息资源外部形态特征和知识源属性两大角度入手,综合文献学、科学学和计算机科学等多学科理论和工具对数据科学研究进展进行分析,揭示其与其他学科之间交叉、渗透的关系及自身的研究结构,并对数据科学在社会科学研究中的应用前景、机遇和挑战进行探讨,以期发现数据科学研究的规律性内容和发展趋势,从而指导其在人文社会科学领域的应用。

二、数据获取与研究方法

(一)数据获取

本文选择科睿唯安Web of Knowledge(WOK)检索平台的核心合集(含SCI、SSCI、A&HCI、CPCI四大核心数据库)作为数据来源。WOK平台能够利用文献信息资源之间的内在联系,把各種相关资源提供给研究人员,为学术界提供可靠、有效的数据支持,其引文统计数据记录了各领域研究人员共同评判出来的最具影响力的研究成果,能够为挖掘各领域研究的演化、结构和渗透、交叉关系提供数据基础。笔者使用Topic=“data science” &Timespan=“1960-2017”检索式进行检索,检索时间为2018年1月15日。返回检索结果为1123篇文献,为避免非学术研究成果、重复研究成果对数据分析的干扰,我们对检索结果进行精炼和去重,在此基础上统计出与数据科学主题相关的文献共有1014篇,其中期刊论文530篇,会议论文390篇,综述类论文63篇,图书章节等其他类型文献31篇。

(二)研究方法

从WOK平台导出文献题录数据后,本文采用文献计量、知识图谱等研究方法对数据科学研究进展进行分析。文献计量对文献基本特征进行统计,揭示数据科学研究的总体概况;社会网络分析对文献互引或共现网络节点及节点间关系进行分析,构建互引网络中节点之间的关系模型,描述个体对群体关系结构和整体功能的影响,寻找具有重要地位的文献和主题,揭示数据科学研究的演化规律;共词分析对关键词共词网络进行分析,揭示数据科学研究的结构特点,分析发展趋势;信息可视化技术则用于绘制可视化的知识图谱。其中,HistCite能够分析文献基本的计量指标,生成引文编年图谱,发现研究重大进展和发展趋势,展示学者的文献数量和引证关系,快速找出关键文献李瑞波、张琳、王珏:《基于Histcite工具的引文网络实证研究》,《情报科学》2015年第10期。。VOSviewer可使用共现网络构造知识图谱,挖掘和呈现可视化结果Van Eck N J, Waltman L,“Software Survey: VOSviewer, a Computer Program for Bibliometric Mapping”,Scientometrics,vol.84,No.2,2010,pp.523-538.。

三、数据科学研究演化与主题分布

(一)数据科学研究的学术史梳理

数据科学起源于20世纪60年代对数据分析未来的预测和计算机科学即“数据处理的科学”根本理念与原则的研究Gil Press,“A Very Short History Of Data Science”,Web of pitt,https://classes.dbmi.pitt.edu/sites/default/files/averyshorthistory.pdf,2016-03-01.。数学家J.W.Tukey在1962年提出数据分析是一门新的科学,而不仅仅是数学的分支,确定了数据分析发展的四大驱动力:统计学理论、计算机和显示设备的快速发展、各领域大量数据带来的挑战和广泛多样的学科对量化的强调,明确了统计学在其中的作用J.W. Tukey,“The Future of Data Analysis”, Annals of Mathematical Statistics,vol.33,No.2,1962,pp.1-67.。1966年,计算机科学家P. Naur提出了“datalogy”的概念,强调计算机科学为“本质和数据使用的科学”,系统讨论了数据、数据表示和数据处理构成的数据科学基本概念和实用技术,并积极推动数据科学在计算机教育中的地位,形成了计算机科学的哥本哈根传统Sveinsdottir E, Frkjr E, “Datalogy—The Copenhagen Tradition of Computer Science”, Bit Numerical Mathematics, vol.28,NO.3,1988,pp.450-472.。20世纪90年代以后,数据科学获得较大发展,数据科学的术语和过程被正式提出,并强调用“数据”分析和理解实际现象,是不同于传统的视角和思维方式Hayashi C, Yajima K, Bock H H, et al, Data Science, Classification, and Related Methods.Proceedings of the 5th Conference of the International Federation of Classification Societies (IFCS-96), Kobe, Japan, March 27–30, 1996,Springer,1998.pp.40-51.。2012年以后,随着大数据的崛起,数据科学也迎来了爆发式的发展,快速成为多个领域的研究热点。

推荐访问:社会科学 科学研究 前景 数据