Deep,Web数据库集成技术的研究

时间:2023-04-25 20:12:02 公文范文 来源:网友投稿

zoޛ)j馜l7g
YyVyzl7gCyVy3P5M9~^N6N?zoyoiE!j܉()lj^ghlja5yVyhm:'`zoCyVyo7g
Yzl0LK?%y$Iz7g
Yzl7g
YyVyzl7g
YyVyzo_駀zl7g
YPzoi7gw
YyVy7guv
Yzoi7gv
YyVy駀zl7gCyVy_ov设计

3.1方案设计

本方案的设计流程如下:

(1) Deep Web各被检索网站下载安装客户端数据源应用程序,实现本地Deep Web数据源发现应用程序与客户端数据源应用程序建立连接.安装完成后客户端数据源应用程序将获取的Deep Web数据源连接信息发送到本地Deep Web数据源发现应用程序,再通过Deep Web检索引擎应用程序存储到本地数据库,得到Deep Web数据源连接信息表local_link.

(2) Deep Web检索引擎应用程序读取Deep Web数据源连接信息表local_link的每一行,根据每个IP地址向Deep Web数据源发现应用程序发出命令,Deep Web数据源发现应用程序再将命令转发给客户端数据源应用程序.客户端数据源应用程序接收指令后,获取此IP下Deep Web所有数据库的表结构信息,并打包发送给本地Deep Web数据源发现应用程序.本地Deep Web数据源发现应用程序将接收到的所有数据库表结构再发送给Deep Web检索引擎应用程序进行解析,最后Deep Web检索引擎应用程序再对解析后的这些数据库表结构进行集成并以统一的格式存储到本地local_structure表.

(3) Deep Web检索引擎应用程序根据同一IP地址向Deep Web数据源发现应用程序发出命令,Deep Web数据源发现应用程序再将命令转发给客户端数据源应用程序.客户端数据源应用程序接收指令后,获取该IP下Deep Web数据库中所有的数据,并打包发送给本地Deep Web数据源发现应用程序.本地Deep Web数据源发现应用程序将接收到的所有数据再发送给Deep Web检索引擎应用程序进行解析,最后Deep Web检索引擎应用程序再对解析后的这些数据进行集成,集成后以统一的格式存储到本地数据库local_data表.

(4) 用户只需在本地的查询接口输入查询条件,便可在本地实现对Deep Web数据源的查询.

3.2逻辑结构设计

Deep Web集成系统的本地数据库共存放3张表,分别是:(1) Deep Web数据源连接信息表local_link,该表主要存放各被检索网站的IP地址以及检索状态(未检索或已检索);(2) Deep Web数据库各表结构local_structure.该表以统一的格式存放集成后的Deep Web数据库各表结构;(3) Deep Web集成数据表local_data.该表以统一的格式存放集成后的Deep Web数据库各表的数据信息.各表的设计方案如下所示:

(1) Deep Web数据源连接信息表local_link的设计(表1).

初始条件下state值为0.每轮检索完成后,Deep Web检索引擎应用程序又重头读取local_link表,依次对每一个IP地址进行检索,尽量保证得到每个Deep Web数据库实时更新的数据.

(2) Deep Web表结构local_structure的设计如下(表2).

由于Deep Web检索引擎应用程序解析后的各表结构在格式、内容上存在高度的异构性,因此Deep Web检索引擎应用程序要对解析后的表结构进行集成,集成后统一以local_structure表的格式存储在本地数据库.

(3) Deep Web集成数据表local_data的设计如下(表3).

正如第一节中提出的 Deep Web数据库的异构性所述,Deep Web数据库在系统、模式、命名、格式方面均存在异构性.因此将不同系统中所有Deep Web异构数据库的数据均以local_data表的格式存储.设计这样的格式不仅解决了Deep Web数据库的异构性,由于设置了行号,用户在查询时也能够将原来在表中同一行的数据完整的还原出来.

4實验

若有一个IP 为110.111.1.12的网站,该网站后台使用SQLSERVER数据库.

数据库book中有一张myBook表(表4).

(1) 在该网站安装客户端数据源应用程序后,Deep Web集成系统数据库的local_link表(表5)为:

(2) Deep Web检索引擎应用程序根据IP地址对110.111.1.12网站进行检索.

myBook表结构集成后对应到Deep Web集成系统数据库的local_structure表(表6)为:

(3) 根据表结构得到myBook表数据.myBook表数据集成后对应到Deep Web集成系统数据库的local_data表(表7)为:

(4) Deep Web检索引擎应用程序对110.111.1.12网站检索完成.

此时Deep Web集成系统数据库的local_link表(表8).

5与其他集成技术的比较

现有的大部分Deep Web集成技术是基于查询接口的集成,主要面向特定的领域,有很大的局限性,不能满足用户更高的需求.与这种集成技术相比,本文作者提出的非实时查询Deep Web数据库集成技术的优点主要体现在:

(1) 数据更新方法.由于该集成技术在每个被检索网站安装客户端数据源应用程序,因此可将Deep Web数据信息定时更新到本地.

(2) 响应速度.由于该集成技术将所有被检索网站的数据全部集成在本地数据库,因此用户在查询时只需在本地查询,得到的响应速度较快.

(3) 集成数据量.该集成技术不是单纯的面向特定领域的集成,而是将安装了客户端数据源应用程序的Deep Web数据库所有数据,全部集成到集成系统的本地数据库.因此本地数据库集成的数据量相比较来说是非常庞大的.

虽然本文作者提出的Deep Web集成技术能很好地解决用户快速查询Deep Web数据的问题,但各被检索网站在参与权限、数据排序、服务费用等方面仍存在很多不足.具体体现在:

(1) 参与权限.为了获取被检索网站的数据信息,通常需要在用户同意的情况下,下载安装客户端数据源应用程序.这给主动集成更多的Deep Web数据库带来很大的不便.

(2) 数据排序.对集成数据进行查询时,查询结果是在集成系统本地以统一的格式进行排序,而原网站中Web数据的查询结果排序却无法体现.

(3) 数据冗余.对于Deep Web数据库中那些有外键的表,外键大多由代号表示,集成后的表数据因此失去了关联性,造成跟查询关键字有关的很多数据查不到的现象.这部分数据会产生很大的冗余量.

6结束语

介绍了一种非实时查询Deep Web数据库集成方法,该方法将所有被检索网站的Deep Web数据库集成到本地数据库.研究证明,该方法不仅解决了Deep Web数据库在系统、模式、命名、格式方面的异构性,也实现了用户只需输入查询条件,便可在本地轻松地访问到Deep Web数据的目标.由于篇幅的限制,没有介绍各应用程序相互之间的通信以及异常情况的处理,这是不足的地方.如何节省成本并提高集成效率,最终得到高准确率的查询结果是今后的研究重点之一.

参考文献:

[1]Zhu J,Zhang B,Ma W Y.Simultaneous record detection and attribute labeling in web data extraction [C]//International Conference on Knowledge Discovery and Data Mining.New York:ACM,2006.

[2]Li B,Tan L X,Li H Y,Zhuang Z Q.The techniques for integrating information on the Internet [J].Computer Engineering,2000,26(11):35-37,86.

[3]Nie T Z.Study on key techniques of web batabase integration in the deep web [D].Shenyang:Northeastern University,2009.

[4]Chen W.Design and implementation of a web crawler based on deep web deep data acquisition [D].Wuhan:Central China Normal University,2013.

[5]Liu W,Meng X F,Meng W Y.A survey of deep web data integration [J].Chinese Journal of Computers,2007,30(9):1475-1489.

[6]Shuai W M.Research and application of enterprise heterogeneous data integration based on SOA [D].Guangzhou:Guangdong University of Technology,2014.

[7]Wang N H,Zhang G L.Study on integration of heterogeneous database based on XML [J].Information Technology,2006,30(5):174-176.

[8]Ma L F,Wang Y.Research and implementation of heterogeneous data integration based on XML and web service [J].Computer Technology and Development,2010,20(11):42-46,50.

[9]Geng Y S,Kou J S.Construction of heterogeneous data integration model on cloud computing [J].Journal of University of Jinan (Sci.and Tech.),2012,26(04):384-389.

Research on the technology of Deep Web database integration

LU Yizhi, CHEN Junhua

(College of Information,Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai 200234,China)

Abstract:

In response to this phenomenon that web integration technology integrated based on query interface is complex and domainoriented,this paper presents a noeal time query Deep Web database integration technology,which can obtain Deep Web data source connection information of all retrieved websites,their heterogeneous table structure information and table data by installing a client application.In this way,the table structure information and the table data can be parsed by integration system and then integrated to the local database in unified format.Experimental results show that this integration technology can integrate Deep Web heterogeneous database of all domains,there is no domain limit for it.Because it′s a local query,it also has a faster query speed and higher feasibility.

Key words:

Deep Web database; heterogeneous; integration

(責任编辑:包震宇)

推荐访问:集成 数据库 研究 技术 Deep