论文库
  • 首页
  • 论文发表
  • 论文宝库
  • 期刊大全
  • 新闻中心
  • 著作出书
  • 发表流程
  • 关于我们
  • 诚心通道
  • 联系我们
  • 当前位置:主页 ->论文库 ->工学论文
  • 垂直搜索引擎技术在武警部队心理数据库建设中的应用

    2014年1月21日 10:35 作者:孙纳新1,赖江轶1,王玉萍2

    垂直搜索引擎技术在武警部队心理数据库建设中的应用

    lu#i;uBa n}p;C I0

    孙纳新1,赖江轶1,王玉萍2

    1sK r:[,N9a0s0

    (1. 武警后勤学院信息技术教研室;2. 武警后勤学院附属医院心理科,300309)

    RS)P&`W0

    摘要:垂直搜索引擎技术的发展使得大数据时代特定专业的信息获取成为可能,通过对武警部队心理数据库数据采集过程中中国论文网hZ4m CS[0i h

    使用异步非阻塞聚焦爬虫策略,大大提高了数据采集性能。中国论文网 N'mR h C3X1xD

    关键词:垂直搜索引擎;爬虫;心理数据库中国论文网Xy6gQT"ks

    The Application of Vertical Search Engine Technology On中国论文网%PK-Y?Q$OR8Z

    Construction of the Armed Police Psychological Database

    2xT0w7p.qdg0

    Sun Naxin1,Lai Jiangyi1,Wang Yuping2

    j.Z{;s({b*vCyQm)m0

    (Information Technology Department,Logistics University of Chinese People’s Armed police Forces,

    'x1P i)r.D c;~$_:na$?Gk0

    Tianjin 300309,China )中国论文网/e1}0rm:wL

    Abstract :The development of vertical search engine technology makes acquisition of specific professional中国论文网,Y#h9Ki#Nz)EB

    information possible in the big data era,we greatly improve the data collection performance with asynchronous

    ;d(F%ma3q^n;c6z0

    non-blocking focused crawler strategy in construction of the armed police psychological database.中国论文网H5O@7[L%`8HH!a

    Keywords :Vertical search engines;The crawler;Psychological database

    c3hhb`8{:v8{0

    易出现心理问题,所以有关军人心理的研究工作已是当前部队中国论文网-QuO.L(`:hP6}

    科研的一个重点;而结合武警部队实际,应用当前心理学最新研中国论文网s ADf1[z

    究成果,则是现阶段武警部队心理工作的普遍方法。但针对我军

    je2C1F:a0i;x&v0

    官兵心理特点的科学研究是近一时期才逐步发展并形成的,一方

    /?/U+CC I7F#B0

    面我们要检索具有武警部队针对性的文献资源,另一方面武警部中国论文网5n8@yl(Bk

    队自己的研究点滴也需积累。随着我军信息化进程不断深化,针

    rOu$G3_ve9lT0

    对武警心理研究文献资料的检索查阅以及经验累积已不仅是科中国论文网n\*g_XZ#t

    研人员的工作所需,也逐步成为基层官兵学习心理知识并调整自

    5a^N ~(rt0

    身心态的一个有效的途径。因此,建立武警部队心理文献索引以

    ;C:g3z lP8uA"y)Ah0

    及心理研究数据的武警部队心理数据库具有极大的实用意义。本

    %Q|V9R[ \0

    文将主要论述如何利用垂直深度搜索引擎技术实现心理数据库

    j~ JG)wj y-Q\*b.^2F/E0

    的数据采集和萃取。中国论文网 A,t0RHL:`

    1 搜索引擎技术

    @KVi]4H0

    图1 搜索引擎工作原理

    g t_)uMoK9T@0

    搜索引擎技术是指用户通过查询界面输入搜索信息,通过网

    0PEY5N*`\sq2n_E0

    络或数据库得到相关信息反馈的技术,搜索引擎的工作原理如图中国论文网 T~zQ7K UFN? f

    1 所示。目前常用的搜索引擎有采用通用搜索引擎技术的囊括所

    r8d3BM0NX?0

    有学科和主题的综合性搜索(如google、百度等)、采用垂直搜索中国论文网 g2sthw l@B

    引擎技术面向特定学科和专业的专业搜索引擎以及面向搜索引中国论文网L [(s/df9UWC;y^

    擎的搜索引擎指南。垂直搜索引擎基于结构化数据和元数据的结

    rP\[%kA0

    构化抓取,因此使抓取的数据更符合专业特点、有针对性,用户可中国论文网%N/MsL4x m_

    以利用这种技术从互联网、外部数据库抓取自己需要的信息构建

    ZR-ZY&t'd8Im/ui5h%e0

    自己的数据库应用系统,利用垂直搜索引擎进行数据采掘的搜索

    c%|XHD5b-w [2O0

    引擎技术是我们实现心理数据库信息采集的基础,如图2 所示。

    &G6B(K%wt^\0

    搜索引擎主要是利用爬虫(Spider)程序去自动地在互联网

    KE^ a#P\,z0

    中搜索信息,主要有以下几个部分构成:数据采集(抓取)、数据

    z q\^G(a(HI,AI7w0

    处理(筛选去噪去重)以及数据存储,图3、4 分别是它的体系结

    6}2]%_H6m'@ y0

    构和系统结构。网页由文本、图片以及链接等元素构成,搜索引擎

    Au)[pue0

    根据用户需求,选定一个种子,利用爬虫开始抓取

    TI-U.P/_c(Cy-c w0

    另一个网页,遍历各个相关站点,把符合要求的页面抓取到索引中国论文网x7ryWz;Q'Iv ^f-@

    库采集资料。从数据采集的角度来看,用户关心的是数据资源,

    yY ^%M4bX~0

    Internet 上的网页以及数据库就是一个巨大的数据资源矿山,

    },C$M/O0\)FU/^Q)d0

    搜索引擎是开采数据资源矿山的机器,具有搜索勘探、提炼萃取、中国论文网4I$j1hW1w

    收集存储的功能。而对搜索引擎技术的研究就集中在各个采集阶中国论文网 J?.Tn1i*p l6w

    段,主要涉及到爬行策略(爬虫)、分词技术、索引(存储)、排序检

    Z_.t1Bg{0

    索算法等。

    $L:i.~5\ n&Z0

    2 垂直深度搜索引擎技术与部队心理数据库中国论文网:qDi$AG)W3l

    随着互联网信息化的深入发展,出现了大量业务型Web 应用中国论文网O_,Pa/Wn5J$p

    系统即Web 数据库。这些数据库的web 面之间的关系是非平行的中国论文网"nY i-_Q(J(N

    垂直逻辑关系,垂直搜索引擎应运而生。它针对某一特定行业对中国论文网w1Ga^a?)T*TY

    网页库中的某类专门信息进行整合,可以定向挖掘专用数据进行

    2iy ] C$t9A+E0

    处理,再以用户需要的某种形式返回给用户。武警部队心理科研中国论文网~cmG7I"G.}@#L.W#g

    成果、资源数据及心理学文献材料通常分散收录于多个文献数据中国论文网9PH X2rU p#U9mS"o

    库以及某些特殊数据库内,不但检索查阅不便效率低下,其覆盖中国论文网3r bl'L RyH P

    范围也不足,经常存在“坏链”“死链”现象;采取通常方法检索,中国论文网 t%t;Jm%I

    其搜索结果均是基于关键字的简单拆分查询,不具备高级关键字

    RP~O'Nv0\0

    分析处理功能,更达不到心理领域的专需效果,而且各文献数据中国论文网"Of'd?3{ |LQ"F]u

    库产品不同形式的人机交互界面(UI)也为科学检索带来了不便,

    &NV0`B}fE;_ y0

    因此利用垂直搜索引擎技术完成心理学专业相关的信息采集,设中国论文网zab5p(MH

    计并研究开发一套武警部队心理领域专需数据库,包括文献、成中国论文网x Y$y]u"]i}O

    果、数据资源是我们的出发点。

    {Vb,UFm1?b q0

    分析搜索引擎的工作过程以及实际建库需要,其要完成的是

    6w_vw3V$S0

    一个人工智能系统,就是借助爬虫技术反向解析网络数据库大海中国论文网2r T#Z%n0Q&g

    中最原始的数据,取出数据,组织建立自己的数据库。也就是说爬中国论文网E3OQ`(W5zVr1b"N&K

    行策略的核心是以用户关注的内容为根本,通过一种有效的方法

    J+P@ ZG(D|0

    将内容相关的WebPage 重新分类,这需要爬虫通过多路径搜索对中国论文网0ZHZ| iR4i

    网页进行遍历, 制定爬行策略,对每个工作步骤进行优化设计。中国论文网3Yc8{ X AB _7SC/f

    武警部队心理数据库所需数据目的明确、专业特性非常强,

    -g1G9y"z]Y)g1cfJ }@0

    适合使用垂直搜索。在实际操作过程中,我们使用了垂直深度搜

    w7rY'|)k)O2n0

    索引擎技术利用聚焦爬虫获取心理文献数据。其原理是:爬虫要

    8s5l zB+LI7yP s,v0

    访问的文献数据库一般比较固定(如中国知网),爬取数据时,外中国论文网/xO3x/N$n7I&R4e!V

    层采用通用方法进行主题聚焦,对爬取到的数据进行特征分析,中国论文网$c.{N` \O(u'?

    定位分析,制定爬虫爬取深度,通过一层层定位分析,将数据从最

    't!E U(H0PcmL'IC0

    底层爬取出来。中国论文网^U"oP2Mj1}N

    3 性能优化的技术实现中国论文网:lrB0O6S K

    由于心理数据库主要是针对特殊站点爬取大量的原始数据,中国论文网gC[,T,l*t7sr

    其速度、爬全率以及稳定性是我们考虑的重点,因此在我们的实

    -r S v a4pE0

    验中重点做了数据采集阶段爬虫性能上的改进研究。通常数据采

    iN A7r:E{+E(~0

    集阶段的爬虫使用多线程并行采集(图5),由于这种同步方式线

    {4W6J Jc&kh0

    程太多,发一次请求响应一次,若采集量较大则需要等待挂起,会

    L cY`(gb|![4W*E&q~0

    引起阻塞,造成死机现象,因此我们采取了异步非阻塞的单线程

    Zw G(@,s+F3R0

    方法进行采集。这种串行异步单线程采集方式,可以连续发送请中国论文网U4d:}#k7r

    求,一次发送多个请求,进入队列进行等待回答,因此不会引起阻

    IBl O|p6|'_9Z0

    塞;另外由于抓取URL 后系统要通过DNS 解析分析对URL 进行中国论文网jJQ\ v IG

    分析、消重去噪,在DNS 解析时采取多线程分析,可以缩短系统解中国论文网}!u^'Q5b_e$g

    析时间;对垂直深度聚焦爬虫,由于采取的是针对某类服务器进

    B@PCBI0

    行数据抓取,其ip 地址固定,将DNS 进行缓存,可以实现一次解中国论文网{#D\H/}8Q

    析多次抓取的通道全连接模式,直到完成所有请求之后才断开连

    qhd1s1sHt0

    接,大大提高了采集性能。另外在此过程中,增加容错设计,若某中国论文网,gZq{(l

    一URL 抓取不成功,设定阈值,防止死锁,并将其缓存到另一台服

    4pV9X1U#oB0

    务器上,必要时再重新抓取。中国论文网 C@Ok)o:s.q6]V

    经过上述技术处理后,数据采集爬虫的性能得到了大幅提中国论文网3@1\$q @$g{

    高。以下是抓取结果对比:

    *t$R/Y c%c8gV9aX a0

    表1 抓取网页对比中国论文网"_P|)A\ d

    4 结论与改进中国论文网 Cldwx9S)u

    搜索引擎技术的发展使得大数据时代的专需数据不至于被中国论文网 l\8WW#G0jz*c

    淹没在信息大海中采集不到,但要想数据采集的准确、全面需要

    u'~-~'L7of-E;J0

    在搜索引擎工作的各个阶段进行深入研究提高性能。本文采取异

    vgj6O%C~/Ah7A0

    步非阻塞的爬行策略对心理数据库所需资源进行了垂直深度搜

    I7w#^1fa S5T.[.l:wR0

    索,数据采集性能上有很大提高,下一步将要进行的工作是心理

    q nKb$XU/t(u?0

    专用分词技术以及排序检索算法的研究。

    7d4@DV+I0

    参考文献

    +UFz7dX`!P^RU0

    [1] 李晓明, 闫宏飞, 王继民. 搜索引擎——原理、技术与系统

    #c"H)N:msq qKMq0

    (第二版)[M]. 科学出版社.2012.5

    ;o(@(N6wy!H(]%h6PE0

    [2] 王晓艳, 于光华,刘双春. 经典搜索引擎排序算法的比较与中国论文网-b5c[Q|T k0KO

    分析 [J]. 产业与科技论坛.2012.(11).24:49-51

    !`.So m7^?}v0

    [3] 马慧. 面向特定网页的Web 爬虫的设计与实现 [D]. 吉林大

    2P1SMf,[ uu/p5J0

    学大学.2012.12中国论文网]\i\&_^0?

    [4] 邱晓俊. 面向特殊主题的排序与检索算法研究[D]. 江西理中国论文网6w,U6`^:t1E3h"s

    工大学.2011.12

    k%pg3Ex$Ud(A c0

    [5] 焦赛美. 网络爬虫技术的研究[J]. 琼州学院学报.2011.

    #Ck`aD2HN],WY0

    (18).5:28-30

    8W%\\(L x;ZY1A z4a0

    [6] 罗武,方逵,朱兴辉. 网络搜索引擎排序算法研究进展[J].中国论文网] }A&q P~ g iIe

    湖南农业科学.2010.7 :137-140

    -uy+sKT1th0S0

    [7] 刘喜亮. 面向主题的网络爬虫设计与实现[D]. 湖南大

    sAjSfi5|8]i\0

    学.2009.6

    d_8W/t$h I#g5xe8w0
  • 上一篇             下一篇
发给朋友 分享到朋友圈
  • 回顶部
中国论文网|微信客服:15295038855
本站提供论文发表发表论文核心论文发表
免费论文发表资源,文章只代表作者观点,并不意味着本站认同,部分作品系转载,版权归原作者或相应的机构;若某篇作品侵犯您的权利,请来信告知:lunwenchina@126.com