论文库
  • 首页
  • 论文发表
  • 论文宝库
  • 期刊大全
  • 新闻中心
  • 著作出书
  • 发表流程
  • 关于我们
  • 诚心通道
  • 联系我们
  • 当前位置:主页 ->论文库 ->工学论文
  • 垂直搜索引擎技术在武警部队心理数据库建设中的应用

    2014年1月21日 10:35 作者:孙纳新1,赖江轶1,王玉萍2

    垂直搜索引擎技术在武警部队心理数据库建设中的应用

    6orZ-^ C t!B0z0

    孙纳新1,赖江轶1,王玉萍2

    yVW;QE Qv0

    (1. 武警后勤学院信息技术教研室;2. 武警后勤学院附属医院心理科,300309)

    ,v3Vi:B hO0

    摘要:垂直搜索引擎技术的发展使得大数据时代特定专业的信息获取成为可能,通过对武警部队心理数据库数据采集过程中中国论文网J fQP As*o"x

    使用异步非阻塞聚焦爬虫策略,大大提高了数据采集性能。

    G Io#yW)ECU0

    关键词:垂直搜索引擎;爬虫;心理数据库

    5\zjeq T0

    The Application of Vertical Search Engine Technology On

    7tK D7tIy(QC0

    Construction of the Armed Police Psychological Database

    #AKp#~D4[0

    Sun Naxin1,Lai Jiangyi1,Wang Yuping2

    b+f? A*DM0

    (Information Technology Department,Logistics University of Chinese People’s Armed police Forces,

    Y@\ K3Z7\j0

    Tianjin 300309,China )

    E"E Q!Ss z0

    Abstract :The development of vertical search engine technology makes acquisition of specific professional中国论文网6W"G gj*M`%e9X |

    information possible in the big data era,we greatly improve the data collection performance with asynchronous中国论文网4oRg-~"x"W

    non-blocking focused crawler strategy in construction of the armed police psychological database.

    #F/ie6G d s.P0

    Keywords :Vertical search engines;The crawler;Psychological database中国论文网U-e Jf!wBG

    易出现心理问题,所以有关军人心理的研究工作已是当前部队

    5F|!PO#`(R(O0

    科研的一个重点;而结合武警部队实际,应用当前心理学最新研中国论文网gP {6u7jW+Z

    究成果,则是现阶段武警部队心理工作的普遍方法。但针对我军

    +I0s y LdB.Gtc\\{v0

    官兵心理特点的科学研究是近一时期才逐步发展并形成的,一方

    $UaZs)wr}J0

    面我们要检索具有武警部队针对性的文献资源,另一方面武警部

    [ewW'}8N0}0

    队自己的研究点滴也需积累。随着我军信息化进程不断深化,针中国论文网b,st V.`q+}Yx

    对武警心理研究文献资料的检索查阅以及经验累积已不仅是科

    ;Ns1g6v'I&Sv$D0

    研人员的工作所需,也逐步成为基层官兵学习心理知识并调整自

    Yi wXm;a0

    身心态的一个有效的途径。因此,建立武警部队心理文献索引以中国论文网$||'d;{UD Ee

    及心理研究数据的武警部队心理数据库具有极大的实用意义。本

    :_6r B"Hw-cS0

    文将主要论述如何利用垂直深度搜索引擎技术实现心理数据库

    v{:]y&X+b6|0

    的数据采集和萃取。中国论文网+cWJY C+xhcN5G,]

    1 搜索引擎技术

    Yj,m7GZF0

    图1 搜索引擎工作原理中国论文网_9j xU5N!`}ao5H6l2l

    搜索引擎技术是指用户通过查询界面输入搜索信息,通过网中国论文网,U^-fk(V ^X,_K

    络或数据库得到相关信息反馈的技术,搜索引擎的工作原理如图中国论文网a0I0v*q_H"s

    1 所示。目前常用的搜索引擎有采用通用搜索引擎技术的囊括所

    Z1W{1M)s~(R3e0

    有学科和主题的综合性搜索(如google、百度等)、采用垂直搜索

    5Mx6W)B&M!y T0

    引擎技术面向特定学科和专业的专业搜索引擎以及面向搜索引中国论文网S jc$\A:aZ

    擎的搜索引擎指南。垂直搜索引擎基于结构化数据和元数据的结

    j T[S"SaH0

    构化抓取,因此使抓取的数据更符合专业特点、有针对性,用户可

    2J%P{.N/Fl0M0

    以利用这种技术从互联网、外部数据库抓取自己需要的信息构建

    VB/u,{5fWxJh(x+K0

    自己的数据库应用系统,利用垂直搜索引擎进行数据采掘的搜索

    [x;W e0U.EC0

    引擎技术是我们实现心理数据库信息采集的基础,如图2 所示。

    /}5c5h'`b]M)nsD(g0

    搜索引擎主要是利用爬虫(Spider)程序去自动地在互联网中国论文网-dNs3~r j

    中搜索信息,主要有以下几个部分构成:数据采集(抓取)、数据中国论文网'O'oq8Bkkf

    处理(筛选去噪去重)以及数据存储,图3、4 分别是它的体系结中国论文网~+GYb&k(D R ]$G s8J

    构和系统结构。网页由文本、图片以及链接等元素构成,搜索引擎

    NiP8XODc0

    根据用户需求,选定一个种子,利用爬虫开始抓取

    (j1I2Q9s q}0

    另一个网页,遍历各个相关站点,把符合要求的页面抓取到索引中国论文网y ~^&b3x%KZ

    库采集资料。从数据采集的角度来看,用户关心的是数据资源,

    gGL{XF*Vn h0

    Internet 上的网页以及数据库就是一个巨大的数据资源矿山,中国论文网F[KV}"v

    搜索引擎是开采数据资源矿山的机器,具有搜索勘探、提炼萃取、中国论文网,EO8plC!d c

    收集存储的功能。而对搜索引擎技术的研究就集中在各个采集阶

    &b4Y:S!Q*U*o2U'?]0

    段,主要涉及到爬行策略(爬虫)、分词技术、索引(存储)、排序检中国论文网bX%t1j.hrg `

    索算法等。

    a6\G#X}*O0

    2 垂直深度搜索引擎技术与部队心理数据库中国论文网O&X"X r5I$h

    随着互联网信息化的深入发展,出现了大量业务型Web 应用中国论文网Q|d!Sk Nh._

    系统即Web 数据库。这些数据库的web 面之间的关系是非平行的中国论文网3[0C6B9w5D$\'_&n&j4k `

    垂直逻辑关系,垂直搜索引擎应运而生。它针对某一特定行业对

    1R-mX-z7wD6{!O+W$`0

    网页库中的某类专门信息进行整合,可以定向挖掘专用数据进行中国论文网 OSg)K\.w(@

    处理,再以用户需要的某种形式返回给用户。武警部队心理科研

    /w9H:} KyT0g[u0

    成果、资源数据及心理学文献材料通常分散收录于多个文献数据中国论文网j(Tu}%NQ,\3cI)vZ

    库以及某些特殊数据库内,不但检索查阅不便效率低下,其覆盖中国论文网E$BaQ Q}[

    范围也不足,经常存在“坏链”“死链”现象;采取通常方法检索,中国论文网%rU5D7e5G2k

    其搜索结果均是基于关键字的简单拆分查询,不具备高级关键字

    "bd&A'n8ya0

    分析处理功能,更达不到心理领域的专需效果,而且各文献数据中国论文网6IMNc-P [2_

    库产品不同形式的人机交互界面(UI)也为科学检索带来了不便,

    'f}A"gX9l0

    因此利用垂直搜索引擎技术完成心理学专业相关的信息采集,设中国论文网KjrdU?#K$_'L8?

    计并研究开发一套武警部队心理领域专需数据库,包括文献、成

    /a,p*g&M\o?\H0

    果、数据资源是我们的出发点。中国论文网v/~Sm;sm*G? i

    分析搜索引擎的工作过程以及实际建库需要,其要完成的是

    {lz:v9ira0

    一个人工智能系统,就是借助爬虫技术反向解析网络数据库大海

    8oA:nq1h+R'J ]*t%JB0

    中最原始的数据,取出数据,组织建立自己的数据库。也就是说爬

    uA*_ V&P&^G6I0

    行策略的核心是以用户关注的内容为根本,通过一种有效的方法

    )w,OLm+Y0

    将内容相关的WebPage 重新分类,这需要爬虫通过多路径搜索对

    GS_v{6@ DU9Eb0

    网页进行遍历, 制定爬行策略,对每个工作步骤进行优化设计。中国论文网#wHL Z1?

    武警部队心理数据库所需数据目的明确、专业特性非常强,

    #f#O#XEF6d0

    适合使用垂直搜索。在实际操作过程中,我们使用了垂直深度搜中国论文网1vVh"DI%C

    索引擎技术利用聚焦爬虫获取心理文献数据。其原理是:爬虫要中国论文网,_xm4o^ f3~6s

    访问的文献数据库一般比较固定(如中国知网),爬取数据时,外中国论文网X9G WI7rB7W7^J

    层采用通用方法进行主题聚焦,对爬取到的数据进行特征分析,

    u/`7m~Fo8`eY,x7f0

    定位分析,制定爬虫爬取深度,通过一层层定位分析,将数据从最

    xWE&KSTm6Gg0

    底层爬取出来。

    'Sl B^@"L,L3Bx,G5BD0

    3 性能优化的技术实现

    8BC/Qt` I(L/\0

    由于心理数据库主要是针对特殊站点爬取大量的原始数据,

    h)w#@5E:OU0

    其速度、爬全率以及稳定性是我们考虑的重点,因此在我们的实

    nH+\p u6]8d9l0

    验中重点做了数据采集阶段爬虫性能上的改进研究。通常数据采中国论文网@\D C t1GY]%]

    集阶段的爬虫使用多线程并行采集(图5),由于这种同步方式线

    :rfIHA0

    程太多,发一次请求响应一次,若采集量较大则需要等待挂起,会中国论文网G6B7`?q#T%c| Q

    引起阻塞,造成死机现象,因此我们采取了异步非阻塞的单线程中国论文网Y2]WS0Ey `t

    方法进行采集。这种串行异步单线程采集方式,可以连续发送请

    | D.V;q(qt0

    求,一次发送多个请求,进入队列进行等待回答,因此不会引起阻中国论文网$Ui)O,j9h WY.osG

    塞;另外由于抓取URL 后系统要通过DNS 解析分析对URL 进行中国论文网;h m {*O&imi

    分析、消重去噪,在DNS 解析时采取多线程分析,可以缩短系统解中国论文网-]"c6?/s;Noo

    析时间;对垂直深度聚焦爬虫,由于采取的是针对某类服务器进中国论文网*H+` \%E E ?

    行数据抓取,其ip 地址固定,将DNS 进行缓存,可以实现一次解中国论文网6h;[2}*n"j&F%P'ny

    析多次抓取的通道全连接模式,直到完成所有请求之后才断开连中国论文网F.{"J?:B~Y*p*jZ

    接,大大提高了采集性能。另外在此过程中,增加容错设计,若某

    5tB)_g3[#DCV0

    一URL 抓取不成功,设定阈值,防止死锁,并将其缓存到另一台服中国论文网'm%CD7dg hxK2z

    务器上,必要时再重新抓取。中国论文网&c `BAZ1K"k

    经过上述技术处理后,数据采集爬虫的性能得到了大幅提

    -Lh:B)B3O ^A,p0

    高。以下是抓取结果对比:

    'Y!x$D(I"]y0

    表1 抓取网页对比

    ?(x2Bp[)L_k5D;v,eu0

    4 结论与改进中国论文网X/@x)q5Ikih

    搜索引擎技术的发展使得大数据时代的专需数据不至于被中国论文网%WZ"vn"Qm8Q.}O

    淹没在信息大海中采集不到,但要想数据采集的准确、全面需要中国论文网Q-u(r`[}UpA/V

    在搜索引擎工作的各个阶段进行深入研究提高性能。本文采取异

    6zO5Sx&G0

    步非阻塞的爬行策略对心理数据库所需资源进行了垂直深度搜

    oD.H g%rF ];E0

    索,数据采集性能上有很大提高,下一步将要进行的工作是心理

    ku1|.T\3G7oWS.AL0

    专用分词技术以及排序检索算法的研究。中国论文网&Z[d$C~?H g j+r4U

    参考文献中国论文网-c)V:lJ VqP)p@JO

    [1] 李晓明, 闫宏飞, 王继民. 搜索引擎——原理、技术与系统中国论文网 qdZ+G(s

    (第二版)[M]. 科学出版社.2012.5中国论文网+^w veo"P~6j'r

    [2] 王晓艳, 于光华,刘双春. 经典搜索引擎排序算法的比较与

    ;[ cG5`#w/d*w*lQ0

    分析 [J]. 产业与科技论坛.2012.(11).24:49-51

    4a9i a.y.`M[0

    [3] 马慧. 面向特定网页的Web 爬虫的设计与实现 [D]. 吉林大中国论文网9C)K@ EktTTb

    学大学.2012.12

    f} OOk4f#@&pI0

    [4] 邱晓俊. 面向特殊主题的排序与检索算法研究[D]. 江西理中国论文网(MyDvo dh

    工大学.2011.12中国论文网sN}4j9m:I~,P

    [5] 焦赛美. 网络爬虫技术的研究[J]. 琼州学院学报.2011.中国论文网!`s3P*fP:kF-^Rhp

    (18).5:28-30中国论文网9vbC:r!c5OM

    [6] 罗武,方逵,朱兴辉. 网络搜索引擎排序算法研究进展[J].中国论文网2B xwKbkv i`

    湖南农业科学.2010.7 :137-140

    pwKi [Mpa,M"f0

    [7] 刘喜亮. 面向主题的网络爬虫设计与实现[D]. 湖南大

    /cRl*^%]+S!_t8su6]0

    学.2009.6中国论文网 PJ#OL+b6PN

  • 上一篇             下一篇
发给朋友 分享到朋友圈
  • 回顶部
中国论文网|微信客服:15295038855
本站提供论文发表发表论文核心论文发表
免费论文发表资源,文章只代表作者观点,并不意味着本站认同,部分作品系转载,版权归原作者或相应的机构;若某篇作品侵犯您的权利,请来信告知:lunwenchina@126.com