论文库
  • 首页
  • 论文发表
  • 论文宝库
  • 期刊大全
  • 新闻中心
  • 著作出书
  • 发表流程
  • 关于我们
  • 诚心通道
  • 联系我们
  • 当前位置:主页 ->论文库 ->工学论文
  • 垂直搜索引擎技术在武警部队心理数据库建设中的应用

    2014年2月08日 09:53 作者:孙纳新1,赖江轶1,王玉萍2
    垂直搜索引擎技术在武警部队心理数据库建设中的应用中国论文网'g@E1n'p'ikh V
    孙纳新1,赖江轶1,王玉萍2中国论文网 wMb3[ {/i IN"t
    (1. 武警后勤学院信息技术教研室;2. 武警后勤学院附属医院心理科,300309)中国论文网[3N3n1BZ.F6w
    摘要:垂直搜索引擎技术的发展使得大数据时代特定专业的信息获取成为可能,通过对武警部队心理数据库数据采集过程中中国论文网yT)J&bzf
    使用异步非阻塞聚焦爬虫策略,大大提高了数据采集性能。中国论文网[6@P^8l0?_N
    关键词:垂直搜索引擎;爬虫;心理数据库
    +P/]S#A4p9[4}h#]#?7kE0The Application of Vertical Search Engine Technology On
    "k"TS*oZs'e3|0~"@0Construction of the Armed Police Psychological Database中国论文网.SWNE5ZS5ys
    Sun Naxin1,Lai Jiangyi1,Wang Yuping2中国论文网 Xyd+e.d]2C"kA(o:?#C^
    (Information Technology Department,Logistics University of Chinese People’s Armed police Forces,中国论文网)k"w&D:j.}3A1_
    Tianjin 300309,China )
    2z ^4dsj$a+|F]0Abstract :The development of vertical search engine technology makes acquisition of specific professional
    ~j2_ J E0information possible in the big data era,we greatly improve the data collection performance with asynchronous中国论文网6\4Ft&F#Mm(}z
    non-blocking focused crawler strategy in construction of the armed police psychological database.中国论文网u ~&\r\:V
    Keywords :Vertical search engines;The crawler;Psychological database
    3A9PP2v*x J%^8C0易出现心理问题,所以有关军人心理的研究工作已是当前部队中国论文网)u}7A~kF%g)Gi
    科研的一个重点;而结合武警部队实际,应用当前心理学最新研
    c~YO*Q`U c0究成果,则是现阶段武警部队心理工作的普遍方法。但针对我军中国论文网5WJUS A&eM
    官兵心理特点的科学研究是近一时期才逐步发展并形成的,一方
    a"q Z2VZ1jK0面我们要检索具有武警部队针对性的文献资源,另一方面武警部
    d@6r*R"\:G.|Gy)RZ0队自己的研究点滴也需积累。随着我军信息化进程不断深化,针中国论文网 P5k]-B8_6G5K+|i
    对武警心理研究文献资料的检索查阅以及经验累积已不仅是科中国论文网V2qsF$F
    研人员的工作所需,也逐步成为基层官兵学习心理知识并调整自
    *v!tf r*O5B \h0身心态的一个有效的途径。因此,建立武警部队心理文献索引以中国论文网{sl ]{1JBX!l]
    及心理研究数据的武警部队心理数据库具有极大的实用意义。本中国论文网+N M&`[;| LF t0gh
    文将主要论述如何利用垂直深度搜索引擎技术实现心理数据库中国论文网zj8v]LG
    的数据采集和萃取。
    jIoz2F9RCR01 搜索引擎技术中国论文网 rd#xOQ"}w
    图1 搜索引擎工作原理中国论文网-h7jx_*WVXL
    搜索引擎技术是指用户通过查询界面输入搜索信息,通过网
    do1K^L6hwr;z0络或数据库得到相关信息反馈的技术,搜索引擎的工作原理如图中国论文网,c%`(^ e-l"h
    1 所示。目前常用的搜索引擎有采用通用搜索引擎技术的囊括所
    7H;IP ]ze3{)a;p0有学科和主题的综合性搜索(如google、百度等)、采用垂直搜索中国论文网3d}D&I)x(E
    引擎技术面向特定学科和专业的专业搜索引擎以及面向搜索引
    P yE5N @0dd0擎的搜索引擎指南。垂直搜索引擎基于结构化数据和元数据的结中国论文网{3c'x5t8CU,~"u
    构化抓取,因此使抓取的数据更符合专业特点、有针对性,用户可
    a7^*wz3[5HHYVU0以利用这种技术从互联网、外部数据库抓取自己需要的信息构建中国论文网4Z V"Y.fJ Rv E
    自己的数据库应用系统,利用垂直搜索引擎进行数据采掘的搜索中国论文网 k+F `h| k
    引擎技术是我们实现心理数据库信息采集的基础,如图2 所示。
    w:A`e1P |0搜索引擎主要是利用爬虫(Spider)程序去自动地在互联网中国论文网V.rm0m,Q"B
    中搜索信息,主要有以下几个部分构成:数据采集(抓取)、数据
    3Y*j#MYZ*TR0处理(筛选去噪去重)以及数据存储,图3、4 分别是它的体系结中国论文网.Zq-p&YjM w0^9B
    构和系统结构。网页由文本、图片以及链接等元素构成,搜索引擎中国论文网q'M7j7b4bb}z
    根据用户需求,选定一个种子,利用爬虫开始抓取
    )[?|Z y/r _ _/LI0另一个网页,遍历各个相关站点,把符合要求的页面抓取到索引
    .Sgq.|0I8Q8KW FB(a0库采集资料。从数据采集的角度来看,用户关心的是数据资源,中国论文网UdDp/LKM
    Internet 上的网页以及数据库就是一个巨大的数据资源矿山,
    (c@+w Nd `5stbJZ_0搜索引擎是开采数据资源矿山的机器,具有搜索勘探、提炼萃取、
    O-z1v$c0E0收集存储的功能。而对搜索引擎技术的研究就集中在各个采集阶
    0P%Qi5M Y\ l(I+eo/x:M_0段,主要涉及到爬行策略(爬虫)、分词技术、索引(存储)、排序检
    i5i*LCs9Gw i3h a8^0索算法等。中国论文网f!zG2gbi
    2 垂直深度搜索引擎技术与部队心理数据库
    !c6cl3@?U"w0随着互联网信息化的深入发展,出现了大量业务型Web 应用中国论文网ap+Y*@+Eq1r
    系统即Web 数据库。这些数据库的web 面之间的关系是非平行的
    ?CI#qn W~f)X0垂直逻辑关系,垂直搜索引擎应运而生。它针对某一特定行业对中国论文网$_r(w2MAuR?G L
    网页库中的某类专门信息进行整合,可以定向挖掘专用数据进行
    ;}'uR7]8nk)c0处理,再以用户需要的某种形式返回给用户。武警部队心理科研
    8mB'f _g0成果、资源数据及心理学文献材料通常分散收录于多个文献数据
    h_+nu2W};m8e;g0库以及某些特殊数据库内,不但检索查阅不便效率低下,其覆盖中国论文网;@(}*}t o[+`
    范围也不足,经常存在“坏链”“死链”现象;采取通常方法检索,中国论文网7dN!es.{\!qF4z
    其搜索结果均是基于关键字的简单拆分查询,不具备高级关键字中国论文网HETh%~C"Y }:?+v
    分析处理功能,更达不到心理领域的专需效果,而且各文献数据中国论文网!_(U _W,G.K7Xm#N3Ta
    库产品不同形式的人机交互界面(UI)也为科学检索带来了不便,
    1sh:w5k%mQ9b Q0因此利用垂直搜索引擎技术完成心理学专业相关的信息采集,设中国论文网0hk @)F(v;QO&m?)n6h
    计并研究开发一套武警部队心理领域专需数据库,包括文献、成中国论文网 B Xs]Mg0_
    果、数据资源是我们的出发点。中国论文网aqp!n VF
    分析搜索引擎的工作过程以及实际建库需要,其要完成的是
    OW$X(BmvR?Mf0一个人工智能系统,就是借助爬虫技术反向解析网络数据库大海中国论文网Hp0^ct;}1}"h
    中最原始的数据,取出数据,组织建立自己的数据库。也就是说爬中国论文网f$Zq;w3j]:V)Th
    行策略的核心是以用户关注的内容为根本,通过一种有效的方法
    } oU ~D"k)A4dT0将内容相关的WebPage 重新分类,这需要爬虫通过多路径搜索对中国论文网+_(@8V9Y#M%f
    网页进行遍历, 制定爬行策略,对每个工作步骤进行优化设计。
    4mc*a9AYj0武警部队心理数据库所需数据目的明确、专业特性非常强,
    CXKB)nh1l0适合使用垂直搜索。在实际操作过程中,我们使用了垂直深度搜中国论文网~(F5j#a:l^X%x:ht
    索引擎技术利用聚焦爬虫获取心理文献数据。其原理是:爬虫要中国论文网jeG c0LQ
    访问的文献数据库一般比较固定(如中国知网),爬取数据时,外中国论文网,[0I&jja
    层采用通用方法进行主题聚焦,对爬取到的数据进行特征分析,
    V-HWV:r%L&^Am/N0定位分析,制定爬虫爬取深度,通过一层层定位分析,将数据从最
    PSE\%G H0底层爬取出来。
    1|0g4`${!Pg03 性能优化的技术实现中国论文网 B U.W \1Mfx-^Y
    由于心理数据库主要是针对特殊站点爬取大量的原始数据,
    P1Q"Hz"hT'oT0其速度、爬全率以及稳定性是我们考虑的重点,因此在我们的实中国论文网$r0L \Zw Pz)?8O
    验中重点做了数据采集阶段爬虫性能上的改进研究。通常数据采
    x_ eF'~6~5D0集阶段的爬虫使用多线程并行采集(图5),由于这种同步方式线中国论文网R4w8H"t)k'R2K&XC*K
    程太多,发一次请求响应一次,若采集量较大则需要等待挂起,会中国论文网I6a&~ mM?Yed
    引起阻塞,造成死机现象,因此我们采取了异步非阻塞的单线程
    %_$P~0QxV3E0方法进行采集。这种串行异步单线程采集方式,可以连续发送请中国论文网+\As5MX9Gh
    求,一次发送多个请求,进入队列进行等待回答,因此不会引起阻
    ^~'lv]~D7Q0塞;另外由于抓取URL 后系统要通过DNS 解析分析对URL 进行中国论文网VPL+x&?"W3c
    分析、消重去噪,在DNS 解析时采取多线程分析,可以缩短系统解中国论文网H%I[m4a"~
    析时间;对垂直深度聚焦爬虫,由于采取的是针对某类服务器进中国论文网;j+zC kG7m
    行数据抓取,其ip 地址固定,将DNS 进行缓存,可以实现一次解
    2^ YkP(SYJ&b M0析多次抓取的通道全连接模式,直到完成所有请求之后才断开连
    K {%M ym8N&h4el0接,大大提高了采集性能。另外在此过程中,增加容错设计,若某
    8J5X VK1IN0一URL 抓取不成功,设定阈值,防止死锁,并将其缓存到另一台服
    '}W7iP }0务器上,必要时再重新抓取。
    lr(t^/n0经过上述技术处理后,数据采集爬虫的性能得到了大幅提中国论文网E+Jv;adG5} tH.AP
    高。以下是抓取结果对比:中国论文网7JsZP`fU9r)B n&n
    表1 抓取网页对比
    ] ImwDx04 结论与改进中国论文网i;eKO7j
    搜索引擎技术的发展使得大数据时代的专需数据不至于被中国论文网,UkT,g5O#R2d#b
    淹没在信息大海中采集不到,但要想数据采集的准确、全面需要
    j#B4[2s*tSp-P0在搜索引擎工作的各个阶段进行深入研究提高性能。本文采取异
    ,h@W0OB,b H7])z|o0步非阻塞的爬行策略对心理数据库所需资源进行了垂直深度搜中国论文网zX,YG)\-g2Y2E
    索,数据采集性能上有很大提高,下一步将要进行的工作是心理中国论文网0t.S Ka&F'zK rw
    专用分词技术以及排序检索算法的研究。
    -A+a2^^U`-N |k0参考文献中国论文网3Bc:Z.@a"@w
    [1] 李晓明, 闫宏飞, 王继民. 搜索引擎——原理、技术与系统中国论文网/d^1@ O'x8\US5e?
    (第二版)[M]. 科学出版社.2012.5
    *@L:v;W%h$F0[2] 王晓艳, 于光华,刘双春. 经典搜索引擎排序算法的比较与
    0_ G.I b S y_.@:FR0分析 [J]. 产业与科技论坛.2012.(11).24:49-51中国论文网c){9?.g u U5s`2aG
    [3] 马慧. 面向特定网页的Web 爬虫的设计与实现 [D]. 吉林大中国论文网j-m?S1?-w.l
    学大学.2012.12
    :UCV ^u-K"p0[4] 邱晓俊. 面向特殊主题的排序与检索算法研究[D]. 江西理中国论文网t,yOR eU"j3Ja'f0u
    工大学.2011.12
    $m.yrB!F._/b7v1c]0[5] 焦赛美. 网络爬虫技术的研究[J]. 琼州学院学报.2011.中国论文网!{4s[ [^$g*c `CH2W
    (18).5:28-30中国论文网Ss@0n6mU4[9Ye.w
    [6] 罗武,方逵,朱兴辉. 网络搜索引擎排序算法研究进展[J].中国论文网[1US5LP^C
    湖南农业科学.2010.7 :137-140
    &~S e"L'i:YT0[7] 刘喜亮. 面向主题的网络爬虫设计与实现[D]. 湖南大
    6TMQ1nWVj _)k0学.2009.6中国论文网 P6G2j,Hyt5_\5S9|
  • 上一篇             下一篇
发给朋友 分享到朋友圈
  • 回顶部
中国论文网|微信客服:15295038855
本站提供论文发表发表论文核心论文发表
免费论文发表资源,文章只代表作者观点,并不意味着本站认同,部分作品系转载,版权归原作者或相应的机构;若某篇作品侵犯您的权利,请来信告知:lunwenchina@126.com