论文库
  • 首页
  • 论文发表
  • 论文宝库
  • 期刊大全
  • 新闻中心
  • 著作出书
  • 发表流程
  • 关于我们
  • 诚心通道
  • 联系我们
  • 当前位置:主页 ->论文库 ->工学论文
  • 垂直搜索引擎技术在武警部队心理数据库建设中的应用

    2014年2月08日 09:53 作者:孙纳新1,赖江轶1,王玉萍2
    垂直搜索引擎技术在武警部队心理数据库建设中的应用
    U&Et5pW\u6@/r0孙纳新1,赖江轶1,王玉萍2中国论文网~#Vo,j(]8`]^(`
    (1. 武警后勤学院信息技术教研室;2. 武警后勤学院附属医院心理科,300309)中国论文网 i5_ \LbN?YC
    摘要:垂直搜索引擎技术的发展使得大数据时代特定专业的信息获取成为可能,通过对武警部队心理数据库数据采集过程中
    +o,S vR ~G ^3Q0使用异步非阻塞聚焦爬虫策略,大大提高了数据采集性能。
    t!C9d6Kli0关键词:垂直搜索引擎;爬虫;心理数据库中国论文网]NUfH&X
    The Application of Vertical Search Engine Technology On
    5y!N&V+Q5rfu6u&\0Construction of the Armed Police Psychological Database中国论文网(A,C,GG-o8F
    Sun Naxin1,Lai Jiangyi1,Wang Yuping2
    Nx.|7X kFx2m,o&j0(Information Technology Department,Logistics University of Chinese People’s Armed police Forces,
    J*?e4NN%jMf0Tianjin 300309,China )
    &Hi'Nb7X0Abstract :The development of vertical search engine technology makes acquisition of specific professional中国论文网] e4f B;^/X3k8X}
    information possible in the big data era,we greatly improve the data collection performance with asynchronous
    "E7@+f"T Y ?!A.it aj2S0non-blocking focused crawler strategy in construction of the armed police psychological database.
    O/f y1`KM0Keywords :Vertical search engines;The crawler;Psychological database
    'JF0~P[+~ EV+Q0易出现心理问题,所以有关军人心理的研究工作已是当前部队中国论文网 ?yOg3n
    科研的一个重点;而结合武警部队实际,应用当前心理学最新研中国论文网]1|%`{3R,MN
    究成果,则是现阶段武警部队心理工作的普遍方法。但针对我军
    \)N.N3b(|F0官兵心理特点的科学研究是近一时期才逐步发展并形成的,一方
    7Z{J:MTnp0面我们要检索具有武警部队针对性的文献资源,另一方面武警部中国论文网$YD_U4yzWfx/n
    队自己的研究点滴也需积累。随着我军信息化进程不断深化,针
    3i8N`M orEyI0对武警心理研究文献资料的检索查阅以及经验累积已不仅是科中国论文网1^ kI"zm#aL"yRaE+?
    研人员的工作所需,也逐步成为基层官兵学习心理知识并调整自中国论文网5h0c7dLCK*QZZ
    身心态的一个有效的途径。因此,建立武警部队心理文献索引以中国论文网T:z(\!F_I O+J
    及心理研究数据的武警部队心理数据库具有极大的实用意义。本
    .A0\0m fe0文将主要论述如何利用垂直深度搜索引擎技术实现心理数据库中国论文网f \B#L |`uO
    的数据采集和萃取。中国论文网 Aoc6u4P5D @t }]
    1 搜索引擎技术
    ;[ m gg Q] u0图1 搜索引擎工作原理中国论文网fI U7~0h
    搜索引擎技术是指用户通过查询界面输入搜索信息,通过网
    |Q0["{5d?0络或数据库得到相关信息反馈的技术,搜索引擎的工作原理如图
    T@7`g.VR5hUtO*~01 所示。目前常用的搜索引擎有采用通用搜索引擎技术的囊括所中国论文网 [(c&TK%Z0A!yQV
    有学科和主题的综合性搜索(如google、百度等)、采用垂直搜索
    $k(hU]6s%z P)n%asb0引擎技术面向特定学科和专业的专业搜索引擎以及面向搜索引
    7o L cDW$N0擎的搜索引擎指南。垂直搜索引擎基于结构化数据和元数据的结
    Pz `W8a+G+{f0构化抓取,因此使抓取的数据更符合专业特点、有针对性,用户可
    )\:m2r/UYV:\R{T0以利用这种技术从互联网、外部数据库抓取自己需要的信息构建中国论文网d9kTI Q:EG\4t
    自己的数据库应用系统,利用垂直搜索引擎进行数据采掘的搜索中国论文网} GeO"\P~f0H
    引擎技术是我们实现心理数据库信息采集的基础,如图2 所示。
    uS%JY L"rP3vV0搜索引擎主要是利用爬虫(Spider)程序去自动地在互联网中国论文网X rxj&d X*c
    中搜索信息,主要有以下几个部分构成:数据采集(抓取)、数据
    CVTRC9S(CR0处理(筛选去噪去重)以及数据存储,图3、4 分别是它的体系结中国论文网 Uun U[(] v[
    构和系统结构。网页由文本、图片以及链接等元素构成,搜索引擎
    ` x:c2f&UBC)z0根据用户需求,选定一个种子,利用爬虫开始抓取
    j0s _3y-R&Ka0另一个网页,遍历各个相关站点,把符合要求的页面抓取到索引
    3Z%?!p7Dhx0库采集资料。从数据采集的角度来看,用户关心的是数据资源,
    ?{*n0I'@ VP0Internet 上的网页以及数据库就是一个巨大的数据资源矿山,
    [cXIa4g%~0搜索引擎是开采数据资源矿山的机器,具有搜索勘探、提炼萃取、
    S:n"P FO0收集存储的功能。而对搜索引擎技术的研究就集中在各个采集阶中国论文网} U8P%Y!q(i"c5w
    段,主要涉及到爬行策略(爬虫)、分词技术、索引(存储)、排序检中国论文网;LBEI[5m7Gr
    索算法等。
    ,rR\;Tu[n$R:|02 垂直深度搜索引擎技术与部队心理数据库中国论文网rg_,F @l f3sL-R
    随着互联网信息化的深入发展,出现了大量业务型Web 应用
    w"u U,Q\Ps0系统即Web 数据库。这些数据库的web 面之间的关系是非平行的
    8~_QXFI8U$C#P0垂直逻辑关系,垂直搜索引擎应运而生。它针对某一特定行业对中国论文网uk"\j:R] G
    网页库中的某类专门信息进行整合,可以定向挖掘专用数据进行中国论文网H,c6q[1q+ruz
    处理,再以用户需要的某种形式返回给用户。武警部队心理科研中国论文网 F d o#y&s1Y6g9@
    成果、资源数据及心理学文献材料通常分散收录于多个文献数据
    w M X-]"f:Pz0库以及某些特殊数据库内,不但检索查阅不便效率低下,其覆盖
    h2x4j$PY9]}-T0范围也不足,经常存在“坏链”“死链”现象;采取通常方法检索,中国论文网HN)Os:`J d2q)MK
    其搜索结果均是基于关键字的简单拆分查询,不具备高级关键字中国论文网+}/iS1]-h`
    分析处理功能,更达不到心理领域的专需效果,而且各文献数据
    y-]9J[@ rn8B0库产品不同形式的人机交互界面(UI)也为科学检索带来了不便,中国论文网 ]&{1TO4c@3X
    因此利用垂直搜索引擎技术完成心理学专业相关的信息采集,设
    FFd\ue"Pm\0计并研究开发一套武警部队心理领域专需数据库,包括文献、成中国论文网'j:X5viCH}!? Q8J8[
    果、数据资源是我们的出发点。
    F!}O{k y9f0分析搜索引擎的工作过程以及实际建库需要,其要完成的是
    %s@,Y:ux j#K0一个人工智能系统,就是借助爬虫技术反向解析网络数据库大海
    gK8rEf:@`0中最原始的数据,取出数据,组织建立自己的数据库。也就是说爬中国论文网B2d![Q(^
    行策略的核心是以用户关注的内容为根本,通过一种有效的方法
    #Ze7E,~G R0将内容相关的WebPage 重新分类,这需要爬虫通过多路径搜索对中国论文网dg(X)U9t"V$?Z+i
    网页进行遍历, 制定爬行策略,对每个工作步骤进行优化设计。
    KPM go Ag"A'[;lT0武警部队心理数据库所需数据目的明确、专业特性非常强,中国论文网&D!G%[3mVdu
    适合使用垂直搜索。在实际操作过程中,我们使用了垂直深度搜
    9U2cd%QIg#U N0索引擎技术利用聚焦爬虫获取心理文献数据。其原理是:爬虫要
    !G8W6^|*aOC(o y6R0访问的文献数据库一般比较固定(如中国知网),爬取数据时,外中国论文网:d Qh| @j|P0R'U
    层采用通用方法进行主题聚焦,对爬取到的数据进行特征分析,
    ] Ey)i@{H0定位分析,制定爬虫爬取深度,通过一层层定位分析,将数据从最中国论文网6U Brgz.t3~w
    底层爬取出来。中国论文网A(O-z8fz$D$AD\s
    3 性能优化的技术实现
    L pRA#`F&F0由于心理数据库主要是针对特殊站点爬取大量的原始数据,中国论文网,lM^&~5a9I:QM
    其速度、爬全率以及稳定性是我们考虑的重点,因此在我们的实中国论文网&Ujn7Hi
    验中重点做了数据采集阶段爬虫性能上的改进研究。通常数据采中国论文网Pmi#ot pH
    集阶段的爬虫使用多线程并行采集(图5),由于这种同步方式线
    1]"xJ"b*Vl*j.P0程太多,发一次请求响应一次,若采集量较大则需要等待挂起,会中国论文网 efS:m5L E9v8u
    引起阻塞,造成死机现象,因此我们采取了异步非阻塞的单线程
    [ liNp2a^6?0方法进行采集。这种串行异步单线程采集方式,可以连续发送请中国论文网/E*iJ;Pd x2Eq
    求,一次发送多个请求,进入队列进行等待回答,因此不会引起阻
    0B7Ro| OF0y0塞;另外由于抓取URL 后系统要通过DNS 解析分析对URL 进行
    :g'U0m.bB0分析、消重去噪,在DNS 解析时采取多线程分析,可以缩短系统解
    |K.AQK8{7^R9H0析时间;对垂直深度聚焦爬虫,由于采取的是针对某类服务器进
    ]#B1Z3GY)A0行数据抓取,其ip 地址固定,将DNS 进行缓存,可以实现一次解
    8C)HT-V7sK0析多次抓取的通道全连接模式,直到完成所有请求之后才断开连
    %Aq9lD$I?0接,大大提高了采集性能。另外在此过程中,增加容错设计,若某中国论文网mH0R'n*o)ov!Y
    一URL 抓取不成功,设定阈值,防止死锁,并将其缓存到另一台服
    w}0L#\F(EDC0务器上,必要时再重新抓取。
    .mgY9cPJ:VZ0经过上述技术处理后,数据采集爬虫的性能得到了大幅提中国论文网 Mgv/Pl@L3s0H ~
    高。以下是抓取结果对比:中国论文网y.`8YY F:S)Ec#z
    表1 抓取网页对比中国论文网g%xq(T J1DXli
    4 结论与改进中国论文网Y4ol'o-s {(c
    搜索引擎技术的发展使得大数据时代的专需数据不至于被
    'd6|)L3U/QrW G2H0淹没在信息大海中采集不到,但要想数据采集的准确、全面需要中国论文网 {g"R qT-K
    在搜索引擎工作的各个阶段进行深入研究提高性能。本文采取异
    )u@+lu8P]g0步非阻塞的爬行策略对心理数据库所需资源进行了垂直深度搜中国论文网#~ISwB8}E![ W T
    索,数据采集性能上有很大提高,下一步将要进行的工作是心理中国论文网(wO(sD_u C
    专用分词技术以及排序检索算法的研究。
    !e rb1_J a0参考文献中国论文网J/a$Rg,t
    [1] 李晓明, 闫宏飞, 王继民. 搜索引擎——原理、技术与系统中国论文网;S5s.QX9S i%X*o%d!E
    (第二版)[M]. 科学出版社.2012.5中国论文网x3H4U H {5~#Q
    [2] 王晓艳, 于光华,刘双春. 经典搜索引擎排序算法的比较与
    lv2@}(LJ0分析 [J]. 产业与科技论坛.2012.(11).24:49-51
    wl(f"H4Q0[3] 马慧. 面向特定网页的Web 爬虫的设计与实现 [D]. 吉林大
    z/s"_l2S Cm0学大学.2012.12中国论文网$SG8r-n&T@K\.j
    [4] 邱晓俊. 面向特殊主题的排序与检索算法研究[D]. 江西理中国论文网"EH r,y*C3f X+h7H(c
    工大学.2011.12
    ]:R\hONPsk:[0[5] 焦赛美. 网络爬虫技术的研究[J]. 琼州学院学报.2011.
    r)N9d C"@0(18).5:28-30中国论文网%n4].S"l*R(n/t1q,{g
    [6] 罗武,方逵,朱兴辉. 网络搜索引擎排序算法研究进展[J].中国论文网~*_ XB?;P8j
    湖南农业科学.2010.7 :137-140
    S*J'v H1wR#F G)hr0[7] 刘喜亮. 面向主题的网络爬虫设计与实现[D]. 湖南大中国论文网J;J/f.B+d;?v
    学.2009.6
    !wB$d-Nq6M2O)\\0
  • 上一篇             下一篇
发给朋友 分享到朋友圈
  • 回顶部
中国论文网|微信客服:15295038855
本站提供论文发表发表论文核心论文发表
免费论文发表资源,文章只代表作者观点,并不意味着本站认同,部分作品系转载,版权归原作者或相应的机构;若某篇作品侵犯您的权利,请来信告知:lunwenchina@126.com