大数据舆情监测平台bob娱乐下载地址
2016-07-06 20:00:49   来源:   评论:0 点击:

1、项目背景及建设目标
1.1项目背景
    随着互联网技术和应用的普及和发展,新闻、论坛、博客、微博客、视频网站等舆情产生速度、传播渠道等均呈现出爆炸式快速增长的态势,据初步统计,2009年以来,互联网网上具有负面影响的舆情数量同比增长了近 2倍以上。目前主要存在以下问题拯待解决:
    1)网络舆情监测导控工作几乎完全是通过人工的方式开展的,手工发现关注网站的局部性、时间上的滞后性与信息发布的随意性、随时性之间的矛盾日益严重。
    2)缺乏舆情信息综合分析,导致分析关联能力不足。例如,特定舆情事件在新闻、论坛、微博、博客等不同来源上的关联分析。
    3)各分支在舆情信息的管理上缺乏统一的信息报送、舆情导控任务下发等业务流程的信息化工具支撑。
    4)目前,舆情导控体系中缺乏可量化的考核数据作为各级领导年底评分的依据;
    在经过多次现场充分调研的基础上,提出建设舆情综合导控系统的规划,制定一个统一的元数据标准和数据交换接口规范,作为舆情分析研判和考核统计的元数据,从而对互联网上传播的舆情信息进行准确查找、归类、排重、分析、研判、导控和核查,实现对互联网上各类海量数据快速分析处理,更加准确的掌握各类舆情信息传播的数量、范围、趋势、影响等情况,最终形成一套科学、全面、高效地掌握网上舆情监测导控系统。
1.2建设目标
    系统建设总体实现目标是:能够全面、准确、及时的获取与“我”有关的网络信息,深层次的对互联网舆情信息进行分析和挖掘,通过统一的综合指挥系统实现舆情的及时上传和导控任务的集中下达,并从在线率、引导发帖、信息报送及任务下发等多方面综合考核,确保以互联网舆情监测小组为核心的整体监测成效。
2、总体架构
    2.1软件架构
    整个系统设计分为数据采集子系统、舆情信息数据仓库、舆情研判分析子系统、引导指挥子系统、引导考核子系统几个部分。
    2.1.1数据采集子系统
    负责对信息源头采集,采集子系统主要实现多线程、集群采集模式。满足项目采集深度和广度要求,采集深度按照需求可采集到新闻评论、微博转发数、粉丝数以及论坛的评论树回帖数等。
    采集广度本系统提供通用采集配置,支持大部分新闻、论坛的采集,只需要配置 URL即可实现采集。采集性能可以灵活配置策略,分为指定调度和随机调度两个模式。采集时效性可以定制。
    2.1.2舆情信息数据仓库
    按照系统制定的数据规范支持外围系统数据接入,数据仓库设计分布式架构,通过集群方式扩展项目的规模。主要分为分布式储存与全文索引、关系数据库。同时对外提供 API访问接口。数据入库经过数据的加工处理包括自动摘要、实体抽取、内容分类等操作为后续研判提供标准数据。
    2.1.3舆情研判分析子系统
    侧重业务需求根据各项指标综合计算舆情热点、负面信息、专题分析等。系统创新设计了基于多层关键字不同权重的数据推送算法实现海量数据中自动推送用户真正关心的舆情线索。
    2.1.4引导指挥子系统
    融合舆情管控业务流程。实现重大、敏感舆情信息的逐级上报及领导审核;可通过系统下发导控任务且短信提醒功能,确保导控任务通知及时、到位;
    2.1.5引导考核子系统
    针对任务完成情况、导控情况、信息报送及在线等进行多角度考核,对网评员工作量和工作效果提供科学评估依据。
    2.2关键技术
    2.2.1自动摘要
    在舆情分析过程中,通过自动摘要简明、确切地描述聚出来话题的中心内容,摘要是以提供文献内容概括为目的,不加评论和补充解释。
    基于统计的自动摘要也称为自动摘录,是将文本视为句子的线性序列,将句子视为词的线性序列。包括以下步骤:
    原始文本处理:
    按照计算机能够识别的形式输入文本信息,比如:键盘输入、手写录入、文本扫描、图形识别、语音识别等。
    词语权重计算:
    关键词"进行词频统计。对原始文本信息中的"句子权重计算:根据句子中词频等信息计算句子权重。其标准为:句子权重与句中所含"关键词"的数量成正比;文本信息中包含提示词,则提高句子权重;文本信息中特殊位置上的句子权重增加;若句子中包含废弃指示词则句子权重减小;句子长度与句子权重成反比。
    文摘句提取:
    对原文中所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句。
    文摘句输出:
    将所有文摘句按照它们在原文中的出现顺序输出。
    2.2.2自动聚类
    采集回的互联网数据包罗万象,为减轻人工巡检舆情事件的负担以及撑控舆情事件的发展态势,系统定期对采集回的互联网数据进行自动聚类,形成近期互联网上最新、最热、敏感等话题。
    自动聚类是基于相似性算法的自动聚类技术。根据文本内容的相似度,将内容聚合成不同的类别,同时对每一个聚得的类别,给出精确的类别主题词,包括最热话题、最新话题、敏感话题。主要包括以下几个步聚:
    特征提取。
    建立聚类相似矩阵,因为相似度是定义一个聚类的基础。
    用算法进行聚类。
    2.2.3自动分类
    目前,大部分网站采用了 AJAX架构,页面代码分析无法获取网站分类信息,为了更加清楚的展示各类舆情信息,如涉警、维稳等在互联网上的分布情况,准确的分析舆情的传播范围,清晰的展现舆情信息,对互联网舆情信息进行分类就显得极为重要。
    自动分类技术根据文献内容进行类别划分的功能,可以用于地域分类、涉警分类、维稳分类、治安分类等诸多应用。可以自动地对文档进行分类,赋予文档一个预先定义的类别主题词,便于文档的组织,不需人工干预。类分析模式共抽出了四种,以后可以通过增加、覆盖或继承来扩展:
    地域分析模式:地域词典分为三层,第一层是具有唯一性的词,比如在中国,深圳是唯一的一个地方;第二层是地域中的下一级地名,比如市下的区或省下的市都可以,看具体怎么布局。第三层是地域中地名,但有可能在各个地方都存在的或该词还有可能是其它性质的词。比如:万福佳可能是地名,也有可能是人名。根据句中出现各层的词的情况,得分情况也不同,最后再对文档中的所有句子地域得分进行汇总。
    一层词典分析模式:
    词典只分为一层,根据文档中出现词典中的词和词频情况进行计算相关度。
    二层词典分析模式:
    词典分为二层,一个句子首先根据查找出现第一层的词,再根据出现第一层词的前后几个词判断是否是第二层的词,这样根据第一层的词前后识别第二层的词的情况计算该句相关度,最后对所有句子进行汇总分析得到文档相关度。
    三层词典分析模式:
    词典分为三层,一个句子首先根据查找出现第一层的词,再根据出现第一层词的前后几个词判断是否是第二层的词,再根据第二层词的前后判断第三层的词,这样根据第一层的词前后识别第二层的词,再根据第二层词识别第三层词的情况计算该句相关度,最后对所有句子进行汇总分析得到文档相关度。
    2.2.4数据推送
    互联网信息的传播速度快、范围广的特点,为正确引导互联网的发展,必须第一时间内将公安机关关心的涉警、涉稳、治安等舆情信息检测与预警出来,系统采用数据自动推送技术在舆情事件第一爆发点时以短信或邮件形式通知工作人员,以便进行正确引导。
    数据推送分析是综合研判中的一部分,主要综合考虑两个方面:
    数据来源:根据数据来源的不同,各个类的相关度会根据不同阀值做调整。
    相关度:地域与其它类之间的相互影响,最后得出一篇文档的相关度。根据地域相关度的大小,对其它类的相关度根据不同阀值重新计算。
    总体上通过这样的逻辑就很容易实现两种效果,一是分类,具体分什么类、类的词典等都可以通过配置实现,这样就不分受地域和类别的影响而影响源码。二是数据推送,通过分类之后进行各个类之间的分析和研判,得到一个总的相关度,通过阀值控制是否推送,是否要这功能可以配置来实现。
    2.2.5实体抽取
    互联网为舆情事件传播的高发载地,其中包含了很多有价值的线索信息,为有利于公安民警能快速、准确的从网页信息中获取有价值的线索信息,系统采用实体抽取技术,将页网信息人名、地名、机构名、专有名词等提取出来存入数据库中。
    实体抽取任务是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,从而提取这些实体。
    主要涉及到三个方面的问题:
    分词的选择:
    是不分词还是采用自动分词系统或人工分词;
    领域的取舍:
    比如:老鹰大战雄鹿。"老鹰"和"雄鹿"均为 NBA 队名;也可以均指动物,这就涉及到领域问题;
    方法的选择:
    在方法的选择上主要分为语言学方法和统计学方法两种;
    2.2.6情感倾向分析
    根据业务的不同,把负面范围也相应进行划分,基于这些考虑负面词典分为二层词典:主体词和负面行为词典。只有符合这样的模式句子片段才被认为有效负面语义。
    负面词典分为二层,一个句子首先根据查找出现第一层的词,再根据出现第一层词的前后几个词判断是否是第二层的词,这样根据第一层的词前后识别第二层的词的情况计算该句相关度,最后对所有句子进行汇总分析得到内容的负面性。
    2.2.7相似分析
    相似分析原理图
    2.2.8分布式存储
    由于互联网上的数据量非常庞大,而网上信息之间关联的情况错综复杂,所以有必要将爬行到的数据存储起来再做进一步的分析以及备案,但对这些数据进行存储将是海量的。对如此大量的数据进行高效查询就用到了全文检索技术,这里需要额外建立一个索引文件,通过空间换时间的方式来用户查询的速度。
    为了应对这样的业务需求,采用基于sphinx内核算法优化的全文检索技术,支持分布式的海量数据应用;基于中文分词和一元分词结合的办法在数据查准率、查全率上进行大方面的技术突破。且支持分布式的应用部署。
3、系统业务模型
    针对互联网舆情监管的业务特点,本项目提出了一个整体化的监管业务模型。首先,在监管对象的定义方面,本项目将以如图1所示的三个监管对象为目标:以传播源头(论坛、微博等)、传播内容(舆情信息)和传播主体(网民)为监管对象,以时间为分析维度对互联网舆情的相关因素进行全方位统一的监管。
    通过快速准确的定位传播源头,以及对传播内容的采集、分析、追踪,并监控传播主体的网上行为,确保传播信息的合法性从而在整个的信息传播过程中,多层次多角度的进行有效的监管,并与实际工作业务紧密结合,使整个监管平台能有效的实现“发现传播源头、追踪传播内容、监控传播主体”的职能。
互联网舆情监管对象示意图
 
    考虑到舆情的特征——本地站点或全国热门站点上首发,然后被转载到各大主流站点,企图扩大事态影响面。
    系统通过监控全国热门(例如:百度贴吧、天涯论坛、凤凰论坛、腾讯论坛、网易论坛等)、本地站点来发现舆情信息,作为舆情线索。对发现的重大、敏感舆情通过专题进一步跟踪,通过在各主流站点的站内搜索对舆情进行专项补存,从而发现有哪些站点、板块上在传播相关舆情信息,为舆情的处置提供了依据。
系统业务流程图
 
    舆情系统 :舆情线索发现,重大舆情补存,全局掌控舆情散布、传播及扩散态势,掌握舆情处置主动权,规避事态持续升级的被动处理局面;
    监控人员:结合系统辅助研判 , 上报重大舆情,执行处置任务并向领导反馈结果;市局领导:关注重大舆情,以专报为决策点,决策并下发舆情处置任务,考核监控人员。
 
4、部署架构
互联网舆情综合管理系统部署架构图
 
    服务器:包括舆情采集服务器、数据库服务器、舆情分析服务器和 WEB管理服务器。
    舆情采集服务器用来采集关注的论坛、博客、微博、境内 (外)网站、 QQ群等海量数据,支持分布式采集和多线程并发采集。将数据实时发布到全文数据库和数据库服务器中;
    数据库服务器用来存储采集的元数据,并执行内容去重、无用信息过滤及关键信息提取等动作;同时响应 WEB管理服务器的舆情查询;为了提高建设速度,全文检索采用分布式技术,采取基于 SPINXS内核扩展的专用检索技术保障业务需要;
    舆情分析服务器用来实现数据推送、相似分析、实体抽取及自动摘要等相关分析,可集成部署到数据库服务器中,可根据实际情况选择;
    WEB管理服务器进行用户管理、组织架构管理、关键词维护、系统管理、分类管理等,同时展现各种舆情信息、热点话题、舆情分布与趋势统计报表。
5、系统功能
    5.1采集子系统
    5.1.1采集范围
    数据采集是舆情工作的首要任务,互联网传播特点和网民行为特征要求系统全面获取网络信息,信息时效性要求系统及时采集到网络信息。
    系统内置数千个影响程度大、传播面广、网民参与度高的网站,从广度和深度全面抓取信息;
    监测本地网站中的重点板块,搜索本地有害信息;
    监测全国热门重点网站及省厅下发的责任网站;
    实现对网站、博客、微博等的监测,拓展舆情广度;
    采集国内、外新闻网站,以便实时掌握国、内外要闻;
    不仅支持对文本信息的采集,也支持音视频舆情信息的发现,系统内置百度视频、56网、土豆网等近百个视频站点;
    不同来源采用不同采集方式保障采集高效及实时性;
    5.1.2采集速度
    采集系统主要基于多线程、集群采集模式。满足项目采集深度和广度要求,同时满足采集时效性能要求;公安部要求重点站点采集速度小于 5分钟;根据已实施项目的实际运行情况来看,大部分重点站点的采集速度在 2-3分钟左右,个别特别关注的站点数据采集 1分钟即可完成。
    采集性能可通过灵活配置调度模式来保障。调度策略分为指定调度和随机调度两个模式。采集时效性可以定制,可根据不同网站的重要程度按需设置对应的调度任务。调度的类型分为按天调度和按周调度,这两种调度模式可满足不同的应用需求。
    几种不同策略的常见应用举例如下:
    CASE1:重点站点连续性采集
    天涯、百度等全国性热门网站可配置为连续性采集且5分钟采集一次。
    CASE2:一般站点间隔性采集
    芜湖论坛、江门论坛等地方性网站,主要特点是数据量更新较少。如果配置采集太频繁也会浪费有限的服务器资源;可配置为连续性采集且 1小时采集一次。
    5.1.3增加站点
    针对关注的站点列表,通过网站管理模块进行站点的维护。支持各来源站点:
    新闻网站
    论坛
    博客
    微博
    视频站点
    境外媒体
    元搜索
    与此同时,可配置站点的区域(全国、省级、地方等)及重要程度(非常重要、重要、一般、不重要);
    5.1.4增加板块
    分析目前互联网上新闻、论坛等站点的自身特点,大多数网站采用同样的模板,基于这一特征开发出支持大多数网站的“通用论坛解析模板”和“通用爬虫解析模板”,因此,仅输入关注板块的入口 URL并选择对应的解析模板即可实现大部分站点的配置;
    个别比较复杂的站点,目前均已定制开发针对性的解析器来实现站点数据的采集,这些解析器内置在系统中,可根据实际需要进行选择;例如:选择全国热门的站点、本地站点及行业相关的站点。
    在实际增加站点的过程中,可能存在极个别的站点系统无对应的解析器且通用解析器也不支持,可通知厂家由厂家快速支持。
    针对不同站点进行关注板块的配置,根据板块的热度及关注程度可按需设置每次爬取指定的站点、主贴列表及回帖列表的爬取范围,同时支持对采集性能进行配置,新增板块时选择对应的调度模式来满足数据采集性能需求,例如可以对重点关注的网站设置快频率采集,同时结合系统提供的代理 IP池模块来解决爬行服务器高频度爬取指定站点导致IP被封的问题。
    5.1.5采集监控
    系统自动统计每一台采集服务器每天完成的调度趋势。通过趋势辅助判断服务器运行任务是否饱和,以便根据监控的数据动态调优各服务器的采集任务,确保在保障采集时效性的前提下,合理利用每台服务器资源。
    服务器调度任务数可细化到每小时,同时通过选择时期可对历史调度任务数进行查阅,通过对全局数据的掌握,使得任务调配决策更科学化。
    与此同时,采集监控模块提供了按周统计全部服务器调度总数及每台服务器调度任务数的趋势,多台采集服务器可以通过比对动态调配任务,以便资源合理利用。
    5.1.6网站采集监控
    可通过网站采集监控模块监控各论坛中各板块,目前的调度模式、目前总调度次数、发现资源数量、采集资源数量、所耗时间及任务状态等各种关注的数据。
    例如:发现资源数量可辅助分析每天各板块中更新(当日发布的新贴子及当日回复的旧贴子)的帖文数量,以及每天发布的新贴文的数量等,且通过历史数据的统计结果,综合分析各网站及各板块的热度,为后续确定热门网站及板块的增加数据依据。
    与此同时,论坛经常会遇到改版而导致采集不到数据的情况,通过该模块可看出来,且改版的会自动发邮件给厂家工程师及时处理,对用户透明;
6、舆情预警子系统
    6.1信息推送
    系统支持业务类预警舆情自动推送,无需事先设置关键字,基于语义推送行业关注的舆情信息。例如:针对公安类业务数据的智能推送如下图所示,包括涉警、涉恐、维稳、涉枪、涉抢、涉毒、涉偷、涉骗、涉黄等各类业务分类信息。
    6.2关键字预警
    不同用户关注的舆情有所不同,提炼关注事件的特征关键字并预先配置,系统根据关键字规则自动匹配相关帖文,并智能展现给对应用户,代替手工逐条筛选的现状,不仅提高工作效率且获取的信息更全面;作为信息推送的互补,可随时自定义关键字来关注重点关注的事件;
    6.3事件舆情信息推送
    可根据事先配置的事件关键字自动推送预警事件舆情。在舆情规划时将关注事件的特征关键字进行初始化,在使用过程中可随时增加事件关键字来关注突发的事件。
    6.4领导人舆情信息推送
    可根据事先配置的领导人关键字自动推送预警领导人舆情。在地方性突发事件中,通过网络的转载及个别心怀叵测人员的推波助澜,其地方最高领导人往往无辜的推上舆论的“制高点”,为保护领导及地方政府的声誉,将地方相关领导设置为舆情监测对象,在某些居心叵测的人员策划事件升级前,及早发现并预警舆情,才能将这些非正当事件扼杀在萌芽状态。
    6.5敏感舆情个性化推送
    不同分支的用户关注的舆情有所不同,因此个性化定制自己关注事件的关键字是必要的,自定义关键字预警推送的舆情信息只有自己可以看到,以达到敏感舆情的保密性与舆情预研判的双重效果;
    6.6舆情报警
    针对敏感或需要重点关注的事件,系统支持界面报警、短信报警、邮件报警等多样化报警方式,及时掌握已知需要重点关注的舆情和未知的敏感舆情。根据系统关键字设置的分类——事件关键字、领导关键字和自定义关键字;其中自定义关键字为每个用户各自关注的关键字,根据不同级别事件设置的关键字,可定义是否发送邮件、是否发送短信;
    针对事件关键字和领导人关键字为系统所有用户均需关注的舆情事件,由系统管理员统一指定报警邮箱和手机号;针对不同的事件关键字和领导人关键字组合,可事先定义是否发送短信。针对重要的或敏感的舆情事件,可发送短信实时提醒,以便快速掌控最新舆情信息;针对低级别舆情事件,不需要即可知道,系统不发送短信,避免短信骚扰;
7、舆情分析研判子系统
    7.1热点分析
    1)热点发现的原理概述
    舆情是指一定时期内一定范围内的社会群体对某些社会想象和现实的主观反映,实时地计算舆情能够及时掌握舆情动态、积极引导社会舆论。因此舆情热点自动发现和分析技术的研究和应用是其中重要的一环,可以帮助用户及时快捷地了解和掌握互联网热点,为掌握社情民意起到推动作用。
    本系统计算热点主要目的是为了找出互联网全网范围内与公安相关行业的热点舆情事件。该发现过程分为基于中文分词技术、采集内容的聚类、对聚类结果进行敏感热点的计算。
    系统通过已经采集的数据结合各大重要网站的实时信息进行分词、相似度计算、以及信息爆发度综合计算当前的互联网舆情热点。同时系统还可以根据计算的热点结合系统的预警类别实现热点分类;针对各媒体的重要度自动判断热点值;这对信息媒体根据媒体类别国外和国内的属性,自动计算国内外热点划分;针对自动抽取的作者、发布人等信息,进行热点活跃源头分析和判断;以及媒体类型重度及 WEB2.0媒体判断媒体的参与度。
    2)算法描述
    热点计算法主要基于以下几方面的关键技术:
    1.基于词性的中文分词
    对于采集的信息实现基于词性的中文分词后,统计不同词性的词频做为热点一个维度进行计算。
    2. 聚类算法
    系统利用 k-means算法进行聚合;结合相似度相关算法,得到各热点的传播量,根据时间轴计算爆发量作为热点的一个维度计算。
    3. 热度算法
    本系统主要依据媒体的重要、报道数量、爆发量以及发布时间等多个因素综合计算当前的热点。系统采取定时后台运行方式,不影响前台业务应用。
    3)数据分类
    对于系统采集到的数据,都会对已设定的类别进行识别。系统从以下几个角度来保证实现的效果:
    1. 在准确性方面,这些类别中的关键词中支持与或非关系的组合,可以有效的对数据进行筛选。
    2. 在及时性方面,对于新采集到的信息,都会进行相应的分类筛选,被命中的信息会记录下来。
    3. 在灵活性方面,这些类别可以让用户自己设定,也可以由管理员设定。个人设定的类别只有自己可以看到,管理员设定的类别可以让所有人看到。为了减免系统自    动识别的误判等问题,系统提供人工进行对分类后的信息进行修改。
    4. 在便捷性方面,对于这些分类出来的内容,查看正文后会变成已审阅状态,也可以手动将所有的文本置为审阅状态。同时提供批量操作的方式。
    5.对于无关信息的过滤
    为了找到用户关心的热点信息,系统是从前面发现出来的热点中进行筛选。系统中包含一份行业字典,对于已经发现的热点会进行相应的过滤。同时结合全文检索中的相似度原理,智能进行数据过滤。
    7.2专题分析
    系统运用主题聚类方法将同一事件的信息汇聚成专题。主题聚类方法具有如下三个方面的优势。首先主题聚类以主题分析、主题提取和描述为基础, 可以发挥主题法在组织信息方面的优势,对聚类特征进行主题或语义控制,提高信息服务的质量。
    其次,主题聚类是在聚类对象的主题提取基础上进行的, 通过主题提取可以对聚类对象进行维度约简,从而避免高维数据计算问题,大大缩短信息服务的响应时间。最后, 主题聚类方法不同于传统的文本聚类方法在于 :它还可以对聚类的结果进行基于主题的描述 ,提高聚类结果的可读性与可理解性。
    7.3舆情报告
    包含今天、昨天、前天监测日报,本周、上周监测周报,本月上月监测月报及自定义时间简报。每个简报包含以下内容:舆情概况、数据概况、总体舆情统计、负面舆情统计、负面信息来源网站排名 Top10、各主题信息量统计、确认负面信息、已选信息。
    7.4溯源分析
    每一件互联网舆情事件的发现,都是由网名或网名组织在互联网上快速、大量发布舆情信息导致的,为避免有害舆情带来的危害,必须找到相应源头采取相应的封堵措施,通过分析专题中网络舆情信息传播的时间、空间结构,发现网络舆情话题源头。在用户手动设定的专题中将获取到的所有贴子,根据贴子的发表时间前后追踪到第一个发表相关信息的网站、网名及发表的所有贴子并按照时间顺序展示出来,以flash的方式图形形象化表示。
    7.5重点网民
    1)重点人监控
    研究网民的特点不难发现,总存在一大类网民——长期持续发布或散播某舆论事件或针对某领导的负面舆论。这类网民在舆情事件的发布及传播的过程中,起着关键的作用,舆论会随其在网上活动的频繁度产生波动,这些网民必须重点关注,系统提供手工增加重点网民的功能,系统自动采集该网民在微博、博客等信息发布渠道上发布的所有帖文;
    2)重点网民关联关系
    通过其它渠道获取到重点网民的关系,可将关系添加到系统中,以便系统呈现各重点网民的关系,图形化展现方便快速定位出敏感舆情发布与传播的组织图;
    3)重点事件
    针对重点网民在互联网上发布的所帖文,可设置为需要重点关注的对象,进行重点跟踪,系统可统一展示某重点网民发布的所有重点事件,并可根据重点网名的虚拟身份查询在互联网上发布舆情信息的分布情况;
8、舆情引导指挥子系统
    8.1舆情任务下达
    针对新发现的舆情,通过系统的任务下发模块,向全体“网评员”发布引导指令和引导内容,发布引导任务的同时可进行短信提醒,确保所有网评员第一时间内接收到导控任务。下发任务后,可查询“我下发的所有任务”,同时可查看所有“下发给我的任务”;“下发任务”界面及“我下发的所有任务”。
    8.2舆情信息上报
    各分支机构发现的重要舆情可通过系统分级上报,支持三级报送平台;监控人员上报的信息给分管领导,分管领导对舆情信息进一步过滤,同时将领导关注的信息进一步上报;考虑到监控人员或分支的不唯一性,存在重复报送同一条信息的情况,为降低分管领导审核报送信息的工作量,同一条舆情信息不同的监控人员每天只能上报一次。
    系统支持快捷上报和手工上报功能。在浏览帖文时,针对人工研判为负面的舆情信息可直接在页面进行报送,系统直接将报送帖文的标题、正文、URL等信息直接关联到报送页面,无需人工再次拷贝或输入,仅需选择上报的机构或人员即可,上报简单、方便;系统提供基于业务的上报机制,除上报舆情信息外,同时系统支持上报信息的类别至少支持工作报告、综合信息、重点网民和其它信息几类;
    系统同时支持对历史上报的信息进行查询,分为我上报的信息和上报给我的信息,不仅可查询到所有的报送信息,而且可查询到各报送信息目前的状态。
    针对监控人员上报给分管领导的舆情信息不够详细或缺少内容等,分管领导可将上报的该信息直接退回;被上级机构或领导退回的信息,在信息报送用户的首页右下角弹出关联的退回标签,该标签必须签收,否则每次登录系统均会重新提醒;
9、舆情引导考核子系统
    9.1引导考核
    数据库自动存储了引导员的发贴列表及内容,用来存放所有网评员在各网络阵地中的发贴及回贴数据;目前各大网站基本都支持基于虚拟账号站内搜索发贴(例如:天涯、百度等),针对该类主流网站可通过系统引导员定时采集模块轮巡引导员表中的所有虚拟账号,在虚拟账号对应的站点上完成站内检索及采集、入库,实现对引导员发贴数据的自动记录;针对个别不支持基于站内搜索采集的站点,可根据虚拟账号通过采集系统实现采集与识别,智能发现引导员发贴并同步到引导员发贴表中,在保障采集数据完整性的情况下实现引导员发贴数据的考核。
    系统支持通过在线考核、引导员发帖考核、信息报送考核及任务下发考核等多角度进行考核,并支持按单位考核、按部门考核及按个人考核等多个纬度,作为年底考核舆情监控人员的依据;
    9.2网评员管理
    将虚拟账号预先录入到系统中,并与网评员的系统登录账号实现关联,实现引导员系统账号与发帖虚拟账号的对应关系;针对首次实施支持通过 EXCEL表批量导入,降低人员工作强度。
    9.3网站核查
    舆情导控工作执行后,必须有核查机制对导控工作的效果进行检查,舆情工作核查模块的功能可能通过系统设置核查任务或以 excel表的形式导入核查任务,通过系统自动核查。
    1.系统设置核查任务:系统提供按新闻、论坛等信息的核查,设置核查任务名、站点名、信息的 URL、数据类型、核查项 (新闻网站首页是否消失、新闻评论否关闭、数量减少或停止增长、论坛首页是否已消失、论坛列表页是置顶是否已取消、论坛信息主题以及回贴是否已删除、论坛信息是否已经关闭回贴、网民观点是否变化,观点变化的内容)、任务执行时间;通过系统设置的核查任务后,爬虫任务根据任务执行时间定期到互联网将导控任务的执行结果收集回来。
    2. Excel核查任务导入:系统支持将批量的导控任务导入系统进行核查,按核查任务名、站点名、信息的 URL、数据类型、核查项、任务执行时间格式,批量将核查任务导入系统后,系统自动将导入的任务核查结果收集回来。

相关热词搜索:大数据 舆情监测 方案

上一篇:监狱手机屏蔽系统bob娱乐下载地址
下一篇:四屏幕股票、期货、现货交易系统

分享到: 收藏