顶尖专题大数据
“顶尖专题大数据”基于分布式信息采集系统和大数据智能分析系统对互联网“报、网、端、微”上的信息进行及时汇总完成高效、多维度、多层次、可视化的分析。为各级政府网站、党政宣传单位、媒体单位提供全面、及时、立体化的专题分析。
顶尖政搜、顶尖搜索、企业搜索、搜索中台、信息采集、云搜索、一网通查、企业情报、企业竞争情报
“顶尖专题大数据”基于分布式信息采集系统和大数据智能分析系统对互联网“报、网、端、微”上的信息进行及时汇总完成高效、多维度、多层次、可视化的分析。为各级政府网站、党政宣传单位、媒体单位提供全面、及时、立体化的专题分析。
“顶尖专题大数据”基于分布式互联网融媒体信息采集系统和非结构化的大数据智能分析系统对互联网“报、网、端、微”上的信息进行及时汇总完成高效、多维度、多层次、可视化的分析,从而为各级政府网站、党政宣传单位、媒体单位提供全面、及时、立体化的专题分析、政声传递、领导工作报道大数据分析,为相关工作提供有力的支持与参考。
针对云采集平台采集到的海量、实时互联网相关信息,采用非结构化的文本处理、加工、分析技术,从而完成大数据的分析功能,主要有信息索引、信息搜索、语义分析、实体提取、信息分类、信息聚类等。
数据处理
云采集的网页原生数据,存在海量的不规则、非结构化的数据。该数据的格式还无法满足对数据处理分析的基本要求,需要对其进行预处理,经过广告过滤、URL过滤等信息过滤功能去除无效数据,同时将采集数据转化为较为规整的数据,以方便后续统计分析。对于采集到的数据,系统应对数据进行分词处理,进行排重,建立索引,存储在索引数据库中,同时做标签词、摘要自动加工处理,便于进行分类搜索分析,为数据分析建模提供技术支撑。
数据分析
数据分析主要基于自然语言处理技术,通过对每条信息的实体信息进行分析(人名、地名、机构名),关联关系分析(相关人名、相关地名、相关机构、相关内容),从而进行数据的信息分类、信息聚类、热点发现、热门关键词分析等多种分析。通过多维度的数据统计分析,可以完成新闻的来源统计、地域传播统计、关键词变化统计,发布日期趋势的统计等多种结果。
大数据分析结果采用可视化分析结果多种图表呈现。主要是将整理和筛选出来的各项数据用直观的图形体现,轻松地解释各种不同的数据趋势、分析结果等,丰富、有意义的图形有助于用户了解信息的分布情况、传播情况以及变化趋势。