• 基于网络爬虫技术的网络新闻分析


    技术:Java、JSP等
    摘要:

    自从大数据的概念被提出后,互联网数据成为了越来越多的科研单位进行数据挖掘的对象。网络新闻数据占据了互联网数据的半壁江山,相比传统媒体,其具有传播迅速、曝光时间短、含有网民舆论等相关特征,其蕴含的价值也愈来愈大。
    利用相关网络爬虫技术与算法,实现网络媒体新闻数据自动化采集与结构化存储,并利用中文分词算法和中文相似度分析算法进行一些归纳整理,得出相关的新闻发展趋势,体现网络新闻数据的挖掘价值。
    如果商业公司能选取其中与自身相关的新闻进行分析,则可以得到许多意想不到的收获,例如是否有幕后黑手故意抹黑、竞争对手情况如何。第一时间掌握与其相关的网络新闻负面效应,动用公关力量,及时修正错误,平息负面新闻,这对当今的企业来说价值是巨大的。
    关键词:网络爬虫;网络新闻;数据挖掘

    目录:
    1  绪论    1
    1.1    论文研究背景与意义    1
    1.2 论文研究内容    2
    2  系统需求分析    4
    2.1 系统需求概述    4
    2.2 系统需求分析    4
    2.2.1 系统功能要求    4
    2.2.2 系统IPO图    5
    2.2 系统非功能性需求分析    5
    3系统概要设计    7
    3.1 设计约束    7
    3.1.1需求约束    7
    3.1.2设计策略    7
    3.1.3 技术实现    8
    3.3 模块结构    8
    3.3.1 模块结构图    8
    3.3.2 系统层次图    10
    3.3.3 面向对象设计UML图    10
    4 系统详细设计    13
    4.1 系统模块设计    13
    4.1.1 数据采集模块    13
    4.1.2中文分词模块    18
    4.1.3相似度匹配模块    22
    4.1.4数据展示模块    25
    4.2系统异常处理    29
    4.2.1爬虫异常总体概况    29
    4.2.2爬虫访问网页被拒绝    29
    5 软件测试    32
    5.1 白盒测试    32
    5.1.1 爬虫系统测试结果    32
    5.1.2 中文分词系统测试结果    33
    5.1.3 中文文章相似度匹配系统测试结果    34
    5.1.4 相似新闻趋势展示系统测试结果    36
    5.2黑盒测试    37
    5.2.1 爬虫系统测试结果    37
    5.2.2 中文文章相似度匹配系统测试结果    37
    5.2.3 相似新闻趋势展示系统测试结果    38
    6  结  论    40
    参考文献    42
    致  谢    43
    外文资料    44
    中文翻译    48


     
     

  • 相关阅读:
    std::thread简单使用
    软件工程概论:在面向对象设计实现过程中,如何建立对象模型?建立对象模型的基本方法有哪些?
    什么是超声波清洗机?工作原理是什么?2023年超声波清洗机推荐
    deepstream python yolov5使用记录
    论文总结-交通预测(未完成)
    (LeetCode C++)全排列
    如何使用 Junit + Mockito 实践单元测试
    SpringBoot SpringBoot 基础篇(第一篇) 第1章 SpringBoot 入门 1.2 开发环境
    用Vue写教务系统学生管理
    【LeetCode】Day139-打家劫舍 III
  • 原文地址:https://blog.csdn.net/QQ_346127357/article/details/126164516