码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【Python爬虫】爬取2022软科全国大学排行榜


    目录

     1.任务要求

    2.网络爬虫实现原理

    3.系统设计与代码实现

    3.1 第一题

    3.1.1 最初设计方案:采用request+BeautifulSoup 方式

    3.1.2 更改后的设计方案:采用request直接获取json格式的html信息。

    3.2 第二题

    3.2.1 流程图

     3.2.1 代码

    3.3 第三题

    3.3.1 流程图

     3.3.2 代码

    4.运行结果

    4.1 第一题

    4.2 第二题

    4.3 第三题

    5.结果评价

    6.不足和改进之处



     1.任务要求

    访问网址https://www.shanghairanking.cn/rankings,爬取排行榜数据,分析按区域的大学数量排行,得出有效结论。

    1. 爬取主榜数据并保存在文件中。
    2. 分析每个地区上榜大学的数量,保存在文件中。
    3. 分析前十名的地区的大学数量,绘制柱状图。
    4. 说明爬虫爬取过程中可能涉及到的社会、健康、安全、法律以及文化问题,并并评价和说明分析结果对于社会、健康、安全、法律以及文化的影响,符合道德和社会公共利益,理解应承担的责任。

        注:本题60分。

    2.网络爬虫实现原理

    3.系统设计与代码实现

    3.1 第一题

    3.1.1 最初设计方案:采用request+BeautifulSoup 方式

    代码如下:

    3.1.2 更改后的设计方案:采用request直接获取json格式的html信息。

    1. 从网络上获取大学排名网页内容 getHTMLText(),先进行UA伪装,随后用requests库爬取获取网页编码。

     最后遍历将将内容存储到ulist列表中。

    .利用数据结构将结果储存到文件之中WriteToFile(),利用DataFrame存储为.xlsx文件

    3.2 第二题

    3.2.1 流程图

     3.2.1 代码

    1. import pandas as pd
    2. from matplotlib import pyplot as plt
    3. import numpy as np
    4. # (2)分析每个地区上榜大学的数量,保存在文件中。
    5. ranking = pd.read_excel('E:\\学习\\代码\\Python_homework\\期末课程设计\\experiment2\\ranking.xlsx')
    6. r_group = ranking.groupby(['省市'])
    7. r = r_group.size().reset_index()
    8. new_col = ['province', 'count']
    9. r.columns = new_col
    10. # print(r)
    11. df = r.sort_values(by='count', ascending=False)
    12. df.to_excel('E:\\学习\\代码\\Python_homework\\期末课程设计\\experiment2\\regionalRanking.xlsx')

    3.3 第三题

    3.3.1 流程图

     3.3.2 代码

    1. # (3)分析前十名的地区的大学数量,绘制柱状图。
    2. df1 = pd.read_excel('E:\\学习\\代码\\Python_homework\\期末课程设计\\experiment2\\regionalRanking.xlsx')
    3. # 正确显示中文和负号
    4. plt.rcParams['font.sans-serif'] = ['SimHei']
    5. plt.rcParams['axes.unicode_minus'] = False
    6. # 设置x和y轴的值
    7. x = df1['province'][0:10]
    8. y = df1['count'][0:10]
    9. # 绘制柱状图
    10. p = plt.bar(x, y)
    11. # 设置标签值
    12. plt.bar_label(p, label_type='edge')
    13. # 标题名
    14. plt.title('上榜大学排名前十的省份')
    15. # x轴标签名
    16. plt.xlabel('省份')
    17. # y轴标签名
    18. plt.ylabel('数量')
    19. # 显示柱状图
    20. plt.show()

    4.运行结果

    4.1 第一题

    4.2 第二题

    4.3 第三题

     

    由得出的柱状图可以得出,高校数量排行前十名的省份,其中绝大多数是人口和经济大省,除了北京作为我国的首都,但是他是我国的政治和文化中心,这就很正常了。

    5.结果评价

    6.不足和改进之处

     

  • 相关阅读:
    html, css写一个loading
    使用 MRKL 系统跨越神经符号鸿沟
    visual studio安装时候修改共享组件、工具和SDK路径方法
    process.nextTick和vue的nextTick区别
    AtCoder Beginner Contest 212 E(DP)
    git@github.com: Permission denied (publickey).
    灵活的IP网络测试工具——— X-Launch
    unity2019打不开怎么办
    GoLang开发使用gin框架搭建web程序
    机械制造基础——加工方法
  • 原文地址:https://blog.csdn.net/m0_67463447/article/details/125581182
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号