码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【爬虫】实战-爬取Boss直聘信息数据


     专栏文章索引:爬虫

    目录

    一、找到目标数据(2个确定)​

    1.确定目标网页

    2.确定目标网址

    二、编写代码​

    三、查看数据​

    五、总结


    一、介绍

    所用工具:DrissionPage

    二、找到目标数据(2个确定)

    1.确定目标网页

    •  打开目标网站

    网站:「南京招聘网」海量南京人才招聘信息 - BOSS直聘(自动定位所在地点,我是南京)

    ​

    • 通过关键字搜索

    ​

    • 观察页面上是否有想要的数据

    2.确定目标网址

    我们直接用浏览器网网址输入框中的网址即可

    • 切换网页并复制粘贴网址

    由于网址(域名+参数),域名不会变,参数可能会随着页面的变化而变化

    我们可先翻到第2页

    可以看到网址也发生了改变

    我们可以切换不同的页码并将网址赋值粘贴下来(一般3-4个即可)

    注意最后再重新翻到第一页

    可以看到当重新翻到第一页的时候网址发生了变化,第一页用这个网址即可

    • 观察网址

    可以看到只有page参数有变化,显然page参数对应的是页码数

    三、编写代码

    • 导入所需库
    1. # 导入WebPage库
    2. from DrissionPage import WebPage
    3. # 导入动作链
    4. from DrissionPage.common import Actions
    5. # 导入时间库
    6. import time
    7. # 导入读取和写入文件库
    8. import csv
    • 查找元素获取数据
    1. ele1 = page.eles('.job-card-body clearfix')
    2. for i in range(len(ele1)):
    3. ele2 = ele1[i].ele('.job-card-left')
    4. ele3 = ele2.ele('.job-title clearfix')
    5. # title 岗位名称
    6. title = ele3.ele('.job-name').text
    7. # area 公司地址
    8. ele4 = ele3.ele('.job-area-wrapper')
    9. area = ele4.ele('.job-area').text
    10. ele5 = ele2.ele('.job-info clearfix')
    11. # salary 薪水
    12. salary = ele5.ele('.salary').text
    13. ele6 = ele5.ele('.tag-list')
    14. ele7 = ele6.eles('tag:li')
    15. # time 工作时限
    16. time = ele7[0].text
    17. # education 学历
    18. education = ele7[1].text
    19. ele8 = ele1[i].ele('.job-card-right')
    20. ele9 = ele8.ele('.company-info')
    21. # name 公司名称
    22. name = ele9.ele('tag:a').text
    23. print(title, area, salary, time, education, name)
    • 切换到下一页
    ac.click('.ui-icon-arrow-right')
    • 保存数据
    1. with open('招聘信息.csv', 'a', newline='', encoding='utf-8') as file:
    2. writer = csv.writer(file)
    3. # 写入数据
    4. writer.writerows(date_list)
    • 完整代码(免费获取)

    【免费】爬取Boss直聘招聘信息数据资源-CSDN文库

    四、查看数据

    • 控制台

    • 文件

    五、总结

    直接用DrissionPage即可,没有特别的地方


  • 相关阅读:
    请求一下子太多了,数据库危
    Elasticsearch-ik分词器-es-head可视化工具安装(win版本)
    提升20%!京东广告模型系统负载均衡揭秘
    (片刻秒懂超级详细)linux的xshell时间同步,时区,年月日CST问题解决
    Netty实现多人在线游戏后台程序
    spring Aop
    Java对象传递和返回的细节问题
    vue-manage-system 版本更新,让开发更加简单
    IO - 图片展示的几种处理方式
    获取一段程序运行的时间
  • 原文地址:https://blog.csdn.net/m0_63636799/article/details/136823101
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号