正则表达式提取豆瓣T250中的部分信息


import requests
import re
 
url = "https://movie.douban.com/top250?start=0&filter="
head = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
  }
resp = requests.get(url, headers=head)
 
 
 
obj = re.compile(r'(?P.*?)'
                 r'.*?
(?P.*?) ',re.S)
result = obj.finditer(resp.text)
for item in result:
  name = item.group("name")
  year = item.group("year")
  print(name,year)

运行结果


肖申克的救赎 
                            1994
霸王别姬 
                            1993
阿甘正传 
                            1994
泰坦尼克号 
                            1997
这个杀手不太冷 
                            1994
千与千寻 
                            2001
美丽人生 
                            1997
辛德勒的名单 
                            1993
星际穿越 
                            2014
盗梦空间 
                            2010
楚门的世界 
                            1998
忠犬八公的故事 
                            2009
海上钢琴师 
                            1998
三傻大闹宝莱坞 
                            2009
放牛班的春天 
                            2004
机器人总动员 
                            2008
疯狂动物城 
                            2016
无间道 
                            2002
控方证人 
                            1957
大话西游之大圣娶亲 
                            1995
熔炉 
                            2011
教父 
                            1972
触不可及 
                            2011
当幸福来敲门 
                            2006
末代皇帝 
                            1987
 
Process finished with exit code 0

1：确定自己需要爬虫的内容在哪一个url中

2：发送请求（get/post），收到url的网页源代码或者网页数据

3：使用正则表达式提取有用信息。(compile,findall,research,finditer)

大体的处理思路如上。

相关阅读:
perl对目录的操作
centos7 宝塔php7安装mongodb扩展
CKEditor5 支持 WPS 贴贴文字图片，默认贴贴进入空白空格
专业课140+杭电杭州电子科技大学843信号与系统考研经验电子信息与通信工程真题，大纲，参考书。
链式前向星
【深入理解Kotlin协程】Google的工程师们是这样理解Flow的？
JDBC入门
我在Linux开发板上跑的第一个Qt程序
C语言编程常见规范
【Linux】System V 信号量

原文地址：https://blog.csdn.net/qq_44807908/article/details/132640498