- import requests
- import re
-
- url = "https://movie.douban.com/top250?start=0&filter="
- head = {
- "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36"
- }
- resp = requests.get(url, headers=head)
-
-
-
- obj = re.compile(r'(?P
.*?) ' - r'.*?
(?P.*?) ' ,re.S) - result = obj.finditer(resp.text)
- for item in result:
- name = item.group("name")
- year = item.group("year")
- print(name,year)
运行结果
- 肖申克的救赎
- 1994
- 霸王别姬
- 1993
- 阿甘正传
- 1994
- 泰坦尼克号
- 1997
- 这个杀手不太冷
- 1994
- 千与千寻
- 2001
- 美丽人生
- 1997
- 辛德勒的名单
- 1993
- 星际穿越
- 2014
- 盗梦空间
- 2010
- 楚门的世界
- 1998
- 忠犬八公的故事
- 2009
- 海上钢琴师
- 1998
- 三傻大闹宝莱坞
- 2009
- 放牛班的春天
- 2004
- 机器人总动员
- 2008
- 疯狂动物城
- 2016
- 无间道
- 2002
- 控方证人
- 1957
- 大话西游之大圣娶亲
- 1995
- 熔炉
- 2011
- 教父
- 1972
- 触不可及
- 2011
- 当幸福来敲门
- 2006
- 末代皇帝
- 1987
-
- Process finished with exit code 0
1:确定自己需要爬虫的内容在哪一个url中
2:发送请求(get/post),收到url的网页源代码或者网页数据
3:使用正则表达式提取有用信息。(compile,findall,research,finditer)
大体的处理思路如上。