python scrapy框架爬虫的问题

2025-04-12 23:41:49

推荐回答（1个）

回答1：

你的思路是对的，确认好你需要的栏目，然后把所有url加入list中，把事先编写的内容爬取方法，在遍历list时调用，置于多线程的话，条数不多建议每一个爬取创建一个thread，如果很多，建议对list适当分组，每一组放入一个threadpool中，让他慢慢爬。（每个任务完成了最好sleep个几秒，别给这个网站反爬虫team太多麻烦，毕竟都是it同行）
另外，如果你爬取的栏目有分页，可以把所有页数或者首尾页数爬出来，然后拼接栏目分页url，在之上的url中再套一个分页list_urls的遍历。我的逻辑就是这样。