求大神!提交网页链接的爬虫数据显示403,网页能正常打开,是什么原因?怎么解决?

2025-04-28 20:51:06
推荐回答(2个)
回答1:

403是请求被拒绝了 大多数网站的验证机制无非几种 1判断referer(来源网站) 2加密验证 requestheader 中会有一些特殊的值 3cookie用户验证

解决 1给你的请求header设置referer=上一页网址
2分析js或者在程序中使用浏览器内核运行js渲染
3htmlunit模拟登录 或者直接在header的cookie = 浏览器登录访问进去拷贝到你的程序代码里

回答2:

添加header跟agent