有个难题请教爬虫大佬

kumotobi · 发表于 2018-3-26 12:53:13

本帖最后由 kumotobi 于 2018-3-26 12:54 编辑

因为项目需要，想用Python爬虫爬LinkedIn上的公司公开主页信息，页面总数可能上百万，但是LinkedIn号称有全球最强反爬虫技术，通过谷歌搜索进入公司页面前几次可以不用登录之后则出现登录界面，挂VP/N、清cookies无效。同一账号登录后大量爬去则被封号。据说谷歌爬虫可以无限制爬LinkedIn页面，有没有可能利用这一点伪装成谷歌爬虫？其他目前能想到的就是找大量IP代理池，注册大量账号轮换使用，那么哪里能低价买到大量账号？或者还有什么思路？谢谢各位大佬

蓝鹰 · 发表于 2018-3-26 14:34:39

提示: 作者被禁止或删除内容自动屏蔽

jbiao520 · 发表于 2018-3-26 14:09:47

google爬虫估计linkedin家有白名单的，不是那么好伪装的

eqblog · 发表于 2018-3-26 14:35:51

楼上说的对直接抓谷歌就好了别自己给自己找麻烦

fei2018 · 发表于 2018-3-26 14:45:54

eqblog 发表于 2018-3-26 14:35
楼上说的对直接抓谷歌就好了别自己给自己找麻烦

eq大佬现身，最近还有什么新爬虫教程吗

eqblog · 发表于 2018-3-26 14:49:24

fei2018 发表于 2018-3-26 14:45
eq大佬现身，最近还有什么新爬虫教程吗

没什么好玩的网站啊，没动力

king51 · 发表于 2018-3-26 14:49:31

那就试试谷歌UA咯

king51 · 发表于 2018-3-26 14:50:38

另外挂微屁恩的话，识别很方便，服务器的段早就被盯上了

		自动登录	找回密码
密码			注册

蓝鹰蓝鹰当前离线积分 19912	发表于 2018-3-26 14:34:39 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
蓝鹰蓝鹰当前离线积分 19912
	回复支持 1 反对 0 举报

有个难题请教爬虫大佬

浏览过的版块