有一些学生在写网络爬虫的情况下,感觉只需自身每一次请求都应用不一样的代理 IP,每一次请求的 Headers 都写的跟电脑浏览器的一模一样,就不可能被网站发觉。
但事实上,还有一个物品,称为电脑浏览器指纹,它是不容易伴随着你拆换 IP 或是 User-Agent 而发生变化的。并且即使你没应用仿真模拟电脑浏览器,你立即应用 Golang、使用 Python,他们还有自身分别的指纹,而且它们的指纹每一次请求也是确定的。只需网站发觉某一有着特殊指纹的手机客户端不断高频请求网站,它就可以将你禁掉。
你好像不敢相信?那么我证实给你们。
如今,我提前准备一个隧道施工代理,如下图所示:
随后,大家开启一个网站:https://ja3er.com/json . 如果你用电脑打开浏览器它的情况下,它是如此的:
无论你怎么刷新网页,这上边的字符串数组全是不容易变的。
如今,我应用 Python 去请求这一网页页面,见到的內容如下图所示:
能够看见,尽管我采用了隧道施工代理,每一次请求的 IP 全是不一样的,可是这一网站回到的內容自始至终是一样的。因此假如这不是一个检测网站,反而是一个加了这一检验体制的网站,那麼它轻轻松松就可以把我给屏蔽掉。
这一检验算法,称为JA3算法。这一算法在官方网站上边的详细介绍信息内容如下所示:
The JA3 algorithm takes a collection of settings from the SSL “Client Hello” such as SSL/TLS version, accepted cipher suites, list of extensions, accepted elliptic curves, and elliptic curve formats.
JA3算法搜集了 SSL 请求里边的信息内容,包含但是不限于 SSL/TLS 版本号,Cipher Suites总数,浏览器扩展目录,elliptic curves这些。根据这一系列主要参数综合性起來转化成一个指纹字符串数组。或许这种主要参数里边,你跟一些人的 Cipher Suites 总数同样,你跟此外一些人的浏览器扩展数同样,你又跟此外一些人的 TLS版本信息同样……可是全部这种主要参数所有同样的人,就很少了。而在这里很少的人里边,这些人还与此同时浏览同一个网站的概率就更小了。因此,网站用 JA3算法,可以类似觉得,在一段时间内,指纹字符串数组同样的持续请求,有很大机率是来源于同一个人。
JA3算法的三个创作者之一John Althouse写了一篇文章来详细介绍电脑浏览器指纹和 JA3算法:TLS Fingerprinting with JA3 and JA3S | by John Althouse | Salesforce Engineering[1] 。有感兴趣的朋友可以看一看。
但大家说,魔高一尺,道高一丈。JA3算法是否确实无懈呢?实际上也不是,依然有方法绕开的。请大伙儿希望我后边的文章内容。
P.S.: 给我们科谱一个小常识,日常生活中,大家经常听一些人说,道高一尺,魔高一丈,又听另一些人说,魔高一尺,道高一丈。那麼这几句究竟哪一句是对的,什么情况应当用哪一句呢?
实际上,以道高一尺,魔高一丈为例子,它的意思是,道十分强大,道往增涨一尺所形成的能量,魔必须往增涨一丈才可以相抵。简单的讲,便是猿巨人走一步,平常人要走十步才可以追的上。
同样,魔高一尺,道高一丈的意思是魔十分强大,魔往增涨一尺所形成的能量,道必须往增涨一丈才可以相抵。
但大家日常生活中,很多人认为,魔高一尺,道高一丈的意思是说,魔长个子一尺的時间,道早已长个子了一丈,因此魔始终追赶不上道。这类理解是不正确的,这些人恰好把含意弄反。
参考文献
[1]TLS Fingerprinting with JA3 and JA3S | by John Althouse | Salesforce Engineering:https://engineering.salesforce.com/tls-fingerprinting-with-ja3-and-ja3s-247362855967
文中摘自微信公众平台「清怨Code」,可以利用下面二维码关心。转截文中请联络清怨Code微信公众号。