网络爬虫无处不在，应当如何规制？-黑客24小时在线接单的网站

在大数据时代，除了直接通过用户收集外，另一个主要的数据来源是利用网络爬虫收集公共信息。爬虫的使用程度如何？一些业内人士表示，互联网 50%以上，甚至更高的流量实际上是爬虫的贡献。对于一些流行网页，爬虫的访问量甚至可能占网页总访问量的90%以上。

从技术角度来看，爬虫是通过程序模拟人类上网或浏览网页或 APP 行为，然后捕捉爬虫作者需要的信息的过程。随着数据产业的不断发展，数据价值越来越高，对数据的竞争也越来越激烈。“爬虫”与“反爬虫”成为无休止的“攻防对抗”，一些爬虫违反了网站的意愿，未经授权访问网站，获得了大量的公开或非公开数据，引起了许多法律纠纷。

杭州长三角大数据研究院、上海市杨浦区人民检察院、上海市企业法律顾问协会、浙江省企业法律顾问协会、财经商业治理研究院共同发起10 月 23 “长三角数据合规论坛暨数据爬虫法律监管研讨会”，许多重量级法律学者、法官、检察官和互联网从业者被邀请“数据爬虫技术和工业影响”、“数据爬虫的民法责任”、“数据爬虫的刑事合规”从不同的角度进行讨论。

01爬虫无处不在

“爬虫有广泛的应用场景，包括合规和不合规的场景。例如，抓取电子商务网站的评价数据进行市场调研；做数字内容的人可以用爬虫抓取相应的网络内容；抓取判断文件网络数据，优化后推出“付费数据库”；企业检查和天眼检查也在利用爬虫技术实现政府公开数据的商业使用。”中国欧莱雅数字化负责人刘宇介绍。

刘宇解释了爬虫的基本原理。通常，爬虫会定位网站上所有的 URL 链接，获取页面中的数据，然后拆卸和使用数据。基本爬虫基于这一原理，无论是在网页端还是移动端。爬虫技术的使用‘爬虫一方’和‘被爬虫一方’都有风险，从网站崩溃到监狱。

具体来说，对于那些技术实力较弱的小网站或网站，如果爬虫 7X24 小时连续访问可能会导致网站崩溃，因为服务器无法承受激增的流量。更麻烦的是，对于编写爬虫的程序员来说，如果他们爬到不应该爬数据，然后使用数据，这可能是违法的。

刘宇说，在不同的场景中，爬虫的态度非常不同。例如，搜索引擎爬虫很受欢迎，因为搜索引擎可以提高被爬网站的曝光率；但大多数网站也不希望爬虫根据服务器的风险或各种商业原因捕获数据。拒绝分为两种，‘反爬’机制，‘反反爬’机制。网站可以制定相应的策略或技术手段，防止爬虫抓取数据。

网站常见的应对策略是放置 Robots 协议由荷兰工程师马丁协议·科斯特（Martijn Koster )于1994年编制，后来成为数据爬行器和被爬行器之间的通信机制。在2012年发布的《中国互联网行业自律公约》中，中国互联网协会将遵守 Robots 协议认定为“国际行业管理和商业规则”。

▲ Robots 协议是数据爬取方与被爬取方之间的意愿沟通机制

但刘煜说，Robots 协议更像君子协议，只能起到通知作用，不能起到预防作用。只要网站，爬虫技术、反爬虫技术和反爬虫技术一直在迭代App 如果能被用户访问，就有可能被爬行。

恶劣的爬虫手段会浪费来之不易的社会资源和技术资源。小红树总法律顾问曾翔说，有些爬虫会通过“模拟真人访问”或者“协议破解”爬数据。“这些都是不光彩的手段，被爬取得的网站不得不采取攻防措施，造成不少企业资源的浪费。”

曾翔说，对于内容平台来说，爬虫攻击很容易侵犯自己和用户享有的知识产权。爬行通常是有目的的。如果你爬上核心商业秘密，你可以直接利用其他地方形成竞争优势。此外，在他看来，爬虫还涉及破坏互联网公共秩序。“爬行数据能否有效利用，是否被监管，这些数据流向何方，都是一个很大的问号。”

02决定爬虫的民事责任

“技术是中立的，但技术应用永远不是中立的。”新浪集团诉讼总监张哲表示，在讨论爬虫技术原理时，更重要的是看爬虫技术是用来做什么的，以及其行为本身是否合法。

近日，北京市高级人民法院(以下简称“北京高院”）对“今日头条诉微博不正当竞争案”作出二审判决。在这种情况下，微博在 Robots 协议设置黑名单，限制字节跳动公司抓取相关网页内容。法院认为，微博是在行使企业自主经营权范围内的合法行为，不构成不正当竞争，同时撤销一审判决。张哲说，司法机关对 Robots 协议评估是“一体两面”的。

北京高院在 2020年对抗“360 诉百度不正当竞争案件”在做出判断时，百度认为百度不乏合理、合理的理由时，不能区分主体，限制访问搜索引擎抓取网站网页内容（太固执、太简单）。“今日头条诉微博不正当竞争案”法院确立的原则是，企业有权在自主经营范围内限制其他访问者。只有违反公共利益和消费者权利，才能认定其行为不正当。

华东政法大学法学院教授、数据法律研究中心主任高富平认为，爬虫与数据行业是相连的。现在所谓的数据公司谈论的数据智能和大数据分析基本上是在挖掘和分析之前捕获数据。现在人们普遍认为爬虫是一种中立的技术，但更多的时候，用户是为了实现它‘不劳而获’的目的。

高富平认为，很难判断爬虫的合法性，而不是数据合法生产者的控制。国内外爬虫合法性边界的讨论主要集中在数据爬行的手段和目的上。

从手段上看，爬虫无视网站的访问控制，或假装是合法访问者，将被视为非法；从目的上看，数据爬行方是否为爬行方提供部分产品或服务“实质性替代”，如果属“实质性替代”，目的是违法的。

如果网站合法积累数据资源，则网站生产端可以控制其使用。更重要的是，承认数据控制器可以根据业务目的打开数据，使数据可以通过许可使用、交换、交易等方式被更多的人使用。”高富平补充道，“基于数据合法生产者有控制权的前提，可以忽略 Robots 打击协议爬行者。”

上海浦东法院知识产权法院法官徐洪涛认为，Robots 协议和数据流通有两个问题需要考虑:第一，“互联互通”如何把握数据共享的程度；二是各互联网行业经营者采用的 Robots 协议策略是否可能导致数据孤岛。互联的本质是确保数据的有序流通，而不是强迫互联网行业运营商向竞争对手全面开放他们平台上的数据资源。“互联互通”的语境下，“有序”和“流转”同样重要和不可或缺的，需要排除假借“互联互通”妨碍公平竞争，危害用户数据安全。

杭州互联网法院在一家新媒体公司爬上微信公众平台的数据案中，有明确的观点。网络平台设置 Robots 协议，希望在竞争过程中在竞争过程中遵守竞争规范，或者至少保持相互尊重和遵守协议。

在上述情况下，法院认为，允许第三方爬虫工具爬行公共账户信息将打击平台创造热情，扭曲大数据要素市场竞争机制；从消费者利益的角度来看，未经授权爬行信息和显示，不尊重信息发布主体的意愿；从公共利益的角度来看，被告没有深入挖掘、创新或更深层次的应用，未能提高整体社会公共利益，爬行数据源不正常，难以合法。

徐洪涛认为，数据是内容行业的核心竞争资源，内容平台经过总结、分析和处理后的数据往往具有很高的经济价值。如果要求内容平台运营商无限期地向竞争对手开放其核心竞争资源，不仅会违反规定“互联互通”的精神实质，也不利于优质内容的不断更迭和互联网产业的持续发展。

徐洪涛说，对非搜索引擎爬虫合法性的判断可以概括为四个要素：首先，我们是否尊重被抓取网站预设的 Robots 协议；二是看是否破坏被抓网站的技术措施；三是威胁用户数据安全；四是衡量创造力和公共利益。

徐洪涛特别指出，用户数据，包括身份数据和行为数据，不仅是运营商的竞争资源，而且具有个人隐私属性，这些数据的收集更涉及社会公共利益。如果在捕获数据时危及用户数据的安全，则其行为是不合法的。

03爬虫涉及刑事合规

刑事合规起源于美国，是指国家建立的一套监督机制、约束机制和激励机制，以刑法为工具，促进企业合规管理。

2020年，在最高人民检察院的推动下，深圳、浙江、江苏、上海等察院的推动下，积极探索企业刑事合规。鼓励更多企业进行合规改制，“不起诉刑事合规”这一新的刑事诉讼制度在全国范围内推出，试图选择可能建立合规的企业，通过认罪和承诺建立合规计划，然后采取不起诉的措施。

上海市人民检察院第二分院第三检察部副主任吴菊萍表示，刑事合规主要是为了给涉案企业一个整改、自救、重新启动的机会，也是为了保证社会经济的高质量发展。目前，许多企业关注的刑事合规更多的是讨论如何避免其商业行为的刑事风险。吴菊萍认为，企业应注意如何利用爬虫技术进行数据分析。

吴菊萍说，吴菊萍说，“除了木马病毒程序和其他非法技术外，我们判断爬虫技术相关行为是否构成犯罪，首先取决于爬虫技术，是否有社会危害，然后判断行为是否侵入计算机信息系统，还是非法获取计算机信息系统数据，然后查看爬行数据涉及企业数据或公民个人信息，分别适用相关指控。”

还需要考虑爬行数据的法律属性是财产还是只是数据。吴菊萍说，这在司法实践中是有争议的。“例如，我们有一个非法拘留强迫对方交付虚拟货币的案件。刑事认定为非法拘留罪，否定虚拟货币的财产属性，民事判决返还财产，承认财产属性。”她认为数据是数字经济发展的重要生产要素，本质上应该具有财产属性，但目前的法律和司法实践还没有完全跟上。

华东政法大学教授张勇对爬虫可能涉及的犯罪行为进行了分类：从可能侵犯的权益来看，包括计算机系统安全、个人信息、版权、国家秘密、商业秘密、市场竞争秩序等；可能危害计算机信息系统安全、非法获取公民个人信息、非法获取商业秘密、破坏版权技术保护措施；从爬行结果来看，存在不公平竞争、侵犯作权、侵犯人格权等问题。”

财经E法律在判决文件网络上搜索了 54 与爬虫有关的刑事判决，涉及多项犯罪。其中， 26 被认定为侵犯公民个人信息；非法获取计算机信息系统 10 ；传播淫秽物品牟利 5 ；破坏计算机信息系统 3 ；提供侵犯、非法控制计算机程序、工具 3 ；侵犯知识产权 3 ；非法侵犯计算机信息系统、赌场、盗窃、欺诈 1 。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31