利用爬虫采集数据必须注意的事项

现在利用爬虫技术采集不能随便爬取，必须明白爬取数据是有风险的。在使用爬虫技术采集数据时，应注意：

正当地使用爬虫技术爬取数据

一是，正当地使用爬虫技术手段爬取数据。应避免强行破解、绕开网站经营者设置的数据保护措施，避免访问频率过高，避免对网页造成破坏等。一句话，爬取数据不能对别人的系统正常运行造成影响。

根据robots协议规范地爬取，注意脱敏或模糊化处理

二是，规范地爬虫技术爬取的对象。根据robots协议、保护数据的技术措施、设计逻辑（验证机制、授权接口等）等要素，综合判断被访问者允许被爬取的数据范围；避免未经授权爬取公民个人信息、独创性表达的作品数据、和经营者核心业务有关的数据等敏感性数据，不慎爬取到上述信息时，须注意脱敏或模糊化处理。

爬取的数据商用时要注意规避风险

我们一般爬取时，看看被爬取对象的robots协议，如，我们爬取头条时，就要看看看看头条的robots协议，这里有哪些时允许的，哪些是不允许的，我们只能爬取别人允许的。
头条rebots协议示意图
像这个robots里面，就具体规定了像百度、Google可以爬取的内容规则。他们用于商业目的就要严格遵循这个规则，这就是说，别人已经声明不得爬取的数据，最好不要爬取，更不要用于商业目的，一定要区分学习和商用的爬虫风险，一般个人学习或交流没什么风险，但商用目的一定要注意这些风险！