Scrapy 爬虫

Scrapy 环境 Scrapy Spider 分类

Scrapy 概述

Scrapy是一个用Python编写的快速，开源的网页爬虫框架，用于在基于XPath的选择器的帮助下从网页中提取数据。

Scrapy于2008年6月26日首次在BSD下发布，并于2015年6月发布了里程碑1.0。

为什么使用Scrapy？

构建和扩展大型爬取项目比较容易。
它有一个称为选择器的内置机制，用于从网站中提取数据。
它异步处理请求并且速度很快。
它使用自动调节机制自动调整爬网速度。
确保开发者无障碍。

Scrapy的特点

Scrapy是一个开放源代码并可以免费使用网络爬虫框架。
Scrapy以JSON，CSV和XML等格式生成Feed输出。
Scrapy具有内置支持，可以通过XPath或CSS表达式从源选择和提取数据。
基于爬虫的Scrapy允许自动从网页中提取数据。

优点

Scrapy很容易扩展，快速和强大。
它是一个跨平台的应用程序框架（Windows，Linux，Mac OS和BSD）。
Scrapy请求被安排和异步处理。
Scrapy带有称为 Scrapyd的 内置服务，它允许使用JSON Web服务上传项目和控制蜘蛛。
尽管该网站没有用于原始数据访问的API，但可以取消任何网站。

缺点

Scrapy仅适用于Python 2.7。+
不同的操作系统安装是不同的。

Scrapy 环境 Scrapy Spider 分类

教程导航