Scrapy 保存数据

存储数据的最佳方法是使用Feed输出,这可确保使用多个序列化格式正确存储数据。JSON,JSON行,CSV,XML是序列化格式中支持的格式。数据可以通过以下命令存储:

scrapy crawl dmoz -o data.json

该命令将创建一个 data.json 文件,其中包含JSON中的抓取数据。这项技术适用于少量的数据。如果需要处理大量数据,那么我们可以使用Item Pipeline。就像data.json文件一样,当在 tutorial / pipelines.py中 创建项目时,会创建一个保留文件。