首页 技术 正文
技术 2022年11月20日
0 收藏 301 点赞 4,623 浏览 1699 个字

系列文章列表:

scrapy爬虫学习系列一:scrapy爬虫环境的准备:       http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy01.html

scrapy爬虫学习系列二:scrapy简单爬虫样例学习:  http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy02.html

scrapy爬虫学习系列三:scrapy部署到scrapyhub上:   http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_004_scrapyhub.html

scrapy爬虫学习系列四:portia的学习入门:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_010_scrapy04.html

scrapy爬虫学习系列五:图片的抓取和下载:                 http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_011_scrapy05.html

scrapy爬虫学习系列六:官方文档的学习:                     https://github.com/zhaojiedi1992/My_Study_Scrapy

注意: 我自己新建的一个QQ群(新建的),欢迎大家加入一起学习一起进步 ,群号646187336

portia的简介:

Portia是我们的开源可视化爬虫工具,可让您在不需要任何编程知识的情况下爬取网站!简单地注释您感兴趣的页面,Portia将创建一个蜘蛛来从类似的页面提取数据

scrapyhub上的一些简介视频(需FQ): https://helpdesk.scrapinghub.com/support/solutions/articles/22000201027-learn-portia-video-tutorials-

scrapyhub上的完整入门手册:https://helpdesk.scrapinghub.com/support/solutions/articles/22000200442-using-portia-the-complete-beginner-s-guide

portia官方帮助:http://portia.readthedocs.org/en/2.0-docs/

前言:

本文打算使用scrapy官方提供的demo网页(http://quotes.toscrape.com/page/1/)执行工程创建,这个网页相信大家都很熟悉了。那我们这就开始吧。

注意: 下面图片很多, 难免看不清楚的, 可以使用ctrl+鼠标滚轮缩放网页,方便你更清楚看清图片。

1.打开官网https://app.scrapinghub.com/

scrapy爬虫学习系列四:portia的学习入门

2.创建工程

scrapy爬虫学习系列四:portia的学习入门

3.设置开始抓取网页

scrapy爬虫学习系列四:portia的学习入门

4.创建爬虫

scrapy爬虫学习系列四:portia的学习入门

5.创建样例页

scrapy爬虫学习系列四:portia的学习入门

6.设置元素获取方式

6.1添加content字段

scrapy爬虫学习系列四:portia的学习入门

scrapy爬虫学习系列四:portia的学习入门

scrapy爬虫学习系列四:portia的学习入门

6.2添加author字段

scrapy爬虫学习系列四:portia的学习入门

6.3添加tag字段

scrapy爬虫学习系列四:portia的学习入门

scrapy爬虫学习系列四:portia的学习入门

7.运行爬虫

scrapy爬虫学习系列四:portia的学习入门

8.查看爬虫结果

scrapy爬虫学习系列四:portia的学习入门

9.查看爬虫运行结果

scrapy爬虫学习系列四:portia的学习入门

10.查看item结果

scrapy爬虫学习系列四:portia的学习入门

11.下载我们可视化的源码吧

scrapy爬虫学习系列四:portia的学习入门

我这个时间下载到的scrapy貌似没法运行,貌似官方网址有点问题,但是portia是可以用的。当然我们可以使用portia2code去转换portia代码为scrapy代码。

具体步骤可以参考如下网址:https://helpdesk.scrapinghub.com/support/solutions/articles/22000188424-how-do-i-download-my-portia-2-0-project-into-a-scrapy-project-

好了。我们使用的portia就是可以获取指定网页的数据,详细的大家可以自己摸索摸索。

注意: 现在官方修复了这个问题, 今天我再去下载的时候可以直接使用了。 也就不用protia2code转换了。

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,491
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,907
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,740
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,493
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:8,132
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:5,294