语言小结
  • program-language-note
  • contact
  • common
    • 代码风格
    • 概念语法
      • 类型
      • 注释
      • 字符
      • 语句
      • 操作符
      • 函数
        • 递归
    • 格式化参数
    • 源码结构
    • 数据结构
    • 名词
  • 电路
    • 内存地址
    • Untitled
    • Code
  • C
    • note
    • overview
      • helloworld.c
      • c标准
      • 关键字
      • tips
      • util.c
    • 语法
      • 函数
        • main
      • const
      • static
      • 作用域
    • 编译和运行
      • c代码内存模型
      • 预处理
        • include
        • define
    • 头文件
    • 基本数据类型
      • 整型
      • 枚举
      • 浮点型
      • 指针
      • 数组
      • 结构和联合
    • 指针&数组、指针&函数
    • API
    • 存储结构
    • 操作符
      • sizeof
    • typedef
    • 输入输出
    • 格式化参数
    • 左値右値
    • 性能思考
    • volatile
    • 字符串
      • find_char.c
    • 动态分配
      • alloc.h
      • alloc.c
      • alloc_usage.c
    • note
  • cpp
    • 资源
    • note
    • 数据结构
    • 智能指针
    • 编译过程
  • shell
    • usage
    • Untitled
  • Rust
    • overview
  • Lisp
    • Untitled
  • web
    • overview
      • index
      • 软件工具
      • ARIA规范
      • SEO
    • style
    • html
      • 标签、元素
        • 标签快记
        • 联系信息
        • 引用
        • 列表
        • 语言设置
        • meta
      • 页面结构
        • 图片
        • 视频
        • 引用css、js文件
      • 等价字符
      • 链接
        • 邮件
      • 表单
        • note
      • 表格
    • css
      • 字体
      • 布局
        • position
        • float
        • display
        • flexbox
    • js
    • note
  • java
    • note
    • java语言程序设计
    • 设计模式
      • 大话设计模式-吴强-2010
      • 大话设计模式-程杰
      • 设计模式-gof
      • 设计模式解析
      • 原则
      • 单例
    • java程序设计第10版-基础
    • java程序设计第10版-进阶
    • java核心技术第9版-I
    • jar包
    • 安全
    • 反射
  • python
    • note
    • index
    • 个人记忆点
    • 疑惑
    • simple
    • 精通Python爬虫框架scrapy
    • 语法
    • scrapy
      • notice
      • index
  • 汇编
    • Untitled
  • kotlin
    • index
    • note
    • by android
      • note
      • index
  • groovy
    • gradle
Powered by GitBook
On this page
  • XPath
  • 安装

Was this helpful?

  1. python

精通Python爬虫框架scrapy

PrevioussimpleNext语法

Last updated 5 years ago

Was this helpful?

XPath

develop tools - console inspect - 选中一个标签 - 右键可以 copy xpath

输入 $x('/html/body/h1') 来搜索<body>内的<h1>元素 (按路径检索)      
输入 $x('//h1')来搜索页面的<h1>元素(模糊检索,搜索所有)      
输入 $x('//a/@href')、$x('//a[@href="..."]')(搜索属性,[]内还可以使用一些函数,如contains等)        
输入 $x('//a/text()')(选取文本)

[]内函数参见:http:www.w3schools.com/xsl/xsl_functions.asp(这个页面已经无法访问)

scrapy shell https://www.example.com
# HtmlResponse  
response.xpath(...).extract()

使用XPath检索时,尽量将表达式开头写的更靠近目标一些,防止变化引起的不确定性。对于类的运用也尽量减少,因为一般性类是用来改变外形的,也比较容易变化。而id相对以上的方式明显是最可靠的。当然,上述的可靠性是根据其与元素的关联性来确定的,关联性越强,变化性越弱

安装

书本强烈推荐Vagrant。。可能是为了虚拟机环境更统一 我直接上的Scrapy.org进行安装的, 后来发现好像conda只是集成了很多库的python...于是又像Vagrant屈服了

需要安装Vagrant和Docker(用lantern连接这两个站点的网速好像有点僵。。) 用 下载SecurAble工具,可以检测是否支持Hardware Virtualization 如果不支持,可以在scrapybook.s3.amazonaws.com在线运行

Anaconda
Miniconda
https://www.grc.com/securable.htm