精通Python爬虫框架scrapy
XPath
输入 $x('/html/body/h1') 来搜索<body>内的<h1>元素 (按路径检索)
输入 $x('//h1')来搜索页面的<h1>元素(模糊检索,搜索所有)
输入 $x('//a/@href')、$x('//a[@href="..."]')(搜索属性,[]内还可以使用一些函数,如contains等)
输入 $x('//a/text()')(选取文本)scrapy shell https://www.example.com
# HtmlResponse
response.xpath(...).extract()安装
Last updated