插件(入门、编写)
0.等待成长的无代码爬虫
不好意思一开始就给你泼了一盆冷水。 很遗憾地说它并不完美,也许是因为它需要成长(每次打开它,我都会发现它发生了变化),但它所见即所得的体验仍然深深吸引着我。 。 (因为edge全局快捷键的改进,我现在改用edge了)
文档
官方文件
1 快速启动模块 1.1 中文设置
进入插件的控制界面谷歌浏览器插件离线,如图操作
1.2 找到您要操作的位置
这里有两种定位方式:CSS选择器、XPath选择器
如果你是一个编程新手,你不需要考虑两者的区别,甚至高手也不会考虑两者的区别。 可口可乐和百事可乐的区别只是一群脑残粉而已。
这里主要介绍css选择器,大致介绍一下,因为插件本身提供了基于css的人性化定位功能,如图:
可以看到这个函数叫做元素选择器,你可以用它来定位一个输入框,一个按钮,或者一张图片,一个序列号,只要点击网页上任何你想点击的位置谷歌浏览器插件离线,它就可以提取对应的CSS
你可以在(组件中)输入#kw,或者[name='wd'],总之鲁迅说,能运行就写吧,何必这么麻烦他
接下来介绍XPath选择器,点击这里查看xpath语法,在要点击的地方右键,点击勾选,然后会弹出该网页对应的html代码,右键点击代码高亮,复制xpath (经测试,对于xpath多元素支持并不完善)
1.3 操作
普通玩家对组件的操作无非是输入文字,点击控件跳转页面,但高端玩家会对这些操作添加各种限制,使其适应各种网页,下面将介绍这些内容在高级章节中。
1.3.1 点击
1.找到你要点击的位置
2.找到它(1.2有讲)
3. 复制该位置并将其粘贴到元素选择器
1.3.2 输入
首先,不需要提前选择元素来输入内容。 使用方法与点击类似,但需要输入的内容更多。
在HTML代码中,输入框通常放在表单中,而这部分在程序员的口中称为表单,因此需要将表单组件拖出,操作如图:
1.4 官例实践教学 1.4.1 百首歌曲
1.首先是触发器。 这里选择,即自己启动爬虫。
2、二是打开需要爬取的网页,在指定的地方输入网址
,必要时在“描述”中写上注释3.接下来是爬虫中最重要的一步,就是确定元素并对其进行操作。 这里,输入操作是在输入框上进行的。
一般选择元素的id和name,然后在表单中选择css模式,输入[name='q'],在指定位置半角符号,然后选择元素为“文本框”,输入“ stack...”(当然也可以使用xpath)
4.最后,由于404网站的搜索按钮是隐藏的,所以这里采用了一个比较棘手的方法。 默认的搜索按钮是[type=''],大多数情况下都可以运行。
5. 最后,是时候见证自动化了
第一个案例就这样完成了,请尝试将这个官方案例改为“百度”
1.4.2 爬取文本
2.高级章节(进行中)2.1变量类型
变量的官方文档:
根据官方文档提供的获取数据的方法,我将变量分为四种类型:全局键值对、数据列、循环、块数据。
2.2 判断语句2.循环
有两个循环组件
task(循环任务) Loop Data(循环数据):Loop Data和Loop(循环断点)可以说是一起使用的,就像Linux shell编程一样,循环由for、循环体、end组成。
#Loop Data 的 Loop through(意译:循环条件)
#Data columns(看不懂)
#Numbers(可以控制循环开始位置,但无法调整步长)
for i in range(start,end,1):
循环体
#Google sheets(404谷歌表格)
#Custom data(按照列表的元素循环)
lis=[]
for i in lis:
循环体
版权保护: 本文由 浏览器之家-浏览器下载,浏览器插件,浏览器教程 原创,转载请保留链接: /gugelanqi/7662.html