js直接打开选择文件窗口_Node.js开发RPA自动抓取网页的文字内容
js直接打开选择⽂件窗⼝_Node.js开发RPA⾃动抓取⽹页的⽂
字内容
背景
本⽂开发RPA脚本会⽤到JavaScript语⾔。这⾥所⽤到的RPA⼯具LeanRunner,可从Windows的应⽤商店上直接下载,它可以⽀持使⽤node.js的开源⾃动化库做RPA开发。⽤户可以按照下⾯操作步骤,逐步实现⾃⼰的RPA脚本。
操作步骤
1. 新建项⽬
打开LeanRunner, 选择【项⽬】--【新建】--【选择基本项⽬模板】,输⼊项⽬名称:demo,选择项⽬路径:
2. 安装依赖库
selenium-webdriver 是流⾏的操作Web⾃动化库,使⽤chromedriver库可以驱动Chrome实现各类⽹页⾃动化,当然⽂字的提取也不在话下,本次RPA就是利⽤这两个库来实现功能。所以创建好项⽬之后需要安装对应的库。
森男点击LeanRunner打开命令⾏⼯具按钮 ,执⾏安装命令:
npm init -ynpm install chromedriver selenium-webdriver @types/selenium-webdriver --save
备注:npm作为node.js的包管理机制,需要安装node.js环境才能使⽤
谷歌街景
3. 定义流程步骤
定义流程步骤是为了让⾃动化流程有好的可读性。
a. 打开 main.js,在【⼯具箱】--【框架】中到 stepGroup ⽅法,拖拽到js ⽂件中。
b. 在弹出的对话框中 输⼊描述⽂本: 抓取⽹页⽂本内容 并点击插⼊代码。
c. 此时,main.js 的⽂件内容:
const { stepGroup } = require('leanrunner');async function main() {    await stepGroup("抓取⽹页⽂本内容", async () => {    })}
d. 继续拖拽【⼯具箱】--【框架】中的step ⽅法,描述⽂本输⼊:使⽤Chrome浏览器打开要抓取的⽹站:
马的故事
e. 按照上⾯操作步骤,再次插⼊ 抓取⽂本  和 关闭浏览器  的步骤定义。
main.js如下:
const { step } = require('leanrunner');const { stepGroup } = require('leanrunner');async function main()
{    await stepGroup("抓取⽹页⽂本内容", async () => { f. 插⼊Workflow.run函数, RPA执⾏最终要执⾏,选择【⼯具箱】--【Framework】中的Workrun.run()函数:
g. 运⾏的函数中 输⼊“main”:
最终代码为:
const { Workflow } = require('leanrunner');const { step } = require('leanrunner');const { stepGroup } = require('leanrunner');async function main() {    await stepGro
4. 实现操作步骤
参考 selenium-webdriver API
a. 使⽤Chrome浏览器打开要抓取的⽹站:美甲制作
const WebDriver = require('selenium-webdriver');let driver = new WebDriver.Builder().forBrowser('chrome').build();const url = 'wufazhuce/one/25共享打印机无法连接
上述代码创建了⼀个WebDriver实例,打开浏览器窗⼝,并导航到⽬标url。
1吨油等于多少升b. 抓取⽂本:
let text = await driver.findElement({ css:'div[]'}).getText();console.log(text);
上⾯代码⽤css选择器定位到要访问的元素,并打印输出。
c. 关闭浏览器
await driver.close();
最终实现的代码如下:
const { Workflow } = require('leanrunner');const { step } = require('leanrunner');const { stepGroup } = require('leanrunner');require('chromedriver');const We
执⾏
点击“运⾏”按钮,或者点击“运⾏项⽬”按钮
可以看到浏览器打开⽹页并将⽂本内容打印在LeanRunner设计器的输出⾯板。
如果是运⾏项⽬,还会显⽰html的运⾏报告:
对⽤户来说,html报告有较强的可读性。
总结
⾄此,我们完成了⼀个基本操作⽹页的RPA。后续可以在此RPA基础上进⼀步加深操作,⽐如抓取的⽂本内容存放到Excel表格中,或者存放到数据库中。
本⽂⽤到的selenium-webdriver⾃动化库,是⾮常流⾏的开源库,能够⽀持各种类型的浏览器,并能及时更新,⽀持最新版本的浏览器。同时Node.js也是⾮常流⾏的开源平台。基于这样⼀些技术开发RPA⾃动化脚本,保持了RPA脚本的可⽤性和可维护性,结合LeanRunner RPA平台,能够帮助企业,快速打造您⾃⼰的流程⾃动化。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。