|
|
鉴于市面上没有让自己满意的网页爬取软件,于是自己搞了一个(现在主要是在内部用)。
发这个帖子主要是想问问:大家一般对爬虫、网页监控或者其他的网络工具都有什么功能要求?
下面是我们开发软件的一些说明:
使用 electron 框架开发的,语言肯定就是 JavaScript 了[部分模块使用其他软件开发的]
桌面软件,支持 windows mac Linux【也许需要 “云” 支持?运行部署到 Docker 中???】
* 数据提取 (爬虫)
* 网页内容监控(类似:OpenWebMonitor)
* 关键词分析 (实际上是输入一个关键词,提取百度 和 Google 搜索引擎 前 n 条内容返回,还可以提取 相关搜索 词)
* 网页内容分析(分析单个页面,获取网页内容、图片、视频之类的数据)
* OCR 识别(有些页面防止的价格信息、手机号之类的可能是图片,并不是数字,可以使用 OCR 来识别出具体的内容)
* 验证码识别(可以识别 简单 的图片验证码【不能识别很多大网站的验证码】,可能这个功能并不会发布出来)
URL 访问使用的是真实的浏览器(当前在 mac、Linux 上使用的是Chrome, windows 上是 Edge),因此可以执行页面的 JS 代码。
实际上数据提取也是执行用户指定的 js 代码(用户的 js 代码是在浏览器访问页面的上下文内执行,因此可以访问到页面的所有内容)
主要缺点也是:需要用户自己会写 js 代码.(只需要会 数据提取的代码就可以了,不需要关心调度和存储)
数据提取代码的例子可以看 https://github.com/QiYuTechOrg/extract 【里面有 百度 和 Google 搜索结果的提取代码】
|
|