GitHub - WaSheep/puppeteer-deep: Linux + Chrome双端操纵能力；SPA爬虫、性能分析、自动化UI测试；爬取《es6标准入门》；

Puppeteer-Deep (Node: v8.4.0)

API

https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#puppeteerlaunchoptions

Introduce

Puppeteer是一个node包，他提供了用来控制Chrome的高级API，有点类似于PhantomJS。不同于Phantom，Puppeteer是Chrome官方团队进行维护的，前景更好。在这个repo中，主要先介绍Puppeteer，具体的应用场景不断发掘

Puppeteer Key Feature

用网页生成的PDF文件
爬取 SPA应用并生成预渲染内容（即“SSR”）
从网站抓取内容
自动化表单提交、UI测试、键盘输入等。
创建一个最新的自动化测试环境。直接在
使用最新的JavaScript和最新版本Chrome。
捕获站点的时间线跟踪，以帮助诊断性能问题。

Scene

Crawler（爬取阮老师的es6, 具体流程可以看代码，下面提几个关键点）

npm run es6: 执行之后，会在es6-pdf下生成阮老师的es6文章的pdf版本

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
data		data
doc		doc
es6-pdf		es6-pdf
.gitignore		.gitignore
README.md		README.md
es6-crawl.js		es6-crawl.js
index.js		index.js
package-lock.json		package-lock.json
package.json		package.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Puppeteer-Deep (Node: v8.4.0)

API

Introduce

Puppeteer Key Feature

Scene

Crawler（爬取阮老师的es6, 具体流程可以看代码，下面提几个关键点）

如果在page go完成之后马上对page进行dom操作只能抓到loading（如下图），所以用timeout做了简单点处理

最终爬取效果如下，PDF的尺寸、预览效果、首页重复就不做过多整理，作者不开心就尴尬了....

预览效果如下,如果想要自己处理，可以设置一下chrome尺寸，打印页数

Performance (性能分析, ing.........)

About

Releases

Packages

Languages

WaSheep/puppeteer-deep

Folders and files

Latest commit

History

Repository files navigation

Puppeteer-Deep (Node: v8.4.0)

API

Introduce

Puppeteer Key Feature

Scene

Crawler（爬取阮老师的es6, 具体流程可以看代码，下面提几个关键点）

如果在page go完成之后马上对page进行dom操作只能抓到loading（如下图），所以用timeout做了简单点处理

最终爬取效果如下，PDF的尺寸、预览效果、首页重复就不做过多整理，作者不开心就尴尬了....

预览效果如下,如果想要自己处理，可以设置一下chrome尺寸，打印页数

Performance (性能分析, ing.........)

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages