colly库简介
# colly
库简介
Colly
是一个用于构建Web scraper
的Golang
框架。使用Colly
,您可以构建各种复杂的Web scraper
,从简单的scraper
到处理数百万个Web
页面的复杂异步网站爬虫。 Colly
提供用于执行网络请求和处理所接收内容的API(例如,与HTML文档的DOM树交互)。
# 项目地址
gocolly/colly: Elegant Scraper and Crawler Framework for Golang (github.com) (opens new window)
# 安装
官网上说使用go get -u github.com/gocolly/colly
但坑爹的是这玩意下载的版本是1.2.0
亲测应该使用go get -u github.com/gocolly/colly/v2
# 引用
github.com/gocolly/colly/v2
还是那样子,按官网来的话得到的是1.2.0
的版本
以上坑爹的经验时间来自于2022/02/22
版本号为2.1.0
,至于未来是否改变自行测试
# 源码解读
# 支持类型
OnRequest
请求执行前调用OnResponse
响应返回之后调用OnHTML
监听执行selector
OnXML
监听执行selector
OnHTMLDetach
取消监听,参数为selector
字符串OnXMLDetach
取消监听,参数为selector
字符串OnScraped
完成抓取后执行,完成所有工作后执行OnError
错误回调Visit
正式启动访问
编辑 (opens new window)