colly库简介
# colly库简介
Colly是一个用于构建Web scraper的Golang框架。使用Colly,您可以构建各种复杂的Web scraper,从简单的scraper到处理数百万个Web页面的复杂异步网站爬虫。 Colly提供用于执行网络请求和处理所接收内容的API(例如,与HTML文档的DOM树交互)。
# 项目地址
gocolly/colly: Elegant Scraper and Crawler Framework for Golang (github.com) (opens new window)
# 安装
官网上说使用go get -u github.com/gocolly/colly但坑爹的是这玩意下载的版本是1.2.0
亲测应该使用go get -u github.com/gocolly/colly/v2
# 引用
github.com/gocolly/colly/v2
还是那样子,按官网来的话得到的是1.2.0的版本
以上坑爹的经验时间来自于2022/02/22版本号为2.1.0,至于未来是否改变自行测试
# 源码解读
# 支持类型
OnRequest请求执行前调用OnResponse响应返回之后调用OnHTML监听执行selectorOnXML监听执行selectorOnHTMLDetach取消监听,参数为selector字符串OnXMLDetach取消监听,参数为selector字符串OnScraped完成抓取后执行,完成所有工作后执行OnError错误回调Visit正式启动访问
编辑 (opens new window)