沈阳市长,绚烂人才市场现场招聘信息,holland是什么意思
一个框架,一个领域 一个好的框架必然凝聚了领域知识。WebMagic的设计参考了业界最优秀的爬虫Scrapy,而实现则应用了HttpClient、Jsoup等Java天下最成熟的工具,目标便是做一个Java语言Web爬虫的教科书般的实现。如果你是爬虫开发熟手,那么WebMagic会非常容易上手,它险些使用Java原生的开发方式,只不外供应了一些模块化的约束,封装一些繁琐的操纵,而且供应了一些便捷的功能。如果你是爬虫开发新手,那么使用并认识WebMagic会让你认识爬虫开发的常用模式、工具链、以及一些问题的处理方式。纯熟使用之后,相信本身从头开发一个爬虫也不是什么难事。因为这个目标,WebMagic的焦点非常简洁——在这里,功能性是要给简洁性让步的。
微内核和高可扩展性 WebMagic由四个组件(Downloader、PageProcessor、Scheduler、Pipeline)构成,焦点代码非常简洁,主要是将这些组件连系并完成多线程的任务。这意味着,在WebMagic中,你根基上能够对爬虫的功能做任何定制。WebMagic的焦点在webmagic-core包中,其他的包你能够懂得为对WebMagic的一个扩展——这和作为用户编写一个扩展是没有什么区其余。
看重实用性 固然焦点必要足够简洁,然则WebMagic也以扩展的方式,实现了很多能够帮忙开发的便捷功能。例如基于讲解模式的爬虫开发,以及扩展了XPath语法的Xsoup等。这些功能在WebMagic中是可选的,它们的开发目标,便是让使用者开发爬虫尽可能的简洁,尽可能的易维护。
本文地址:http://www.wbwb.net/bianchengyuyan/223722.html 转载请注明出处!