本文内容来源于 Rstatistics.net 的 60 R Tips,这些都是作者们长期使用 R 积累下来的一些技巧或者建议。我觉得这个内容挺好的,并且在书上看不到这些内容,所以做了搬运和翻译,重点是加了例子,否则如果只看文字可能搞不懂状况。
接触爬虫也有一段时间了,起初都是使用request库爬取数据,并没有使用过什么爬虫框架。对于scrapy这个框架,之前仅仅是好奇,这两天看了一下scrapy文档,也试着去爬了一些数据,发现还是很方便的。
本次爬取的是马蜂窝网的中国旅游热门城市板块,爬取字段有城市名称(中英名)、城市主页url、图片url、去过人数、旅游城市描述,最后保存到本地mysql数据库。