标签: 爬虫

前几天发了《使用Node.js制作爬虫教程》之后，有朋友问如果要爬文件怎么办，正好之前也写过类似的，那就直接拿过来写个续篇吧，有需要的可以借鉴，觉得不好的可以留言交流。

案例回顾

上一篇中，主要利用nodejs发起一个getData请求来得到4星角色的id列表。通过chrome开发者工具来查看页面结构，分析得出角色详细页面的URL规则和详细页面中想要抓取内容的位置。再循环遍历4星角色id列表去发起角色详细页面的请求并解析出想要收集的内容。

程序猿DD原创大约 4 分钟

使用Node.js制作爬虫教程

应邀写一点使用Node.js爬点资料的实例，对于大家建站爬一些初始资料或者做分析研究的小伙伴们应该有些帮助。

目标分析

目标地址：http://wcatproject.com/charSearch/

抓取内容：抓取所有4星角色的数值数据。如果我们采用手工采集的步骤，需要先进入目标地址，然后选择4星角色的选项，页面下方出现所有4星角色的头像，依次点击每个4星角色头像后会出现角色的详细页面，记录下详细页面中数据。显然这样的做法如果角色一多，手工处理是非常吃力的，所以我们就需要一个自动的脚本去完成这样的动作。大家不妨先手工试试这样的访问步骤，有助于后面的分析和实践。

程序猿DD原创大约 6 分钟