闲的无事写了一个火车采集器的 QQ 空间说说任务模板,用于采集已有访问权限的指定 QQ 号的所有说说消息。有需要的就拿去用,转载请注明出处。默认输出格式为 TXT ,每行一条说说。
模板下载地址:http://cloud.189.cn/t/zAfYNfu2yq2m
使用方法:导入火车采集器后会出现名为“taotao”的任务,双击进行编辑。
默认采集地址为:
http://taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin=[QQ号码]&inCharset=utf-8&outCharset=utf-8&hostUin=[QQ号码]¬ice=0&sort=0&pos=(*)&num=20&cgi_host=http%3A%2F%2Ftaotao.qq.com%2Fcgi-bin%2Femotion_cgi_msglist_v6&code_version=1&format=jsonp&need_private_comment=1&g_tk=[参数1]
需将[QQ号码]替换为被采集 QQ 号码,不保留方括号。[参数1]获取方法见下,不同 QQ 号码之间参数1不相同。
打开被采集 QQ 空间后,按 F12 开启元素审查。切换到 network 标签后点击 QQ 空间中的说说链接。在元素审查中搜索“taotao.qq.com”,找到以”g_tk=*******”结尾的 request url ,此处的数字即为参数1。
输出格式为 TXT ,需要对火车采集器默认的文件模板稍加修改。
以上为默认 TXT 文件模板,位于 .\Extensions\LocoySpider\FileTemplate 。使用记事本修改为“[标签:说说]”保存即可。
由于未做容错处理,说说内容如以逗号结尾,可能导致将本条说说及其下所有的评论一并抓取,但不影响下一条说说内容。
你好,电脑渣渣的我按照您的步骤试了很多遍,都采集不出内容,要抓狂了,可以咨询一下您吗?拜托了(鞠躬)
可能改了,有空的话我再看看