[软件发布][sf-spider]用Python爬取SegmentFault上的标签

手头项目需要互联网相关的词汇作为语料库,因此选择了SegmentFault这一国内较大的IT从业者社区作为语料库来源,它有一个标签列表,里面有所有用户添加的标签,按照热度排序。可是总共几百页的标签列表,如果人工进行复制粘贴,费时费力,效果也不尽人意。于是我利用Python写了一个小爬虫,短短几分钟就能全部将所有标签采集下来,并保存成CSV格式,简单方便。


源码地址:LuRenJiasWorld/sf-spider

该工具释出源码,并以Apache2.0协议开源

发表评论

电子邮件地址不会被公开。 必填项已用*标注