[软件发布][sf-spider]用Python爬取SegmentFault上的标签

本文完整阅读约需 2 分钟，如时间较长请考虑收藏后慢慢阅读~

手头项目需要互联网相关的词汇作为语料库，因此选择了SegmentFault这一国内较大的IT从业者社区作为语料库来源，它有一个标签列表，里面有所有用户添加的标签，按照热度排序。可是总共几百页的标签列表，如果人工进行复制粘贴，费时费力，效果也不尽人意。于是我利用Python写了一个小爬虫，短短几分钟就能全部将所有标签采集下来，并保存成CSV格式，简单方便。

源码地址：LuRenJiasWorld/sf-spider

该工具释出源码，并以Apache2.0协议开源

发表评论 取消回复

发表评论取消回复