本文完整阅读约需 2 分钟,如时间较长请考虑收藏后慢慢阅读~

手头项目需要互联网相关的词汇作为语料库,因此选择了SegmentFault这一国内较大的IT从业者社区作为语料库来源,它有一个标签列表,里面有所有用户添加的标签,按照热度排序。可是总共几百页的标签列表,如果人工进行复制粘贴,费时费力,效果也不尽人意。于是我利用Python写了一个小爬虫,短短几分钟就能全部将所有标签采集下来,并保存成CSV格式,简单方便。


源码地址:LuRenJiasWorld/sf-spider

该工具释出源码,并以Apache2.0协议开源