微博爬虫 | 收藏控看过来:微博大v博文导出word图文小册子

微博爬虫 | 收藏控看过来:微博大V博文导出WORD/PDF图文小册子

今天小淘和大家分享一款能完美下载并排版的微博大v博文导出小工具:

以下是官网的简介:软件功能及使用说明:
1、可以输入大V的微博链接采集并下载该大V所有的历史博文,导出成word格式图文和excel汇总表。

2、【重要】使用前准备工作及注意事项:

2.1、本软件依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件。
2.2、如果软件采集不了或者报错,请更新一下目录当中的chromedrvier.exe,该文件需要与你安装的谷歌浏览器版本一致。
2.3、教程参考:https://www.futaike.net/archives/1119.html, https://www.futaike.net/archives/6992.html

2.4、为保证能正常采集,安装后需要配置相关的环境变量,请按:https://www.futaike.net/archives/1033.html,进行配置。

2.5、请在采集前查看谷歌浏览器打开的微博界面,如果没有登录,请先手动登录一下再重新运行软件。 2.6、确定采集的链接后,请根据自己的需求,修改软件目录当中《微博_年份.txt》对应的年份,只保留要采集的年份。修改后保存再运行程序。注意:年份之间的区隔为半角逗号,非标准符号可能会让程序出错。

下面我们就一起来看看这款小工具的实际效果:

Image 9
软件目录 – 来自 富泰科

我们按上面的操作说明把相应的准备工作做一下以后,回到软件目录下,启动主程序:

Image 10
软件界面 – 来自 富泰科

然后我们找一个大V的博客,一个体育博主的主页(PC端):

陈君乐的微博_微博 (weibo.com):

https://weibo.com/chenjunle?refer_flag=0000015010_&from=feed&loc=nickname&is_all=1

Image 11
陈君乐的微博_微博

然后我们把微博_年份这个设置成导出2022年的。

Image 12

然后我们发现打开浏览器以后程序报错了。看了一下软件目录下的说明,应该是这个chromedriver.exe没有匹配当前的浏览器。

Image 13

那我们就按说明更新一下。

Image 14

软件目录下有一个这个程序,可以自动更新,我们双击一下

Image 15

出来这样一个窗口,然后就提示更新成功了。

Image 16

我们再看一下目录下这个文件的日期已经是最新的了。

那么下面我再来运行一下试试。

Image 17

我们看到,软件首先提示要在打开的浏览器当中看是否是登录状态。然后有30s时间让我们确认如果没有登录,在这个时间内登录即可。

然后数据就出来了。

我们来等一会,看采集的数据如何?

一会以后,我们看软件目录下有一个叫微博博文_XXX.docx文件,以及微博图片文件夹。我们分别打开看看。

Image 18

我们打开word文件,可以看到,标题有3级,分别是年、月、日,然后就是具体的文字与图片。

可以看出,这个图文混排的效果还是不错的,而且标题按不同的层级进行设置,可以方便用户按需查看。

Image 19

可以看到,只要有图片的,都有下载并排版到word当中了。我们再看一下视频,如下图,软件好像没有下载视频的功能,所有的视频的地方都只有文字。

Image 20

然后我们再来看一下那个图片文件夹:

Image 21

可以看到,所有的图片都有同步下载到这个文件夹,然后再插入到word当中。当然有的同学喜欢PDF格式,那么一键打印成PDF再保存也是没有问题的。

总结:这款小工具可以实现大V博文的一键下载及排版,使用上也比较简单,没有什么难度,值得微博收藏控们收藏使用。

感兴趣的同学可以点击以下链接去商品页面下载试用。

随便说两句: