这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科
美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。
软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
做爬虫总会遇到各种各样的反爬限制,反爬的第一道防线往往在登录就出现了,为了限制爬虫自动登录,各家使出了浑身解数,所谓道高一尺魔高一丈。
今天分享个如何简单处理滑动图片的验证码的案例。
图片
类似这种拖动滑块移动到图片中缺口位置与之重合的登录验证在很多网站或者 APP 都比较常见,因为它对真实用户体验友好,容易识别。同时也能拦截掉大部分初级爬虫。
作为一只 python 爬虫,如何正确地自动完成这个验证过程呢?
先来分析下,核心问题其实是要怎么样找到目标缺口的位置,一旦知道了位置,我们就可以借用 selenium 等工具完成拖动的操作。
我们可以借用 opencv 来解决这个问题,主要步骤:
image.png
opencv 是什么?
OpenCV(Open Source Computer Vision Library)是开放源代码计算机视觉库,主要算法涉及图像处理、计算机视觉和机器学习相关方法,可用于开发实时的图像处理、计算机视觉以及模式识别程序。
直接安装
pip install opencv-python
首先将图片进行高斯模糊处理,高斯模糊的主要作用是减少图像的噪声,用于预处理阶段。
import cv2 as cv
image = cv.imread(image_path)
blurred = cv.GaussianBlur(image,(5,5),0)cv .imshow("blurred", blurred)
处理后的效果
图片
接着用 Canny 边缘检测到得到一个包含“窄边界”的二值图像。所谓二值图像就是黑白图,只有黑色和白色。
canny = cv.canny(blurred,200,400)
cv.imshow("canny", canny)
图片
轮廓检测
contours, hierarchy = cv.findContours(canny, cv.RETR_CCOMP, cv.CHAIN_APPROX_SIMPLE)
for i, contour in enumerate(contours): # 所有轮廓
x, y, w, h = cv.boundingRect(contour) # 外接矩形
...
今天收到一款电商类的爬虫软件:天猫店铺商品采集助手 ,该软件网站介绍:
可一键采集店铺下所有的商品内容。用户可以通过输入天猫店的链接即可下载该店铺下所有的商品内容:如商品名、价格、链接、当月已售、库存、首图、总销量等。软件输入链接后回车即可自动采集并下载数据,下载的数据自动导出到软件目录下的excel表格当中。
那么我们下面就来实测一下,看该软件是否如网站介绍,有上述的功能?
首先,还是先去网站下载下来,解压以后,软件也是免安装绿色版,这个第一印象就很好,毕竟现在很多软件,安装包当中也不知道有些什么,然后一通安装后,电脑上就莫名多了很多垃圾软件如360/或者什么游戏。不但电脑空间被占,而且运行速度也被严重拖慢,所以对于绿色软件,小淘心里总是有莫名的好感。毕竟,如果软件不好用,一删了之,对电脑什么都没有影响,清清爽爽。
软件目录
话不多说,我们运行主程序之前,先来看一下使用说明,
使用说明
我们看第1条,是需要我们安装谷歌浏览器,这个不费劲,电脑上就有。然后就是最后1条,需要手机天猫的登录信息,我们去按这个链接的提示去操作一下。 通过fiddler抓包获取自动登录的cookie – 适用于微信类应用及小程序等 – 富泰科 (futaike.net)
cookie值
操作过程这里就不演示了,大家按上述链接一步步来就可以获得,我们在获得登录后的cookie值后,复制到软件目录下的tmall_cookie.txt下替换之前的。
OK,现在准备工作就绪,下面我们就来主程序:
软件界面
软件界面没有GUI(可视化界面),而是一个简陋的dos界面,有点难看。不过我们不是颜值控,外观不重要,重要的是功能。
我们看上面说明,基本上和刚才的文本说明差不多,第3条还有一个额外功能的说明,提示软件还可以下载商品详情参数和图片。这个先放一下,回头再说,我们先看这个软件的采集情况。
我们来找一个天猫店链接:https://jinglingbaobeimy.tmall.com/search.htm?spm=a1z10.3-b.w5001-21245322033.4.4bfc608fQQBGLq&scene=taobao_shop,如下图:
天猫店铺
粘贴到软件里面,回车:
运行界面
我们可以看到,软件提示该店铺共有16页商品内容,然后就开始抓取了。一会就抓取完成了,然后我们按提示在软件目录下看到有生成了一个表格文件,
导出的表格
文件以日期时间加上天猫店的名称进行命名,我们打开看一下:
导出的字段
表格当中有几个字段:title应该是商品名、url是商品链接,img应该是商品首图,price自然就是价格了,sold和total_sold应该是当月销量和累计销量。最后那个应该是库存,字段还是挺全的。
我们再顺便来看一下,这个图片是否是原始高清图,复制一条链接到浏览器当中打开,这个尺寸和清晰度应该是原始大图无疑。
图片
总结:软件大小大概16M不到,界面简单,使用上手没什么难度,相比市面上很多复杂的采集器来说,这款专用工具可以说是极简到家了。而且采集速度极快,16页的商品,1分钟左右就采集下来了。采集到的字段内容也很丰富,而且还有很重要的一个商品累计销量字段。那么这款软件对于某些从事电商行业的人来说,应该是非常实用的,值得下载使用。
软件下载地址: 天猫店铺商品采集助手 – 一键采集店铺下所有的商品内容 – 富泰科 (futaike.net) https://www.futaike.net/shop/tmall-shop-products
提要:本文讲解了两部分内容:1、如何设置fiddler抓包https,2、如何设置自动获取小程序的登录信息。
1、打开应用:在软件目录的fiddler文件夹当中,双击fiddler.exe程序,打开应用。(如果软件目录当中没有,用户可百度自行下载安装)
fiddler.exe
2、打开菜单上的 工具 – 选项:
工具 – 选项
3、切换到https – 确认如下图所示,相应选项已经打勾,然后再点击 动作:
https – 动作
4、选择 信任根证书
信任根证书 1
信任根证书 2
信任根证书 3
信任根证书 4
5、到这步,我们应该是已经配置好了可以捕获https链接的设置。然后重启。
需要重启一下软件才会生效
6、确认一下上面设置是否生效。重启软件以后,随便使用edge或者谷歌浏览器(注意,IE或其他的浏览器可能不行,建议一定要使用上述浏览器),打开一些大型网站如:淘宝、携程等,看看fiddler软件当中的协议下的https是否如下图所示,前面的结果为200,如果是,说明设置成功。如果否,请重新设置。
https链接抓包成功
7、替换js:打开fiddler,如下图,切换到fiddler script,将下面的代码全部删除,然后将软件目录下的fiddler_js.txt下的代码全选,复制,粘贴到下面。然后:保存脚本
替换 fiddler script
保存脚本
8、上述步骤做完以后,我们还需要安装微信的电脑版,安装好以后登录
微信电脑版,安装、登录
9、然后点击左下角的小程序图标,打开
搜索相关的小程序
10、然后按我们要采集的目标网站或者app,选择对应的小程序,如果没有,搜索一下即可。
11、比如我们要采集马蜂窝的相关内容,我们就点击打开该小程序
小程序界面
12、小程序初次打开,需要我们登录,我们确认登录以后,即可进入主界面,这时我们按软件的说明点击进入到相关的页面(这里很关键:请打开一个景点的页面,如果打开的页面是其他的可能获取不到),如下图。这时,fiddler会自动获取登录该小程序的相关登录信息,并保存文件。然后我们就可以关闭小程序了。
13、 上述的1-7是 就是初次配置fiddler抓包程序的设置步骤(只需要设置一次),以及使用fiddler获取最新登录信息的步骤。(8-12步)
什么情况下需要8-12步?在采集软件运行后,界面有提示之前的登录信息过期,需要更新的,这时我们就需要启动fiddler,然后按上述8-12步,也就是从微信电脑版启动对应的小程序,运行一下。
知乎大v专栏下载,知乎大v问答采集及图文下载,知乎大v专栏视频采集下载,知乎大v专栏回答列表文章采集及图文下载,知乎大v专栏列表及文章采集及图文下载。今天小编就给大家介绍能采集和下载的工具,这些统统都能搞定。
给大家安利一下这款专门采集下载的工具软件:
这款工具,可以实现对 知乎文章采集及图文下载(可下载专栏列表、文章、回答列表、单个回答、视频列表等,用于将相应的链接放在指定文本当中运行软件即可下载,下载下来的图文效果同网站。
我们来看一下,这个软件的介绍(B站直达):
https://www.bilibili.com/video/BV1pF411a7N8?spm_id_from=333.999.0.0
然后,我们到软件下载页面( 下载地址)下载一下,软件是绿色版本,下载解压后运行即可。
Zhihu文章采集助手v2.20-全功能版 软件界面
软件的界面很简单,看了一下使用提示,一目了然,然后我们把相关的链接放到软件目录下,链接我们放置了不同频道的,以测试其兼容性。看是否可以自动识别,并能采集下载。
运行:
我们看软件能自动识别不同的链接,并对相应的链接进行自动下载。
下载大v回答文章的界面
这是下载好的某大v的回答文章列表
我们打开其中一篇,看图文排版都很OK
可以看到,这款软件还是很好的实现了对于知乎不同页面复杂的页面元素的兼容,并能将网站上不必要的js以及不相关的信息菜单等进行了去除。只保留了纯净的内容信息,并进行了很好的排版,非常适合我们进行收藏及阅读。
以上,就是我们对这款工具软件简单的测试,有兴趣的可以下载使用。
“软件:知乎”的搜索结果 – 富泰科 (futaike.net)
1、打开谷歌或edge浏览器, 按F12或者点击右键 – 检查。
浏览器操作
2、 切换设备仿真(蓝色),输入www.tmall.com回车打开。网站会自动切换为移动端显示的样式。
3、点击右上角登录按钮,进行网站登录。
登录网站
登录网站
4、登录成功以后,依次点击右侧的 1、Network网络 – 2、Doc文档 – 3、某条链接(如果没有显示,按一下ctrl+r或F5) – 4、找到Headers标头 – 再找到下面的Request Headers(请求标头)
请求标头
5、然后我们往下翻 ,就可以找到cookie这个参数及对应的内容了。
cookie
6、最后一步,将cookie:后所有的字符串全部复制,并保存到指定的文件当中。
如此,我们就完成了采集最新更新的移动端网站登录cookie的操作。
视频演示了如何通过后羿采集器采集微博二级评论
如何设置Chrome谷歌浏览器与chromedriver.exe版本对应
本教程主要向大家介绍如何在八爪鱼采集模板当中添加多关键字。
1
2
3
4
5
第二种情况:
然后返回保存即可。
如果采集完以后的关键词不要了,也按上述步骤操作删除即可。
下面简单为大家图文介绍一下八爪鱼采集器的模板规则如何进行批量网址生成。简明易懂,相信大家一看就会。
1、规则文件(otd文件)导入:
2、文件导入以后,在标题上点击打开规则文件:
3、下面是批量网址操作教程:
4、手动输入多个网址:
5、批量生成或者修改:
如何添加环境变量
1、打开环境变量:
2、如下图所示,选中path,点击编辑
3、选择 新建,将谷歌浏览器的安装路径复制到空白行,点击确定。
谷歌浏览器的安装路径如何查找:
在桌面的浏览器图标上点击右键,选择属性,如下图红框所示,双引号当中的路径即是软件的安装路径。
4、在系统变量窗体下,点击新建,填写变量名:chrome.exe,变量值为上图的目标后文本框当中的引号内的部分,复制过来即可。
5、测试是否成功:
在搜索框当中输入cmd,打开命令行窗口,输入chrome.exe,如下图,回车。
如果有浏览器窗口被启动,说明设置成功。如果没有,回头检查看哪步没有设置正确。