这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科
美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。
软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
软件可以实现对 知乎文章采集及图文下载(可下载专栏列表、文章、回答列表、单个回答、视频列表等,用于将相应的链接放在指定文本当中运行软件即可下载,下载下来的图文效果同网站。下载地址:https://www.futaike.net/wp-content/uploads/futaike_soft/Zhihu文章采集助手v2.20-源-全功能版.zip
软件功能及使用说明:爱奇艺弹幕采集助手,用户输入任一爱奇艺的视频网址,采集该视频的弹幕内容。
今天给大家分享一款简单到有点简陋的微博评论专门的爬取下载小工具。
软件功能及使用说明:
可以输入大V的微博链接采集并下载该大V所有的历史博文,导出成word格式图文和excel汇总表。
富泰科强力推荐,强大且实用,每款都不容错过。
有数十种用于 Web 抓取的软件包…… 但是您只需要少数几个就可以抓取几乎所有网站。这是一个自己认定的说法。这里决定采用我们最喜欢的 5 个用于网络抓取的 Python 库
经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
该目标网站调用了极验的接口,极验在智能反爬虫的领域可以说相当之厉害。
本文主要是利用selenium进行模拟操作进行破解。
做爬虫总会遇到各种各样的反爬限制,反爬的第一道防线往往在登录就出现了,为了限制爬虫自动登录,各家使出了浑身解数,所谓道高一尺魔高一丈。
今天分享个如何简单处理滑动图片的验证码的案例。
图片
类似这种拖动滑块移动到图片中缺口位置与之重合的登录验证在很多网站或者 APP 都比较常见,因为它对真实用户体验友好,容易识别。同时也能拦截掉大部分初级爬虫。
作为一只 python 爬虫,如何正确地自动完成这个验证过程呢?
先来分析下,核心问题其实是要怎么样找到目标缺口的位置,一旦知道了位置,我们就可以借用 selenium 等工具完成拖动的操作。
我们可以借用 opencv 来解决这个问题,主要步骤:
image.png
opencv 是什么?
OpenCV(Open Source Computer Vision Library)是开放源代码计算机视觉库,主要算法涉及图像处理、计算机视觉和机器学习相关方法,可用于开发实时的图像处理、计算机视觉以及模式识别程序。
直接安装
pip install opencv-python
首先将图片进行高斯模糊处理,高斯模糊的主要作用是减少图像的噪声,用于预处理阶段。
import cv2 as cv
image = cv.imread(image_path)
blurred = cv.GaussianBlur(image,(5,5),0)cv .imshow("blurred", blurred)
处理后的效果
图片
接着用 Canny 边缘检测到得到一个包含“窄边界”的二值图像。所谓二值图像就是黑白图,只有黑色和白色。
canny = cv.canny(blurred,200,400)
cv.imshow("canny", canny)
图片
轮廓检测
contours, hierarchy = cv.findContours(canny, cv.RETR_CCOMP, cv.CHAIN_APPROX_SIMPLE)
for i, contour in enumerate(contours): # 所有轮廓
x, y, w, h = cv.boundingRect(contour) # 外接矩形
...
今天收到一款电商类的爬虫软件:天猫店铺商品采集助手 ,该软件网站介绍:
可一键采集店铺下所有的商品内容。用户可以通过输入天猫店的链接即可下载该店铺下所有的商品内容:如商品名、价格、链接、当月已售、库存、首图、总销量等。软件输入链接后回车即可自动采集并下载数据,下载的数据自动导出到软件目录下的excel表格当中。
那么我们下面就来实测一下,看该软件是否如网站介绍,有上述的功能?
首先,还是先去网站下载下来,解压以后,软件也是免安装绿色版,这个第一印象就很好,毕竟现在很多软件,安装包当中也不知道有些什么,然后一通安装后,电脑上就莫名多了很多垃圾软件如360/或者什么游戏。不但电脑空间被占,而且运行速度也被严重拖慢,所以对于绿色软件,小淘心里总是有莫名的好感。毕竟,如果软件不好用,一删了之,对电脑什么都没有影响,清清爽爽。
软件目录
话不多说,我们运行主程序之前,先来看一下使用说明,
使用说明
我们看第1条,是需要我们安装谷歌浏览器,这个不费劲,电脑上就有。然后就是最后1条,需要手机天猫的登录信息,我们去按这个链接的提示去操作一下。 通过fiddler抓包获取自动登录的cookie – 适用于微信类应用及小程序等 – 富泰科 (futaike.net)
cookie值
操作过程这里就不演示了,大家按上述链接一步步来就可以获得,我们在获得登录后的cookie值后,复制到软件目录下的tmall_cookie.txt下替换之前的。
OK,现在准备工作就绪,下面我们就来主程序:
软件界面
软件界面没有GUI(可视化界面),而是一个简陋的dos界面,有点难看。不过我们不是颜值控,外观不重要,重要的是功能。
我们看上面说明,基本上和刚才的文本说明差不多,第3条还有一个额外功能的说明,提示软件还可以下载商品详情参数和图片。这个先放一下,回头再说,我们先看这个软件的采集情况。
我们来找一个天猫店链接:https://jinglingbaobeimy.tmall.com/search.htm?spm=a1z10.3-b.w5001-21245322033.4.4bfc608fQQBGLq&scene=taobao_shop,如下图:
天猫店铺
粘贴到软件里面,回车:
运行界面
我们可以看到,软件提示该店铺共有16页商品内容,然后就开始抓取了。一会就抓取完成了,然后我们按提示在软件目录下看到有生成了一个表格文件,
导出的表格
文件以日期时间加上天猫店的名称进行命名,我们打开看一下:
导出的字段
表格当中有几个字段:title应该是商品名、url是商品链接,img应该是商品首图,price自然就是价格了,sold和total_sold应该是当月销量和累计销量。最后那个应该是库存,字段还是挺全的。
我们再顺便来看一下,这个图片是否是原始高清图,复制一条链接到浏览器当中打开,这个尺寸和清晰度应该是原始大图无疑。
图片
总结:软件大小大概16M不到,界面简单,使用上手没什么难度,相比市面上很多复杂的采集器来说,这款专用工具可以说是极简到家了。而且采集速度极快,16页的商品,1分钟左右就采集下来了。采集到的字段内容也很丰富,而且还有很重要的一个商品累计销量字段。那么这款软件对于某些从事电商行业的人来说,应该是非常实用的,值得下载使用。
软件下载地址: 天猫店铺商品采集助手 – 一键采集店铺下所有的商品内容 – 富泰科 (futaike.net) https://www.futaike.net/shop/tmall-shop-products