富泰科 | 提供专业级的千万级数据采集/数据爬取服务 | 文章列表

这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科

产品与服务

使用教程

  • 软件推荐 | 5 个用于网络抓取的 Python 库都是哪些? (0) 2022年3月13日futaike_admin
    有数十种用于 Web 抓取的软件包…… 但是您只需要少数几个就可以抓取几乎所有网站。这是一个自己认定的说法。这里决定采用我们最喜欢的 5 个用于网络抓取的 Python 库
  • 必看文章 | 软件运行没反应、闪退,可能是这些原因 (0) 2022年1月13日futaike_admin
    经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
  • 技术好文 | Python-极验滑块验证码的破解实战 (0) 2022年1月9日futaike_admin
    该目标网站调用了极验的接口,极验在智能反爬虫的领域可以说相当之厉害。 本文主要是利用selenium进行模拟操作进行破解。
  • 技术好文 | Python爬虫遇到滑动验证码的解决办法[之一] (0) 2022年1月8日futaike_admin
    做爬虫总会遇到各种各样的反爬限制,反爬的第一道防线往往在登录就出现了,为了限制爬虫自动登录,各家使出了浑身解数,所谓道高一尺魔高一丈。 今天分享个如何简单处理滑动图片的验证码的案例。 图片 类似这种拖动滑块移动到图片中缺口位置与之重合的登录验证在很多网站或者 APP 都比较常见,因为它对真实用户体验友好,容易识别。同时也能拦截掉大部分初级爬虫。 作为一只 python 爬虫,如何正确地自动完成这个验证过程呢? 先来分析下,核心问题其实是要怎么样找到目标缺口的位置,一旦知道了位置,我们就可以借用 selenium 等工具完成拖动的操作。 我们可以借用 opencv 来解决这个问题,主要步骤: image.png opencv 是什么? OpenCV(Open Source Computer Vision Library)是开放源代码计算机视觉库,主要算法涉及图像处理、计算机视觉和机器学习相关方法,可用于开发实时的图像处理、计算机视觉以及模式识别程序。 直接安装 pip install opencv-python 首先将图片进行高斯模糊处理,高斯模糊的主要作用是减少图像的噪声,用于预处理阶段。 import cv2 as cv image = cv.imread(image_path) blurred = cv.GaussianBlur(image,(5,5),0)cv .imshow("blurred", blurred) 处理后的效果 图片 接着用 Canny 边缘检测到得到一个包含“窄边界”的二值图像。所谓二值图像就是黑白图,只有黑色和白色。 canny = cv.canny(blurred,200,400) cv.imshow("canny", canny) 图片 轮廓检测 contours, hierarchy = cv.findContours(canny, cv.RETR_CCOMP, cv.CHAIN_APPROX_SIMPLE) for i, contour in enumerate(contours): # 所有轮廓 x, y, w, h = cv.boundingRect(contour) # 外接矩形 ...
  • 电商利器?| 测评一款 天猫店铺商品采集助手 (0) 2022年1月3日futaike_admin
    ​今天收到一款电商类的爬虫软件:天猫店铺商品采集助手 ,该软件网站介绍: 可一键采集店铺下所有的商品内容。用户可以通过输入天猫店的链接即可下载该店铺下所有的商品内容:如商品名、价格、链接、当月已售、库存、首图、总销量等。软件输入链接后回车即可自动采集并下载数据,下载的数据自动导出到软件目录下的excel表格当中。 那么我们下面就来实测一下,看该软件是否如网站介绍,有上述的​功能​? 首先,还是先去网站下载下来,解压以后,软件也是免安装绿色版,这个第一印象就很好,毕竟现在很多软件,安装包当中也不知道有些什么,然后一通安装后,电脑上就莫名多了很多垃圾软件如360/或者什么游戏​。不但电脑空间被占,而且运行速度也被严重拖慢,所以对于绿色软件,小淘心里总是有​莫名的好感。毕竟,如果软件不好用,一删了之,对电脑什么都没有影响,清清爽爽​。 软件目录 话不多说,我们运行主程序之前,先来看一下使用说明, 使用说明 我们看第1条,是需要我们安装谷歌浏览器,这个不费劲,电脑​上就有。然后就是最后1条,需要手机天猫的登录信息,我们去按这个链接的提示去​操作一下。 通过fiddler抓包获取自动登录的cookie – 适用于微信类应用及小程序等 – 富泰科 (futaike.net) cookie值 操作过程这里就不演示了,大家按上述链接一步步来就可以获得​,我们在获得登录后的cookie值后,复制到软件目录下的tmall_cookie.txt下替换之前的。 OK,现在准备工作就绪,下面我们就来主程序: 软件界面 软件界面没有GUI(可视化界面),而是一个简陋的dos界面,有点难看​。不过我们不是颜值控,外观不重要,重要的是功能​。 我们看上面说明,基本上和刚才的文本说明差不多,第3条还有一个额外功能的说明,提示软件还可以下载商品详情参数和​图片。这个先放一下,回头再说,我们先看这个软件的采集​情况。 我们来找一个天猫店链接​:https://jinglingbaobeimy.tmall.com/search.htm?spm=a1z10.3-b.w5001-21245322033.4.4bfc608fQQBGLq&scene=taobao_shop​,如下图: 天猫店铺 粘贴到软件里面,回车: 运行界面 我们可以看到,软件​提示该店铺共有16页商品内容,然后就开始抓取了。一会就抓取完成了,然后我们按提示在软件目录下看到有生成了一个表格文件, 导出的表格 文件以日期时间加上天猫店的名称​进行命名,我们打开看一下: 导出的字段 表格当中有​几个字段:title应该是商品名、url是商品链接,img应该是商品首图,price自然就是价格了,sold和total_sold应该是当月销量和累计销量​。最后那个应该是库存,字段还是挺​全的。 我们再顺便来看一下,这个图片是否是原始高清图,复制一条链接到浏览器当中打开,这个尺寸和清晰度应该是原始大图无疑​。 图片 ​ 总结:软件大小大概16M不到,界面简单,使用上手没什么难度,相比市面上很多复杂的采集器来说,这款专用工具可以说是极简到家了。而且采集速度极快,16页的商品,1分钟左右就采集下来了。采集到的字段内容也很丰富,而且还有很重要的一个商品累计销量字段。那么这款软件对于某些从事电商行业的人来说,应该是非常实用的,值得下载使用。 软件下载地址: 天猫店铺商品采集助手 – 一键采集店铺下所有的商品内容 – 富泰科 (futaike.net) https://www.futaike.net/shop/tmall-shop-products