这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科
美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。
软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
Google reCAPTCHA 是一种基于高级风险分析技术的验证工具。它通过分析用户行为数据和交互模式,判断访问者是否为人类用户。
爬取小程序数据的方法可以依据不同的需求和技术水平有所不同。以下是一些基本步骤:
1. 确定数据需求
明确需要爬取的数据类型,比如商品信息、评论、用户评价等。
2. 了解小程序的结构
小程序一般使用了复杂的前端框架,建议先通过分析网络请求的方式了解其数据结构。
3. 法律合规性
确保爬取行为符合相关法律法规以及小程序的使用条款,避免侵犯他人权益。
4. 采用合适的工具和技术
网络抓包工具:像 Fiddler 或 Charles,可以监视和分析网络请求,查看所需数据的API接口。
Python 爬虫库:如requests等。
5. 编写爬虫程序
使用上述工具编写爬虫脚本,模拟浏览器请求,访问小程序背后的API。
6. 数据存储
根据需要选择数据存储方式(如CSV、数据库等)来保存爬取到的数据。
7. 遵守网站的爬虫策略
注意尊重网站的 robots.txt 文件,避免过于频繁的请求。
8. 处理数据
对爬取到的数据进行清洗和分析,提取有用信息。
下面我们以某生鲜小程序为例,看如何爬取:
一、我们以上图这个分类下的商品为目标,先打开小程序、抓包分析
得到数据接口,然后我们分析一下该接口,先请求一下看看。
response = requests.get(url, headers=headers, proxies=proxies, params=params)# print(response.text)data = response.json() print(f"商品名称:{ProductName}价格:{PeriodMoney}")
可以看到数据已经出来了。下面就是将分类id、翻页id等找到,然后构建好请求参数再一一请求即可。
json_str = "{\"anchor\":102105,\"categoryId\":102941,\"direction\":1,\"offset\":\"\",\"orderDirectionType\":0,\"orderFieldType\":0,\"pageSize\":20}"
分析一下,categoryid就是分类id,offset应该是翻页用的。下一页offset应该是19或者20
下面抓包分析一下,下一个offset是19,那就是从0开始的。
我们构建好翻页以下,再请求看看有没有地方是加密的。
很顺利,可以翻页请求到数据。那么这个分类下的数据就解决了。说明这个小程序的请求端暂时没有发现有加密的地方,数据获取就相对简单一些。
存储:
# 保存数据到csv文件with open('生鲜小程序data.csv', 'a', encoding='utf-8') as f: f.write(f"{ProductName},{RecommendReason}, {PeriodMoney}, {DefaultMoney}\n")
抓取到的数据可以导出:
四季豆200g/份
白灼焖炒 | ...
打开淘宝网任意页面(我这里用的是搜索),按F12打开开发者工具,找到数据流对应的接口uri
点击打开,可以看到数据。那么就研究这个接口。
查看负载,可以看到有sign和其他几个值。比较明显sign应该是一个加密值。其他几个也一并看看。
我们打开请求调用的堆栈main.js,用sign:搜索,可以很快找到可能的sign所在位置。打上断点,调试看看。
可以看到sign就是eM,而eM是由一个Ip的函数带几个参数加密计算所得。
我们跳转到Ip函数所在位置。看看
可以看一eT函数,我们复制到本地来调试看:
因为sign值看起来像是md5加密后的值,所以,我们就先在本地试试看,是不是md5加密。
输出值为:
验证一下,果然就是Md5加密,那么就简单了。只要我们把相应的参数确定好。那就个sign就解决了。
下面来看看几个参数:
em.token + “&” + eE + “&” + eS + “&” + ep.data
看起来是4个参数用&连接而成。分别来看:
这个em.token看起来像是服务器传过来的某个值,eE就是一个时间戳,eS可能是个固定值,ep.data就是要请求的内容了。那么先整一组试一试看看生成的结果。
看起来代码可以正常运行,生成一个Md5加密值,那么就实际当中试试如何?
我们写一个调用函数。再用Python写一段请求代码,复制登录后的cookie和请求头。token就先从源码当中找一个使用。运行:
发现搜索结果可以正常输出。OK,搞定。
那个token有一定的时效性,过期再刷新页面复制使用即可。
以上就是淘宝天猫接口sign参数逆向的学习过程。
作者:微信futaike_corp,转载请保留版权标志。
抖音评论采集助手软件功能及亮点
功能:软件可按视频链接批量下载该视频的所有评论内容。
亮点:
1、简单易用;
2、自动采集;
3、可批量采集;
4、自动导出数据;
5、字段丰富。
6、可定制额外功能。
美团外卖采集助手常见问题及回答,持续更新:这里整理了用户们在使用软件时遇到各种问题,是各位准用户们想要高效使用软件必备查询工具。
我们将软件下载下来,软件为绿色免安装版,解压以后,双击主程序,软件启动以后,正常会驱动打开谷歌浏览器,加载饿了么的h5客户端页面。如果我们登录好,就可以回车继续了。然后我们就可以看到浏览器会加载我们搜索的内容,软件当中也会显示采集数据出来了。
美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
有人问:美团优选app当中有很多自提点,能不能导出?
我们来研究一下:批量获取这些自提点有什么办法呢?
通常我们要查找某个城市的美团优选中的商家自提点,一般是按照以下步骤操作:
打开美团应用程序。
进入应用后,可以通过点击“附近的自提点”选项来查找。
在搜索框中输入所在的城市或地区名称。
点击搜索按钮,系统会显示该地区内的自提点列表。
此外,还可以通过美团优选的微信小程序进行查找:
打开手机上的微信应用。
点击“发现”页面中的“小程序”。
搜索并打开“美团优选”小程序。
在小程序内选择“我的自提点”,然后通常可以查看到自提点的信息。
如下图:
1、附近自提点
2、搜索框搜索
抓取思路:分析/抓取数据包/解析/保存数据:
那么,按这个操作来说,我们下面要做的就是把系统显示的自提点也提取出来就是了。
我们找一个抓数据包的工具,来对显示的数据进行抓包。(比较复杂,步骤也比较多,专业性强,这里就略过了。)
我们来看一下原始数据:
{"code":0,"message":"success","data":{"historyOrderPoiIdList":[],"recommendPoiList":[{"poiId":0,"poiIdStr":"VPwCIInVDc_TZ8EOIvJTLQE","poiName":"绍兴老酒绿叶","picUrl":"https://img.meituan.net/groupheaduploadfiles/0b12b9a0bfbfa0cef83d7a810d76395b148990.jpg","address":"上海市宝山区同泰北路447号同泰北路447号绿叶市集菜市场内N4门面房 冰箱太小大件冷冻品是不能放","latitude":31.381681,"longitude":121.492451,"distance":1232.1,"distanceText":"距离1.23公里","cityId":1,"cityName":"上海","districtId":13,"poiBusinessStatus":1,"poiLabels":[{"type":6,"labelName":"优质服务","labelColor":"#FFE2BC","fontColor":"#FF7700","labelAttr":3,"displayType":1}],"poiLabelsV2":[{"type":6,"labelName":"优质服务","labelColor":"#FFE2BC","fontColor":"#FF7700","labelAttr":3,"displayType":1},{"type":9,"labelName":"送货上门、配送范围:点击查看地图","labelColor":"#D9D9D9","fontColor":"#000000","jumpUrl":"/subPackages/location/pages/receivingRange/index","labelAttr":1,"displayType":1}],"extraInfo":"{}","poiDeliveryInfo":{"deliveryRange":"配送范围:点击查看地图","deliveryRangeType":2,"isDelivery":1,"deliveryTypeText":"送货上门"}},{"poiId":0,"poiIdStr":"ztyKX8gO2E2VTrKY0WpYJQE","poiName":"荣港便利店","picUrl":"https://img.meituan.net/groupheaduploadfiles/d0a9d9081be9990482a4055ed323466242037145.jpg","address":"淞宝路677号荣港便利店(淞宝路店)淞宝路677号","latitude":31.389831,"longitude":121.502941,"distance":1265.0,"distanceText":"距离1.26公里","cityId":1,"cityName":"上海","districtId":13,"poiBusinessStatus":1,"poiLabels":[{"type":7,"labelName":"冷藏冷冻","labelColor":"#BFDFF0","fontColor":"#0A77F5","labelAttr":2,"displayType":1}],"poiLabelsV2":[{"type":7,"labelName":"冷藏冷冻","labelColor":"#BFDFF0","fontColor":"#0A77F5","labelAttr":2,"displayType":1}],"extraInfo":"{}","poiDeliveryInfo":{"isDelivery":0}},{"poiId":0,"poiIdStr":"6g2_78XtVgE9JyUpsVNvtgE","poiName":"领迪娱乐美团优选","picUrl":"https://img.meituan.net/groupheaduploadfiles/0c657837bb9aad9b2fdd24e40441e3fa34982212.jpg","address":"上海市宝山区密山路50号宝轻大厦(密山路)密山路50号4楼","latitude":31.402114,"longitude":121.482754,"distance":1268.5,"distanceText":"距离1.27公里","cityId":1,"cityName":"上海","districtId":13,"poiBusinessStatus":1,"poiLabels":[{"type":7,"labelName":"冷藏冷冻","labelColor":"#BFDFF0","fontColor":"#0A77F5","labelAttr":2,"displayType":1}],"poiLabelsV2":[{"type":7,"labelName":"冷藏冷冻","labelColor":"#BFDFF0","fontColor":"#0A77F5","labelAttr":2,"displayType":1}],"extraInfo":"{}","poiDeliveryInfo":{"isDelivery":0}},{"poiId":0,"poiIdStr":"7lqSGEGTqqVMIcgWRjeBsgE","poiName":"海江二村小店","picUrl":"https://img.meituan.net/groupheadfoundation/a2e9cdeaa3e452168cec351f5237f989280213.jpg","address":"上海市宝山区海江二村海江二村-71号楼海江二村71号小店","latitude":31.393637,"longitude":121.503581,"distance":1294.6,"distanceText":"距离1.29公里","cityId":1,"cityName":"上海","districtId":13,"poiBusinessStatus":1,"poiLabels":[{"type":6,"labelName":"优质服务","labelColor":"#FFE2BC","fontColor":"#FF7700","labelAttr":3,"displayType":1},{"type":4,"labelName":"支持冷藏","labelColor":"#3488FF","fontColor":"#3488FF","labelAttr":2,"displayType":1}],"poiLabelsV2":[{"type":6,"labelName":"优质服务","labelColor":"#FFE2BC","fontColor":"#FF7700","labelAttr":3,"displayType":1},{"type":4,"labelName":"支持冷藏","labelColor":"#3488FF","fontColor":"#3488FF","labelAttr":2,"displayType":1}],"extraInfo":"{}","poiDeliveryInfo":{"isDelivery":0}},{"poiId":0,"poiIdStr":"mmMFNRKId1e9ChRb37kM-QE","poiName":"手机检测维修","picUrl":"https://img.meituan.net/groupheaduploadfiles/5a053df2b8b7ce3578a4c2a82ce028302447178949.jpg","address":"上海市宝山区密山路88-3号手机检测维修密山路88号-2(手机检测维修)","latitude":31.401933,"longitude":121.481648,"distance":1312.5,"distanceText":"距离1.31公里","cityId":1,"cityName":"上海","districtId":13,"poiBusinessStatus":1,"poiLabels":[{"type":6,"labelName":"优质服务","labelColor":"#FFE2BC","fontColor":"#FF7700","labelAttr":3,"displayType":1},{"type":7,"labelName":"冷藏冷冻","labelColor":"#BFDFF0","fontColor":"#0A77F5","labelAttr":2,"displayType":1}],"poiLabelsV2":[{"type":6,"labelName":"优质服务","labelColor":"#FFE2BC","fontColor":"#FF7700","labelAttr":3,"displayType":1},{"type":7,"labelName":"冷藏冷冻","labelColor":"#BFDFF0","fontColor":"#0A77F5","labelAttr":2,"displayType":1}],"extraInfo":"{}","poiDeliveryInfo":{"isDelivery":0}}],"type":0,"groups":[{"group":"skinAB","strategy":"a"},{"group":"poiMapPageAB","strategy":"c"},{"group":"dragMapNoRelocateAB","strategy":"c"},{"group":"poiDisplayInfoOptABResult","strategy":"a"}],"nearbyLabelList":[{"type":7,"labelName":"冷藏冷冻","labelColor":"#BFDFF0","fontColor":"#0A77F5","labelAttr":2,"displayType":1},{"type":9,"labelName":"送货上门","labelColor":"#F20000","fontColor":"#F20000","labelAttr":1,"displayType":1},{"type":6,"labelName":"优质服务","labelColor":"#FFE2BC","fontColor":"#FF7700","labelAttr":3,"displayType":1}],"total":40,"offset":35,"limit":5,"hitMtsi":false,"nearbyPoiDefaultSelectIndex":0}}
然后我们要做的就是把数据解析出来:
poi_list = json.loads(data)
poi = poi_list['data']['recommendPoiList']
for pp in poi:
poiName = pp['poiName']
picUrl = pp['picUrl']
address = pp['address']
poiIdStr = pp['poiIdStr']
poiLabels = ...
以上就是cookie自动提取器的具体使用说明,不管什么网站,只要是想要快速、简单提取cookie使用的,都可以用这个小工具。大家有需要的可以下载使用。
非工作日时间为了更快的获取软件注册,您也可以下载我们的《软件自主注册器》进行自主注册,下载地址:点击下载。《软件自主注册器》只需要点击一下即可注册成功。