这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科
美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。
软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
爬虫工具合集:淘宝天猫京东亚马逊、美团外卖、汽车之家、携程酒店等爬虫
获取大众点评网的店铺评论,我们一般有以下几个途径:1、PC端网页端;2、小程序端;3、APP端;PC端由于有字体加密,采集时需要对加密的字体进行解密,具体思路可以参考:爬虫方案 | 爬取大众点评网评论的几个思路(从PC端) – 富泰科 (futaike.net),本篇我们尝试从小程序端来获取:
如今大众点评的评论信息做了前端字体加密,爬取大众点评用户评论有几个难点:
查看完整评论和更多评论需要登陆后才可以
评论数据不完整,部分文字被替换
如下图:部分字体被<span>标签包含,实际它是一张svg背景图,用css样式控制雪花图显示加载,并且可以看到他的css的background属性,可自行更改看看效果,注意字体width:14px。
思路:
获取评论部分的完整HTML样式,把整个内容用list存起来;
获取css样式,样式在源码的位置,如下图,我们需要的是每个span标签里的class属性值,因为它对应background坐标信息。
从css样式中动态取svg图片链接,生成字典库,然后用第二步的css坐标经过处理,查找真实字所对应的值,并返回最终真实评论。
步骤:
图一各标签位置还是需要了解一下的。
一、查看源码,知道css样式链接在哪里,保存该链接。
二、第一步获取的css链接样式里会有一个background-image标签,里面包含加密字体的svg路径,保存该路径,同时将该css文件的.*****{background:-,-}做成字典保存起来。
敲黑板了:图片一中提到过字体样式宽度为14px,因此我们把获取的background的x坐标/14,就是最终加密字体svg中的位置,svg每一行的字符串可转为数组存储,这样就能建立对应关系。background的y坐标要和svg中的<path>中的值比较,后续说。
三、这是加密字体的svg文件,注意看<path> 标签,它的id对应后面<textPath>标签的href值,它的d值就很有意思,也是解密的关键。
敲黑板了:步骤二中提到过background的y值,再和d列的M0后面值做比较就有意思了,比如
.gqi4j {background: -98.0px -130.0px;} 中的y:-130,取正数130,小于<path>标签中的d属性第二列的174这个值,则对应加密字库实际y轴为174,对应的id=4,就是<textPath>中的href标签,也就是加密字体的y轴坐标,而它的x就是98/14,对应的id=4,href=”#4″行里的低98/14个的值,至此一个加密的字就取出来了。
最终效果:
如下图,完整评论内容,右侧部分没显示完部分,需要点开更多评论,原网页中有两个标签,一个完整的,一个局部的。
#!/usr/bin/env python
# encoding: utf-8
"""
@version: v1.0
@author: W_H_J
@license: Apache Licence
@contact: 415900617@qq.com
@software: PyCharm
@file: dazhongdianping.py
@describe: 大众点评评论抓取-解析
"""
import sys
import os
import re
import requests
from pyquery import PyQuery as pq
sys.path.append(os.path.abspath(os.path.dirname(__file__) + '/' + '..'))
sys.path.append("..")
header_pinlun = {
'Host': 'www.dianping.com',
'Accept-Encoding': 'gzip',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ...
遇到not available in your country 的解决办法。复制下面这段代码,然后按下回车键,刷新页面。如果你的代理没问题,就可以看到正常工作的注册页面了。
ChatGPT 火爆出圈,但是 OpenAI(开发 ChatGPT 的公司)却不对国内用户正式开放使用。但是,我们仍然有办法可以在第一时间体验到这个超强 AI。下面我来教你如何手把手完成注册 Chat GPT。
目录
Step1:下载安装包
Step2:安装程序
Step3:查看
Step4:环境配置
最后补充:
Step1:下载安装包
https://nodejs.org/zh-cn/download/
根据自己电脑系统及位数选择,我的电脑是Windows系统、64位、想下载稳定版的.msi(LTS为长期稳定版)这里选择windows64位.msi格式安装包。
.msi和.zip格式区别:
.msi是Windows installer开发出来的程序安装文件,它可以让你安装,修改,卸载你所安装的程序。说白了.msi就是Windows installer的数据包,把所有和安装文件相关的内容封装在一个包里。此外:它还包含有关安装过程自己的信息。例如:安装序列、目标文件夹路径、安装选项和控制安装过程的属性。
.zip是一个压缩包,解压之后即可,不需要安装
下载方式1:官网下载页进行下载
下载方式2:官网首页直接下载
Step2:安装程序
①下载完成后,双击安装包,开始安装,使用默认配置安装一直点next即可,安装路径默认在C:\Program Files下,也可以自定义修改
②安装路径默认在C:\Program Files下面,也能够自定义修改,而后点击next(我这里设置我的安装目录为E:\KF\node.js\ 根据自己的需要进行更改。)
③下图根据本身的需要进行,我选择了默认Node.js runtime,而后Next
Node.js runtime :表示运行环境
npm package manager:表示npm包管理器
online documentation shortcuts :在线文档快捷方式
Add to PATH:添加到环境变量
④以下图框中所示,我没有选中,而是直接next
⑤点击Install,进行安装
⑥点击finish,完成安装
⑦安装完成后,.msi格式的安装包已经将node启动程序添加到系统环境变量path中,咱们能够查看系统变量进行验证:在【个人电脑】右键→【属性】→【高级系统设置】
⑧点击【高级】→【环境变量】
⑨在系统变量中查看【path】,点击【编辑】
⑩会发现.msi格式的安装包已经将node启动程序添加到系统环境变量path中
Step3:查看
① 既然已经将node程序添加到全局系统变量中,把咱们能够直接在CMD窗口中任意位置执行node,打开CMD窗口,执行命令node -v查看node版本
【注意:此时是打开CMD窗口,并非在C:\Program Files\nodejs目录下执行node.exe】
② 最新版的node在安装时同时也安装了npm,执行npm -v查看npm版本
③ 默认状况下,咱们在执行npm install -g XXXX时,下载了一个全局包,这个包的默认存放路径C:\Users\Administrator\AppData\Roaming\npm\node_modules下,能够经过CMD指令npm root -g查看
⑤ 一部分经常使用的命令,以下:
npm -v:查看npm安装的版本。
npm init:会引导你建立一个package.json文件,包括名称、版本、作者等信息。
npm list:查看当前目录下已安装的node包。
npm ls:查看当前目录下已安装的node包。
npm install moduleNames:安装Node模块到本地目录node_modules下。
npm install < name > -g:将包安装到全局环境中。
npm install < name > –save:安装的同时,将信息写入package.json中,项目路径中若是有package.json文件时,直接使用npm install方法就能够根据dependencies配置安装全部的依赖包,这样代码提交到git时,就不用提交node_modules这个文件夹了。
npm install < name> –save-dev:安装的同时,将信息写入package.json中项目路径中若是有package.json文件时,直接使用npm install方法就能够根据devDependencies配置安装全部的依赖包,这样代码提交到git时,就不用提交node_modules这个文件夹了。
npm uninstall moudleName:卸载node模块。
Step4:环境配置
① 打开安装的目录(默认安装情况下在C:\Program Files\nodejs)
② 在安装目录下新建两个文件夹【node_global】和【node_cache】
③ 再次打开cmd命令窗口,输入npm config set ...
下载后复制到软件同目录下,运行一下,即会自动去下载当前浏览器版本对应的chromedriver.exe,再运行软件,就不会再出现因为版本不匹配而导致的软件闪退或者不能运行的情况了。
cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
美团外卖作为我们外卖从业人员,是一个很好的平台,从业人员以及相关的数据研究者经常需要从该平台上获取相关数据进行分析,研究竞品销售、分析外卖行业情况等。那么,该平台的数据爬取怎么进行呢?小编今天就进行了尝试。
如何爬取电商平台的商品图片
目标:到网站 https://www.jd.com,使用:电动剃须刀 为关键词,准备采集搜索出来的商品主图并下载。
链接如下:
https://search.jd.com/Search?keyword=%E7%94%B5%E5%8A%A8%E5%89%83%E9%A1%BB%E5%88%80&enc=utf-8&suggest=4.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_AM_L5384,SAK7_M_COL_U17678,SAK7_S_AM_R,SAK7_SC_PD_R,SAK7_SM_PB_L16675,SAK7_SS_PM_LC|&wq=%E7%94%B5%E5%8A%A8&pvid=bb682c18bcb7479c9b220aab0f42d0a6
按下F12键(打开开发者工具),在“元素”选项页中,单击“元素检查工具” 或者查看源代码,后再单击你要选的图片,可以找到图片地址:
Futaike.net 0319 172103
复制出来就是:
//img13.360buyimg.com/n7/jfs/t1/88836/2/24471/163175/622eefb5E1e47b683/c2bf1d990c407594.jpg,没有http:头需要我们在请求时加上。
然后我们就可以写代码来下载了。
设置保存路径
然后我们再写一个下载函数
Futaike.net 下载函数
# 调用函数
Futaike.net 调用函数
运行一下:
Futaike.net 下载成功
然后我们再到文件夹下查看:
Futaike.net 下载成功
可以看到图片下载成功了。
那么下一步我们的目标就是批量获取,批量获取需要取得这个页面所有的图片链接,我们可以用的工具有很多:比如:xpath定位元素、正则工具所有的目标元素等。
这里我们使用xpath 定位:
引用etree 库: from lxml import etree,然后通过页面分析,找出所有商品图片的xpath路径。
然后我们来写一下代码:
Futaike.net 导入模块
Futaike.net 0318 191212
写好以后,我们运行一下,可以看到文件都下载成功了。
爬虫入门 | 如何使用python 写爬虫爬取京东商品页面的高清主图
然后我们再看一下文件夹,可以看到下载的文件都在了:
爬虫入门 | 如何使用python 写爬虫爬取京东商品页面的高清主图
这样一页所有的商品图片就下载好了。
如果需要下载多页的呢,只要我们再加页数循环,访问多个页面,进行下载就可以了。
https://search.jd.com/Search?keyword=%E7%94%B5%E5%8A%A8%E5%89%83%E9%A1%BB%E5%88%80&qrst=1&suggest=4.def.0.SAK7%7CMIXTAG_SAK7R%2CSAK7_M_AM_L5384%2CSAK7_M_COL_U17678%2CSAK7_S_AM_R%2CSAK7_SC_PD_R%2CSAK7_SM_PB_L16675%2CSAK7_SS_PM_LC%7C&wq=%E7%94%B5%E5%8A%A8%E5%89%83%E9%A1%BB%E5%88%80&stock=1&pvid=bb682c18bcb7479c9b220aab0f42d0a6&page=3&s=56&click=0
这是多页的网址,我们观察一下,发现有page=3这样的参数,这个就是翻页的参数了,那么我们只要把前面的网址再加上这个参数就可以循环访问多页了。
那么我们把上面的代码再改一下,比如我们需要下载20页,
爬虫入门 | 如何使用python 写爬虫爬取京东商品页面的高清主图
这样,就可以了。然后我们调用函数进行循环访问并下载。
Futaike.net 循环下载
最后 获取到所有目标页的商品图片。
Futaike.net 下载成功
The End