富泰科 | 提供专业级的千万级数据采集/数据爬取服务 | 文章列表

这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科

产品与服务

使用教程

  • 2026毕业季 | 论文数据来源爬虫小工具合集(最新更新) (0) 2022年12月13日futaike_admin
    爬虫工具合集:淘宝天猫京东亚马逊、美团外卖、汽车之家、携程酒店等爬虫
  • 爬虫方案 | 爬取大众点评网评论的几个思路(从小程序端) (0) 2022年12月12日futaike_admin
    获取大众点评网的店铺评论,我们一般有以下几个途径:1、PC端网页端;2、小程序端;3、APP端;PC端由于有字体加密,采集时需要对加密的字体进行解密,具体思路可以参考:爬虫方案 | 爬取大众点评网评论的几个思路(从PC端) – 富泰科 (futaike.net),本篇我们尝试从小程序端来获取:
  • 爬虫方案 | 爬取大众点评网评论的几个思路(从PC端) (0) 2022年12月12日futaike_admin
    如今大众点评的评论信息做了前端字体加密,爬取大众点评用户评论有几个难点: 查看完整评论和更多评论需要登陆后才可以 评论数据不完整,部分文字被替换   如下图:部分字体被<span>标签包含,实际它是一张svg背景图,用css样式控制雪花图显示加载,并且可以看到他的css的background属性,可自行更改看看效果,注意字体width:14px。 思路: 获取评论部分的完整HTML样式,把整个内容用list存起来; 获取css样式,样式在源码的位置,如下图,我们需要的是每个span标签里的class属性值,因为它对应background坐标信息。 从css样式中动态取svg图片链接,生成字典库,然后用第二步的css坐标经过处理,查找真实字所对应的值,并返回最终真实评论。 步骤: 图一各标签位置还是需要了解一下的。 一、查看源码,知道css样式链接在哪里,保存该链接。 二、第一步获取的css链接样式里会有一个background-image标签,里面包含加密字体的svg路径,保存该路径,同时将该css文件的.*****{background:-,-}做成字典保存起来。 敲黑板了:图片一中提到过字体样式宽度为14px,因此我们把获取的background的x坐标/14,就是最终加密字体svg中的位置,svg每一行的字符串可转为数组存储,这样就能建立对应关系。background的y坐标要和svg中的<path>中的值比较,后续说。 三、这是加密字体的svg文件,注意看<path> 标签,它的id对应后面<textPath>标签的href值,它的d值就很有意思,也是解密的关键。 敲黑板了:步骤二中提到过background的y值,再和d列的M0后面值做比较就有意思了,比如 .gqi4j {background: -98.0px -130.0px;} 中的y:-130,取正数130,小于<path>标签中的d属性第二列的174这个值,则对应加密字库实际y轴为174,对应的id=4,就是<textPath>中的href标签,也就是加密字体的y轴坐标,而它的x就是98/14,对应的id=4,href=”#4″行里的低98/14个的值,至此一个加密的字就取出来了。 最终效果: 如下图,完整评论内容,右侧部分没显示完部分,需要点开更多评论,原网页中有两个标签,一个完整的,一个局部的。   #!/usr/bin/env python # encoding: utf-8 """ @version: v1.0 @author: W_H_J @license: Apache Licence @contact: 415900617@qq.com @software: PyCharm @file: dazhongdianping.py @describe: 大众点评评论抓取-解析 """ import sys import os import re import requests from pyquery import PyQuery as pq sys.path.append(os.path.abspath(os.path.dirname(__file__) + '/' + '..')) sys.path.append("..") header_pinlun = { 'Host': 'www.dianping.com', 'Accept-Encoding': 'gzip', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ...
  • 解决办法 | 注册ChatGPT遇到not available in your country 的解决办法 (0) 2022年12月8日futaike_admin
    遇到not available in your country 的解决办法。复制下面这段代码,然后按下回车键,刷新页面。如果你的代理没问题,就可以看到正常工作的注册页面了。
  • 优质教程 | 最新:最详细步骤注册 ChatGPT 花0.2美元 亲测可用 (0) 2022年12月7日futaike_admin
    ChatGPT 火爆出圈,但是 OpenAI(开发 ChatGPT 的公司)却不对国内用户正式开放使用。但是,我们仍然有办法可以在第一时间体验到这个超强 AI。下面我来教你如何手把手完成注册 Chat GPT。