富泰科 | 提供专业级的千万级数据采集/数据爬取服务 | 文章列表

这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科

产品与服务

  • 实用技能 | 如何快速安装《美团外卖采集助手》并迅速上手使用 (0) 2024年5月24日futaike_admin
    美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
  • 好用的工具 | 携程酒店价格采集助手 – 通过输入携程酒店链接,自动实时采集目标酒店的房间价格信息 (0) 2024年5月23日futaike_admin
    软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。 软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
  • 使用教程 | 美团外卖cookie更新使用说明 | 美团外卖采集助手 | 美团外卖爬虫 (0) 2022年6月17日futaike_admin
    cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
  • 必看文章 | 软件运行没反应、闪退,可能是这些原因 (0) 2022年1月13日futaike_admin
    经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
  • 置顶文章 | 富泰科软件使用协议及通用说明 (2) 2021年10月18日futaike_admin
    软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
  • IPv6直播源 – appletv适用的免费直播源 (0) 2024年2月1日futaike_admin
    欢迎来到Meroser的直播源仓库? 1、独家定制epg,不同于网上大佬们提供的112114,老张等,本仓库epg是基于直播列表深度定制,几乎每个频道都有完整的预告; 2、集齐了全套的1080P,CGTN、CGTN纪录、CGTN法语、CGTN俄语、CGTN西语、CGTN阿语。也算是本仓库的一个与其他源不同之处; 3、每个频道都集成了高清图标,大多数节目具备详情预告(目前网络上的基本上只做到显示到节目名),额外提供了当前播放电视剧/电影的详情,包括:剧情简介、导演、编剧、主要演员等信息。 ?高清、流畅、几近完美的直播观看体验?强迫症福音 ?本播放列表完美集成高清台标 ?EPG深度定制匹配频道列表|完美匹配 ?几乎每个频道都有完整的预告 ?说明 所有播放源均收集于互联网?,仅供测试研究使用,不得商用。 本项目不存储任何的流媒体内容,所有的法律责任与后果应由使用者自行承担。       ?‍♀️源地址 ? 名称 ?直播源地址 ?频道数 ?状态 ?更新时间 ?湖南联通组播源 ?订阅链接-湖南联通组播 待完善 ?不可用 2023.11.20 ?湖南移动组播源 ?订阅链接-湖南移动组播 待完善 ?不可用 2023.11.20 ?湖南电信组播源 ?订阅链接-湖南电信组播 待完善 ?不可用 2023.11.20 ?IPTV(IPV6专用) ?订阅链接-IPV6专用 220 ?日常更新 2024.01.30 ?TVBOX专用源 ?订阅链接-TVBOX专用 220 ?日常更新 2024.01.30 注:以上源请点击链接右键复制 如果不会操作请直接复制下面的小白链接↙ 链接 链接 ?️EPG 科普?:电子节目指南(electrical program guide,简称EPG)是Electronic Program Guide的英文缩写,意思是电子节目菜单,即节目预告。 ?EPG文件地址: 稳定版: 稳定、定时更新、信息准确? CDN地址1:https://raw.fgit.cf/Meroser/IPTV/main/tvxml.xml CDN地址2:https://mirror.ghproxy.com/https://raw.githubusercontent.com/Meroser/IPTV/main/tvxml.xml 详情版: 内容详细、定时更新、尝鲜? CDN地址1:https://raw.fgit.cf/Meroser/EPG-test/main/tvxml-test.xml.gz CDN地址2:https://mirror.ghproxy.com/https://raw.githubusercontent.com/Meroser/EPG-test/main/tvxml-test.xml.gz 注:稳定版每天00:25左右自动更新,请根据自身网络情况选择以上可用地址访问。?详情版目前仅提供gz版,每日00:40左右自动更新。相对于稳定版预告内容更加详细,比如当前播放电视剧/电影的详情,包括:剧情简介、导演、编剧、主要演员等信息?欢迎测试反馈。。。 ?关于TVBOX和DIYP上的EPG接口 erw.cc:https://epg.erw.cc/api/diyp/?ch={name}&date={date} 推荐✨节目信息比较准确 112114:https://epg.112114.xyz/?ch={name}&date={date} 推荐✨节目覆盖范围较广 注:本仓库只提供tvxml格式的EPG(即节目预告),TVbox和DIYP使用的是EPG接口,不适用于本仓库的,对于TVbox和DIYP用户推荐使用以上两个EPG接口。 ?IPTV播放器 ?Android TV:Tivimate,Televizo ?Windows:Potplayer ?IOS:APTV ?MAC:APTV ?Apple TV:APTV ?Android:Televizo  ?频道列表 ?央视高清/24个频道 CCTV-1 综合、CCTV-2 财经、CCTV-3 综艺、CCTV-4 中文国际、CCTV-5 体育、CCTV-5+ 体育赛事、CCTV-6 电影、CCTV-7 国防军事、CCTV-8 电视剧、CCTV-9 纪录、CCTV-10 科教、CCTV-11 戏曲、CCTV-12 社会与法、CCTV-13 新闻、CCTV-14 少儿、CCTV-15 音乐、CCTV-16 奥林匹克、CCTV-17 农业农村、CCTV-4K 超高清、CCTV-8K 超高清、CETV-1 综合教育、CETV-2 空中课堂、CETV-3 教育服务、CETV-4 职业教育 ?卫视高清/40个频道 高清: 湖南卫视、浙江卫视、东方卫视、北京卫视、江苏 卫视、安徽卫视、重庆卫视、东南卫视、甘肃卫视、广东卫视、广西卫视、贵州卫视、海南卫视、河北卫视、黑龙江卫视、河南卫视、湖北卫视、江西卫视、吉林卫视、辽宁卫视、山东卫视、深圳卫视、四川卫视、天津卫视、云南卫视、新疆卫视、三沙卫视 标清: 青海卫视、陕西卫视、山西卫视、西藏卫视、内蒙古卫视、宁夏卫视、兵团卫视、安多卫视、康巴卫视、大湾区卫视、农林卫视、延边卫视、厦门卫视 ?数字高清/42个频道 CHC高清电影、CHC家庭影院、CHC动作电影、求索纪录、求索科学、求索动物、求索生活、黑莓电影、黑莓动画、哒啵电竞、哒啵赛事、乐游、纪实人文、纯享4K、风云剧场、风云音乐、第一剧场、女性时尚、 风云足球、兵器科技、怀旧剧场、世界地理、文化精品、央视台球、高尔夫网球、电视指南、都市剧场、生活时尚、金色学堂、法治天地、哈哈炫动、动漫秀场、游戏风云、欢笑剧场、第一财经、东方财经、武术世界、文物宝库、梨园、天元围棋、弈坛春秋、劲爆体育 ?港澳台国际/18个频道 凤凰中文、凤凰资讯、凤凰香港、翡翠台、明珠台、J2、NHK World、CNA、AlJazeera、Arirang TV、RT News、RT Documentary、CGTN、CGTN Documentary、CGTN Français、CGTN Русский、CGTN Español、CGTN العربية ?湖南省内/11个频道 茶频道、快乐垂钓、金鹰纪实、金鹰卡通、湖南经视、湖南都市、湖南爱晚、湖南国际、湖南娱乐、湖南电影、湖南电视剧 ?地方特色/26个频道 上海新闻综合、上海都市、上海外语、湖北综合、湖北影视、湖北教育、湖北生活、湖北公共、湖北经视、湖北垄上、浙江钱江都市、浙江经济生活、浙江科教影视、浙江民生休闲、浙江公共新闻、浙江少儿、浙江国际、纪实科教、卡酷少儿、陕西新闻资讯、陕西都市青春、陕西生活、陕西影视、陕西公共、陕西体育休闲、陕西西部电影 ?NewTV系列/15个频道 NewTV军事评论、NewTV军旅剧场、NewTV家庭剧场、NewTV中国功夫、NewTV东北热剧、NewTV惊悚悬疑、NewTV明星大片、NewTV欢乐剧场、NewTV潮妈辣婆、NewTV炫舞未来、NewTV精品体育、NewTV精品大剧、NewTV超级电影、NewTV超级综艺、NewTV超级电视剧 ⚽咪咕体育/44个频道 咪咕体育4K、咪咕体育(包括NBA赛事、足球等) ?更新 2024.01.30 新增NewTV系列15个频道、新增湖北地方台、新增武术世界、天元围棋等特色台 2024.01.26 修复因上海移动而影响的频道,详情版EPG已正式投入使用 2024.01.22 优选部分高码率源,新增湖南地方台,新增浙江、陕西等区地方台 2024.01.13 修复凤凰三个频道,更新CGTN纪录为咸阳移动源,新增梨园频道 2024.01.08 通过遍历/咸阳移动IPTV的id找到了CGTN俄语高清频道id为2883 至此集齐全套CGTN高清??? ?致谢: Logo来源:https://github.com/wanglindl/TVlogo wcb1969:https://github.com/wcb1969/iptv fanmingming:https://github.com/fanmingming/live Yuechan:https://github.com/YueChan/Live YanG-1989:https://github.com/YanG-1989/m3u erc.cc及112114提供的epg接口 GitHub及互联网其他资源 说明:本仓库部分内容引用或参考以上内容,在此表示感谢!!!?
  • wordpress网站突然变慢的罪魁祸首:stats.wp.com/w.js (0) 2024年1月6日futaike_admin
    https://stats.wp.com/w.js,这个链接访问任一链接都会加载,而且响应超时。 这个js应该是在woocommerce配置时开启了woocommerce跟踪功能,让woocommerce能够从用户处搜集一些数据以更好地提供更新服务。 这个跟踪功能如果开启了,每次进入woocommerce相关界面都会加载stats.wp.com,而这个网站的速度在国内访问会比较慢。
  • 好软推荐 | 美团外卖采集助手有图形界面了,更易用,更智能。 (0) 2023年12月23日futaike_admin
    美团外卖采集助手-GUI版 1、不同版本集成在一个使用界面当中,更方便使用不同版本的功能; 2、所有功能都在一个界面当中,操作更简单、更傻瓜; 3、教程和使用指南都在界面上有直达链接,不会用马上点击了解; 4、软件界面有客服二维码,看了教程还是不会,扫码加客服马上咨询; 5、数据抓取的同时同步导出,无须等候,更无须去设置文件名、存放路径等,抓取完成直接自动打开文件夹;用户也可以直接在界面上点击进入文件夹。 6、软件按需购买,不同版本功能不同价格不同,只需要按需求的功能付费即可。 7、无须付费,免费版本也可以直接使用。
  • 超实用 | 可免费体验的ChatGPT网站合集,不断更新 (0) 2023年11月22日futaike_admin
    可免费体验的ChatGPT网站合集,不断更新中
  • 实用好软 | 10款在线代码编辑器 (0) 2023年11月7日futaike_admin
    10款在线代码编辑器,随时随地编写代码。

使用教程

  • 淘宝天猫专题 | 电商行业数据解决方案,淘宝天猫商品数据爬虫、爬取商品信息、图文导出、导入发布等 (0) 2023年3月18日futaike_admin
    可实时采集全网电商平台的数据,包括淘宝、天猫、京东、苏宁、虾皮、Lazada、阿里巴巴、亚马逊Amazon、eBay、AliExpress等国内外主流电商平台和一些官方/第三方电商聚合平台。
  • 爬虫推荐 | 京东评论采集助手 – 一键下载评论内容、下载评论图片 (0) 2022年12月15日futaike_admin
    今天给大家带来一款爬取京东商品评论的爬虫工具: 功能及使用说明(官网:futaike.net): 1、输入商品url,下载商品评论内容及图片。 2、所有的下载内容都会导出在软件【京东数据】同目录下,请使用前务必将软件目录下所有文件复制保存到硬盘有空间、可长期存储的目录下。 3、使用时按界面说明一步步执行,如果软件闪退,可参考:https://www.futaike.net/archives/4139.html,或去商品页面咨询技术支持人员, 4、采集不到数据,可能是cookie过期,请打开jd网站获取最新的cookie后复制到软件目录下的jd_cookie文件当中替换旧的再运行。 教程参考:https://www.futaike.net/?s=cookie 可采集的字段有: "链接", "好评率", "评论总数", "好评数", "中评数", "差评数", "追评数", "图片数量", "视频数", "用户名", "评分", "评论时间", "图片数", "型号", "规格", "品名", "赞", "回复", "评论内容", "图片url", "标签" 按界面提示, 输入商品链接:示例:https://item.jd.com/100035295081.html 会是否同步下载评论图片,否直接回车,是请输入Y后回车: 京东评论采集助手 – 一键下载评论内容、下载评论图片 下面是脚本的下载界面: 京东评论采集助手 – 一键下载评论内容、下载评论图片 如果我们需要同步下载评论当中的图片: 京东评论采集助手 – 一键下载评论内容、下载评论图片 抓取到的字段导出表格: 京东评论采集助手 – 一键下载评论内容、下载评论图片   京东评论采集助手 – 一键下载评论内容、下载评论图片   下载的图片,放在软件目录下的img文件夹下。 京东评论采集助手 – 一键下载评论内容、下载评论图片 免费下载试用: https://cowtransfer.com/s/74efc56da40846 相关推荐:
  • 毕业季 | 论文数据来源爬虫小工具合集(2025年最新更新) (0) 2022年12月13日futaike_admin
    爬虫工具合集:淘宝天猫京东亚马逊、美团外卖、汽车之家、携程酒店等爬虫
  • 爬虫方案 | 爬取大众点评网评论的几个思路(从小程序端) (0) 2022年12月12日futaike_admin
    获取大众点评网的店铺评论,我们一般有以下几个途径:1、PC端网页端;2、小程序端;3、APP端;PC端由于有字体加密,采集时需要对加密的字体进行解密,具体思路可以参考:爬虫方案 | 爬取大众点评网评论的几个思路(从PC端) – 富泰科 (futaike.net),本篇我们尝试从小程序端来获取:
  • 爬虫方案 | 爬取大众点评网评论的几个思路(从PC端) (0) 2022年12月12日futaike_admin
    如今大众点评的评论信息做了前端字体加密,爬取大众点评用户评论有几个难点: 查看完整评论和更多评论需要登陆后才可以 评论数据不完整,部分文字被替换   如下图:部分字体被<span>标签包含,实际它是一张svg背景图,用css样式控制雪花图显示加载,并且可以看到他的css的background属性,可自行更改看看效果,注意字体width:14px。 思路: 获取评论部分的完整HTML样式,把整个内容用list存起来; 获取css样式,样式在源码的位置,如下图,我们需要的是每个span标签里的class属性值,因为它对应background坐标信息。 从css样式中动态取svg图片链接,生成字典库,然后用第二步的css坐标经过处理,查找真实字所对应的值,并返回最终真实评论。 步骤: 图一各标签位置还是需要了解一下的。 一、查看源码,知道css样式链接在哪里,保存该链接。 二、第一步获取的css链接样式里会有一个background-image标签,里面包含加密字体的svg路径,保存该路径,同时将该css文件的.*****{background:-,-}做成字典保存起来。 敲黑板了:图片一中提到过字体样式宽度为14px,因此我们把获取的background的x坐标/14,就是最终加密字体svg中的位置,svg每一行的字符串可转为数组存储,这样就能建立对应关系。background的y坐标要和svg中的<path>中的值比较,后续说。 三、这是加密字体的svg文件,注意看<path> 标签,它的id对应后面<textPath>标签的href值,它的d值就很有意思,也是解密的关键。 敲黑板了:步骤二中提到过background的y值,再和d列的M0后面值做比较就有意思了,比如 .gqi4j {background: -98.0px -130.0px;} 中的y:-130,取正数130,小于<path>标签中的d属性第二列的174这个值,则对应加密字库实际y轴为174,对应的id=4,就是<textPath>中的href标签,也就是加密字体的y轴坐标,而它的x就是98/14,对应的id=4,href=”#4″行里的低98/14个的值,至此一个加密的字就取出来了。 最终效果: 如下图,完整评论内容,右侧部分没显示完部分,需要点开更多评论,原网页中有两个标签,一个完整的,一个局部的。   #!/usr/bin/env python # encoding: utf-8 """ @version: v1.0 @author: W_H_J @license: Apache Licence @contact: 415900617@qq.com @software: PyCharm @file: dazhongdianping.py @describe: 大众点评评论抓取-解析 """ import sys import os import re import requests from pyquery import PyQuery as pq sys.path.append(os.path.abspath(os.path.dirname(__file__) + '/' + '..')) sys.path.append("..") header_pinlun = { 'Host': 'www.dianping.com', 'Accept-Encoding': 'gzip', 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ...