这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科
美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。
软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
欢迎来到Meroser的直播源仓库?
1、独家定制epg,不同于网上大佬们提供的112114,老张等,本仓库epg是基于直播列表深度定制,几乎每个频道都有完整的预告;
2、集齐了全套的1080P,CGTN、CGTN纪录、CGTN法语、CGTN俄语、CGTN西语、CGTN阿语。也算是本仓库的一个与其他源不同之处;
3、每个频道都集成了高清图标,大多数节目具备详情预告(目前网络上的基本上只做到显示到节目名),额外提供了当前播放电视剧/电影的详情,包括:剧情简介、导演、编剧、主要演员等信息。
?高清、流畅、几近完美的直播观看体验?强迫症福音
?本播放列表完美集成高清台标
?EPG深度定制匹配频道列表|完美匹配
?几乎每个频道都有完整的预告
?说明
所有播放源均收集于互联网?,仅供测试研究使用,不得商用。
本项目不存储任何的流媒体内容,所有的法律责任与后果应由使用者自行承担。
?♀️源地址
? 名称
?直播源地址
?频道数
?状态
?更新时间
?湖南联通组播源
?订阅链接-湖南联通组播
待完善
?不可用
2023.11.20
?湖南移动组播源
?订阅链接-湖南移动组播
待完善
?不可用
2023.11.20
?湖南电信组播源
?订阅链接-湖南电信组播
待完善
?不可用
2023.11.20
?IPTV(IPV6专用)
?订阅链接-IPV6专用
220
?日常更新
2024.01.30
?TVBOX专用源
?订阅链接-TVBOX专用
220
?日常更新
2024.01.30
注:以上源请点击链接右键复制
如果不会操作请直接复制下面的小白链接↙
链接
链接
?️EPG
科普?:电子节目指南(electrical program guide,简称EPG)是Electronic Program Guide的英文缩写,意思是电子节目菜单,即节目预告。
?EPG文件地址:
稳定版: 稳定、定时更新、信息准确?
CDN地址1:https://raw.fgit.cf/Meroser/IPTV/main/tvxml.xml
CDN地址2:https://mirror.ghproxy.com/https://raw.githubusercontent.com/Meroser/IPTV/main/tvxml.xml
详情版: 内容详细、定时更新、尝鲜?
CDN地址1:https://raw.fgit.cf/Meroser/EPG-test/main/tvxml-test.xml.gz
CDN地址2:https://mirror.ghproxy.com/https://raw.githubusercontent.com/Meroser/EPG-test/main/tvxml-test.xml.gz
注:稳定版每天00:25左右自动更新,请根据自身网络情况选择以上可用地址访问。?详情版目前仅提供gz版,每日00:40左右自动更新。相对于稳定版预告内容更加详细,比如当前播放电视剧/电影的详情,包括:剧情简介、导演、编剧、主要演员等信息?欢迎测试反馈。。。
?关于TVBOX和DIYP上的EPG接口
erw.cc:https://epg.erw.cc/api/diyp/?ch={name}&date={date} 推荐✨节目信息比较准确
112114:https://epg.112114.xyz/?ch={name}&date={date} 推荐✨节目覆盖范围较广
注:本仓库只提供tvxml格式的EPG(即节目预告),TVbox和DIYP使用的是EPG接口,不适用于本仓库的,对于TVbox和DIYP用户推荐使用以上两个EPG接口。
?IPTV播放器
?Android TV:Tivimate,Televizo
?Windows:Potplayer
?IOS:APTV
?MAC:APTV
?Apple TV:APTV
?Android:Televizo
?频道列表
?央视高清/24个频道
CCTV-1 综合、CCTV-2 财经、CCTV-3 综艺、CCTV-4 中文国际、CCTV-5 体育、CCTV-5+ 体育赛事、CCTV-6 电影、CCTV-7 国防军事、CCTV-8 电视剧、CCTV-9 纪录、CCTV-10 科教、CCTV-11 戏曲、CCTV-12 社会与法、CCTV-13 新闻、CCTV-14 少儿、CCTV-15 音乐、CCTV-16 奥林匹克、CCTV-17 农业农村、CCTV-4K 超高清、CCTV-8K 超高清、CETV-1 综合教育、CETV-2 空中课堂、CETV-3 教育服务、CETV-4 职业教育
?卫视高清/40个频道
高清: 湖南卫视、浙江卫视、东方卫视、北京卫视、江苏 卫视、安徽卫视、重庆卫视、东南卫视、甘肃卫视、广东卫视、广西卫视、贵州卫视、海南卫视、河北卫视、黑龙江卫视、河南卫视、湖北卫视、江西卫视、吉林卫视、辽宁卫视、山东卫视、深圳卫视、四川卫视、天津卫视、云南卫视、新疆卫视、三沙卫视
标清: 青海卫视、陕西卫视、山西卫视、西藏卫视、内蒙古卫视、宁夏卫视、兵团卫视、安多卫视、康巴卫视、大湾区卫视、农林卫视、延边卫视、厦门卫视
?数字高清/42个频道
CHC高清电影、CHC家庭影院、CHC动作电影、求索纪录、求索科学、求索动物、求索生活、黑莓电影、黑莓动画、哒啵电竞、哒啵赛事、乐游、纪实人文、纯享4K、风云剧场、风云音乐、第一剧场、女性时尚、 风云足球、兵器科技、怀旧剧场、世界地理、文化精品、央视台球、高尔夫网球、电视指南、都市剧场、生活时尚、金色学堂、法治天地、哈哈炫动、动漫秀场、游戏风云、欢笑剧场、第一财经、东方财经、武术世界、文物宝库、梨园、天元围棋、弈坛春秋、劲爆体育
?港澳台国际/18个频道
凤凰中文、凤凰资讯、凤凰香港、翡翠台、明珠台、J2、NHK World、CNA、AlJazeera、Arirang TV、RT News、RT Documentary、CGTN、CGTN Documentary、CGTN Français、CGTN Русский、CGTN Español、CGTN العربية
?湖南省内/11个频道
茶频道、快乐垂钓、金鹰纪实、金鹰卡通、湖南经视、湖南都市、湖南爱晚、湖南国际、湖南娱乐、湖南电影、湖南电视剧
?地方特色/26个频道
上海新闻综合、上海都市、上海外语、湖北综合、湖北影视、湖北教育、湖北生活、湖北公共、湖北经视、湖北垄上、浙江钱江都市、浙江经济生活、浙江科教影视、浙江民生休闲、浙江公共新闻、浙江少儿、浙江国际、纪实科教、卡酷少儿、陕西新闻资讯、陕西都市青春、陕西生活、陕西影视、陕西公共、陕西体育休闲、陕西西部电影
?NewTV系列/15个频道
NewTV军事评论、NewTV军旅剧场、NewTV家庭剧场、NewTV中国功夫、NewTV东北热剧、NewTV惊悚悬疑、NewTV明星大片、NewTV欢乐剧场、NewTV潮妈辣婆、NewTV炫舞未来、NewTV精品体育、NewTV精品大剧、NewTV超级电影、NewTV超级综艺、NewTV超级电视剧
⚽咪咕体育/44个频道
咪咕体育4K、咪咕体育(包括NBA赛事、足球等)
?更新
2024.01.30 新增NewTV系列15个频道、新增湖北地方台、新增武术世界、天元围棋等特色台
2024.01.26 修复因上海移动而影响的频道,详情版EPG已正式投入使用
2024.01.22 优选部分高码率源,新增湖南地方台,新增浙江、陕西等区地方台
2024.01.13 修复凤凰三个频道,更新CGTN纪录为咸阳移动源,新增梨园频道
2024.01.08 通过遍历/咸阳移动IPTV的id找到了CGTN俄语高清频道id为2883 至此集齐全套CGTN高清???
?致谢:
Logo来源:https://github.com/wanglindl/TVlogo
wcb1969:https://github.com/wcb1969/iptv
fanmingming:https://github.com/fanmingming/live
Yuechan:https://github.com/YueChan/Live
YanG-1989:https://github.com/YanG-1989/m3u
erc.cc及112114提供的epg接口
GitHub及互联网其他资源
说明:本仓库部分内容引用或参考以上内容,在此表示感谢!!!?
https://stats.wp.com/w.js,这个链接访问任一链接都会加载,而且响应超时。
这个js应该是在woocommerce配置时开启了woocommerce跟踪功能,让woocommerce能够从用户处搜集一些数据以更好地提供更新服务。
这个跟踪功能如果开启了,每次进入woocommerce相关界面都会加载stats.wp.com,而这个网站的速度在国内访问会比较慢。
美团外卖采集助手-GUI版
1、不同版本集成在一个使用界面当中,更方便使用不同版本的功能;
2、所有功能都在一个界面当中,操作更简单、更傻瓜;
3、教程和使用指南都在界面上有直达链接,不会用马上点击了解;
4、软件界面有客服二维码,看了教程还是不会,扫码加客服马上咨询;
5、数据抓取的同时同步导出,无须等候,更无须去设置文件名、存放路径等,抓取完成直接自动打开文件夹;用户也可以直接在界面上点击进入文件夹。
6、软件按需购买,不同版本功能不同价格不同,只需要按需求的功能付费即可。
7、无须付费,免费版本也可以直接使用。
可免费体验的ChatGPT网站合集,不断更新中
10款在线代码编辑器,随时随地编写代码。
可实时采集全网电商平台的数据,包括淘宝、天猫、京东、苏宁、虾皮、Lazada、阿里巴巴、亚马逊Amazon、eBay、AliExpress等国内外主流电商平台和一些官方/第三方电商聚合平台。
今天给大家带来一款爬取京东商品评论的爬虫工具:
功能及使用说明(官网:futaike.net):
1、输入商品url,下载商品评论内容及图片。
2、所有的下载内容都会导出在软件【京东数据】同目录下,请使用前务必将软件目录下所有文件复制保存到硬盘有空间、可长期存储的目录下。
3、使用时按界面说明一步步执行,如果软件闪退,可参考:https://www.futaike.net/archives/4139.html,或去商品页面咨询技术支持人员,
4、采集不到数据,可能是cookie过期,请打开jd网站获取最新的cookie后复制到软件目录下的jd_cookie文件当中替换旧的再运行。
教程参考:https://www.futaike.net/?s=cookie
可采集的字段有:
"链接", "好评率", "评论总数", "好评数", "中评数", "差评数", "追评数",
"图片数量", "视频数", "用户名", "评分", "评论时间", "图片数", "型号", "规格",
"品名", "赞", "回复", "评论内容", "图片url", "标签"
按界面提示,
输入商品链接:示例:https://item.jd.com/100035295081.html
会是否同步下载评论图片,否直接回车,是请输入Y后回车:
京东评论采集助手 – 一键下载评论内容、下载评论图片
下面是脚本的下载界面:
京东评论采集助手 – 一键下载评论内容、下载评论图片
如果我们需要同步下载评论当中的图片:
京东评论采集助手 – 一键下载评论内容、下载评论图片
抓取到的字段导出表格:
京东评论采集助手 – 一键下载评论内容、下载评论图片
京东评论采集助手 – 一键下载评论内容、下载评论图片
下载的图片,放在软件目录下的img文件夹下。
京东评论采集助手 – 一键下载评论内容、下载评论图片
免费下载试用:
https://cowtransfer.com/s/74efc56da40846
相关推荐:
爬虫工具合集:淘宝天猫京东亚马逊、美团外卖、汽车之家、携程酒店等爬虫
获取大众点评网的店铺评论,我们一般有以下几个途径:1、PC端网页端;2、小程序端;3、APP端;PC端由于有字体加密,采集时需要对加密的字体进行解密,具体思路可以参考:爬虫方案 | 爬取大众点评网评论的几个思路(从PC端) – 富泰科 (futaike.net),本篇我们尝试从小程序端来获取:
如今大众点评的评论信息做了前端字体加密,爬取大众点评用户评论有几个难点:
查看完整评论和更多评论需要登陆后才可以
评论数据不完整,部分文字被替换
如下图:部分字体被<span>标签包含,实际它是一张svg背景图,用css样式控制雪花图显示加载,并且可以看到他的css的background属性,可自行更改看看效果,注意字体width:14px。
思路:
获取评论部分的完整HTML样式,把整个内容用list存起来;
获取css样式,样式在源码的位置,如下图,我们需要的是每个span标签里的class属性值,因为它对应background坐标信息。
从css样式中动态取svg图片链接,生成字典库,然后用第二步的css坐标经过处理,查找真实字所对应的值,并返回最终真实评论。
步骤:
图一各标签位置还是需要了解一下的。
一、查看源码,知道css样式链接在哪里,保存该链接。
二、第一步获取的css链接样式里会有一个background-image标签,里面包含加密字体的svg路径,保存该路径,同时将该css文件的.*****{background:-,-}做成字典保存起来。
敲黑板了:图片一中提到过字体样式宽度为14px,因此我们把获取的background的x坐标/14,就是最终加密字体svg中的位置,svg每一行的字符串可转为数组存储,这样就能建立对应关系。background的y坐标要和svg中的<path>中的值比较,后续说。
三、这是加密字体的svg文件,注意看<path> 标签,它的id对应后面<textPath>标签的href值,它的d值就很有意思,也是解密的关键。
敲黑板了:步骤二中提到过background的y值,再和d列的M0后面值做比较就有意思了,比如
.gqi4j {background: -98.0px -130.0px;} 中的y:-130,取正数130,小于<path>标签中的d属性第二列的174这个值,则对应加密字库实际y轴为174,对应的id=4,就是<textPath>中的href标签,也就是加密字体的y轴坐标,而它的x就是98/14,对应的id=4,href=”#4″行里的低98/14个的值,至此一个加密的字就取出来了。
最终效果:
如下图,完整评论内容,右侧部分没显示完部分,需要点开更多评论,原网页中有两个标签,一个完整的,一个局部的。
#!/usr/bin/env python
# encoding: utf-8
"""
@version: v1.0
@author: W_H_J
@license: Apache Licence
@contact: 415900617@qq.com
@software: PyCharm
@file: dazhongdianping.py
@describe: 大众点评评论抓取-解析
"""
import sys
import os
import re
import requests
from pyquery import PyQuery as pq
sys.path.append(os.path.abspath(os.path.dirname(__file__) + '/' + '..'))
sys.path.append("..")
header_pinlun = {
'Host': 'www.dianping.com',
'Accept-Encoding': 'gzip',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ...