这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科
美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。
软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
下面简单为大家图文介绍一下八爪鱼采集器的模板规则如何进行批量网址生成。简明易懂,相信大家一看就会。
1、规则文件(otd文件)导入:
2、文件导入以后,在标题上点击打开规则文件:
3、下面是批量网址操作教程:
4、手动输入多个网址:
5、批量生成或者修改:
如何添加环境变量
1、打开环境变量:
2、如下图所示,选中path,点击编辑
3、选择 新建,将谷歌浏览器的安装路径复制到空白行,点击确定。
谷歌浏览器的安装路径如何查找:
在桌面的浏览器图标上点击右键,选择属性,如下图红框所示,双引号当中的路径即是软件的安装路径。
4、在系统变量窗体下,点击新建,填写变量名:chrome.exe,变量值为上图的目标后文本框当中的引号内的部分,复制过来即可。
5、测试是否成功:
在搜索框当中输入cmd,打开命令行窗口,输入chrome.exe,如下图,回车。
如果有浏览器窗口被启动,说明设置成功。如果没有,回头检查看哪步没有设置正确。
获取cookie简明教程
1、打开浏览器:
2、
3、
4、
5、
6、
后台广告使用代码:
图片广告代码:
Pc端图片宽度1000,高度自定,这段代码就是演示站http://xiaoshuo.futaike.net的图片广告
<a href=”https://xiaoshuo.futaike.net” target=”_blank”><img src=”http://xiaoshuo.futaike.net/Public/images/1000×230.jpg” width=”” height=”” border=”0″ /></a>
手机端图片宽度代码里用了自适应,多宽也可以,演示站用的图片宽度380,建议不要用太大尺寸图
<a
href=”https://www.sxpclt.com” target=”_blank”><img
src=”http://www.sxpclt.com/Public/images/380-120.png”
width=”100%” height=”” border=”0″ /></a>
需求环境:php5.4+ ,要求空间必须可以做伪静态。
自动更新、5万以上页面收录的完美小说源码,用来建站吸粉引流,效果极佳。
建站步骤:1.文件放入网站根目录;2.空间做伪静态;3.访问域名;4.按页面要求填写;5.安装时 admin 不要修改,安装好后后台改,即使你改了也会默认用 admin,使用 admin 和你设置的密码登录后,后台改就会生效;6.按视频的教程进行设置;
注意点:
1、底部信息修改路径: /Public/biquge/js/header.js (找出如备案号、网站名称,用自己的去替换)2、logo 图修改路径: /Public/biquge/images/all.gif (修改前先下载原图,然后将后缀名gif改为png,如photoshop等修图软件打开以后,把图中 logo 的部分改成自己的,其他的不能动,保存后记得改为gif后缀名)3、默认书封面图修改路径: /Public/images/nocover.jpg (按原尺寸做一个自己的,替换掉即可)4、关于采集到的文章里有其他网站的广告的问题: 采用后台基础设置屏蔽关键字就能解决。
5、关于 sitemap: 这个程序不会生成 sitemap,源码包里那是作者自己生成放进去的,建议直接用百度主动推 送代码,在基础设置最下面填写“百度主动推送 api”,默认填写的是作者的,修改成自己的 就行,百度主动推送代码要去自己申请 申请地址:https://ziyuan.baidu.com/linksubmit/index6、关于流量统计: 基础设置最下面有个“统计代码”,默认填的作者的,得填自己的,有很多第三方统计网站流 量数据的,比如百度统计,申请个代码放进去,在百度统计就能看了 百度统计申请地址:https://tongji.baidu.com7、关于首页内容迟迟不推送的问题: 这个源码采用搜索引擎爬虫触发推送机制,也就是说有搜索引擎或者方可来访问某小说程序 才会采集推送,没有就不动,这是最大程度的节省系统资源,假如着急看到满满的首页页面, 那就后台文章列表去手动查看一些文章(每个分类查看几篇),那就会加快推送了。一半1-2小时左右就会将首页各频道推送到。
8、关于首页 小牛图标的修改文件:/Public/biquge/images/c/niushu.png,将这个文件改为自己的图标即可。
9、新采集规则导入:
关于搭建好以后,后台采集小说的补充说明:
1、在每个采集规则后点击采集:
2、采集完以后,还可以点击:批量处理文章信息(建议在半夜进行操作,以免对目标服务器造成过多负担)
3、点击左侧的菜单,切换到更多功能-数据区块,点击:更新区块数据
4、最后,记得要清除一下相关的缓存。如下图所示。
5、如果浏览器端没有变化,那么还需要将浏览器的缓存也清除一下。或者使用无痕模式浏览。即可看到前台的更新文章了。
6、关于文件缓存:该源码在用户浏览后会将浏览文件缓存在服务器以方便读者下次访问可以更新的加载。但因此也会导致服务器硬盘空间占用问题,如果有的同学硬盘较小,或者一段时间清除一下。可以在宝塔当中打开安装目录,找到以下路径:../Application/Runtime/Logs,下面每个文件夹目录当中都有缓存日志,可以根据自己的情况去清这些文件夹下的缓存文件,记得不要删文件夹,以免出错。
(PS:如果不是空间不足,不建议以上操作,如果你的站已经有不少粉丝的话,以免误删,造成不可预见的错误,导致网站访问出错)
如果还有问题,请联系微信:futaike_corp。