富泰科 | 提供专业级的千万级数据采集/数据爬取服务 | 文章列表

这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科

产品与服务

  • 置顶文章 | 富泰科软件使用协议及通用说明 (2) 2021年10月18日futaike_admin
    软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
  • 实用技能 | 如何快速安装《美团外卖采集助手》并迅速上手使用 (0) 2024年5月24日futaike_admin
    美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
  • 好用的工具 | 携程酒店价格采集助手 – 通过输入携程酒店链接,自动实时采集目标酒店的房间价格信息 (0) 2024年5月23日futaike_admin
    软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。 软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
  • 使用教程 | 美团外卖cookie更新使用说明 | 美团外卖采集助手 | 美团外卖爬虫 (0) 2022年6月17日futaike_admin
    cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
  • 必看文章 | 软件运行没反应、闪退,可能是这些原因 (0) 2022年1月13日futaike_admin
    经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
  • 优质教程 | 小红书类采集软件、知乎类采集软件等的安装与使用中遇到的问题与解答 (0) 2021年11月17日futaike_admin
    使用指导: 1、软件在启动界面/软件目录下的《重要先看这里.txt》或软件帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。 2、所有的下载内容都会导出在本软件同目录下,请使用前务必将软件目录下所有文件复制保存到硬盘有空间、可长期存储的目录下。 3、 重要:软件正常运行都需要管理员权限,如何使用:选中软件,右键菜单选中:以管理员身份运行。 软件安装与使用QA: Q:软件闪退怎么办? A:软件闪退一般原因都是 1、没有安装谷歌浏览器,对策:去下载安装,注意一定要是正版; 2、浏览器版本与软件目录当中的chromedriver版本不统一,按这个链接去下载替换目录下的这个文件:https://www.futaike.net/archives/1119.html 3、如果上述都做了,还是闪退或者运行没反应,那么请使用管理员权限运行软件。如何使用:选中软件,右键菜单选中:以管理员身份运行。 Q:软件运行以后没反应是怎么回事? A:这个一般是软件初始化没有完成,请以管理员权限运行软件。如何使用:选中软件,右键菜单选中:以管理员身份运行。初始化时可能需要1-2次,也就是启动一次软件,没响应时,关闭再重启即可。 重要:软件正常运行都需要管理员权限,如何使用:选中软件,右键菜单选中:以管理员身份运行。
  • 推荐几个github上高star的Python爬虫开源项目 (0) 2021年11月6日futaike_admin
    项目一:awesome-python-login-model 该开源项目主要用于模拟登录,主要技术为 selenium,处理了很多网站的 JS 逆向问题。 整体策略围绕登录,保存 cookie,维护 cookie 进行采集实施。作者在项目描述页为大家分享了已经实现的网站,例如猎聘,CSDN,京东,拉钩,微博等爬虫经常光顾的网站。 项目开源协议为 GNU,最近一次更新时间为 11 天前(文章写作时间为 2021 年 7 月 9 日,下同) 项目地址:https://github.com/Kr1s77/awesome-python-login-model。 项目 Star:13.5K,Fork 3K。 已解决登录网站列表: Futaike.net 1106 152817 项目二:proxy_pool Python 爬虫代理池,核心功能定时采集网上发布的免费代理,验证是否可用,然后自建代理池,提供了 API 和 CLI 两种方式。 作者非常友好的提供了 Python2.x 和 Python3.x 版本,以及项目文档 https://proxy-pool.readthedocs.io/zh/latest/。 为了便于测试效果,同步开放了一个测试地址 http://demo.spiderpy.cn。 项目开源协议为 MIT,最近一次更新时间为 16 小时前。 项目地址:https://github.com/jhao104/proxy_pool。 项目 Star:12.8K,Fork 3.6K。 目前内置的免费代理源如下(手动打码): Futaike.net 1106 152924 项目三:weibo-crawler 新浪微博爬虫,它可以连续爬取一个或者多个新浪微博用户数据,该项目优秀在持续更新,对于爬取内容可以自行定制,并且可扩展为增量数据爬虫。 爬虫兼容了微博图片下载与视频下载,可学习的点非常多。 项目开源协议为 未设置,最近一次更新时间为 10 小时前。 项目地址:https://github.com/dataabc/weibo-crawler。 项目 Star:1.2K,Fork 390。 该作者贡献了很多面向微博的爬虫,可以多翻翻,非常好的学习对象,例如:https://github.com/dataabc/weiboSpider 。 作者对于功能的描述: Image 2 项目四:WechatSogou 基于搜索微信搜索的微信公众号爬虫接口,该开源项目主要用于采集微信公众号文章。 项目最近更新不频繁,是否可用有待测试,但是开源代码是非常值得学习的,由于该项目的协议不是无限制协议,所以大家以学习编码的目的看待该项目即可。 项目开源协议为 Apache-2.0 License。 项目地址:https://github.com/chyroc/WechatSogou。 项目 Star:5.1K,Fork 1.6K。 基于微信公众号文章的爬虫项目,还可以参考 https://github.com/wnma3mz/wechat_articles_spider ,该项目也是基于 Apache-2.0 License,该项目作者标记更新于 2021年3月,参考学习还是非常有价值的。 项目 Star:1.2K,Fork ...
  • 软件推荐 | 一个专门用于下载微博大V博文的小工具,限时免费下载使用 (0) 2021年10月22日futaike_admin
    今天,给大家带来一个粉丝专属福利:花了三天写的一个一键傻瓜式的可以下载微博大V博文的小工具,可以帮助大家用最简单的方式下载到微博的数据,大家如果有需要的可以免费下载使用。
  • 实用技能 | 各大浏览器禁用/启用Javascript的教程 (0) 2021年10月12日futaike_admin
    如何在您的浏览器中禁用/启用JavaScript JavaScript是一种在网页上使用的非常好的技术,不建议对浏览器上的所有网站禁用它。大多数流行的网站都是基于Java的,这意味着它们使用JavaScript来运行交互式功能,以此来提供令人愉悦的用户体验。 但是我们有时候需要禁用JavaScript, 比如:有的网站通过这个技术禁止我们复制网页内容,这个时候我们就需要暂时禁用。但禁用JavaScript 后,您的浏览器将无法运行或显示交互式元素,如显示动画或音频等。不过,好消息是JavaScript很容易激活。此外,还有一些特定的方法可以在某个站点上禁用JavaScript,而不是完全关闭它。  下面是各大浏览器如何禁用/启用的详细说明:  Microsoft Edge 打开Microsoft Edge浏览器。 单击右上角的三点图标打开菜单标签。 选择菜单标签上的“设置”。 现在点击左侧设置窗格中的“网站权限”。 选择“JavaScript”。 打开/关闭“允许(推荐)”。  Google Chrome 在您的设备上打开Google Chrome浏览器 点击屏幕右上角的菜单图标(三个点)。 在下拉菜单上选择“设置”–底部的倒数第三个选项 现在点击左侧边栏菜单上的“隐私设置和安全性”。 在“隐私设置和安全性”下,选择“网站设置” 在“网站设置”下,滚动到“JavaScript”并点击它。 切换“允许(推荐)”-启用时将变为蓝色。  Internet Explorer 启动Internet Explorer浏览器并打开一个窗口。 点击“工具”-通常位于菜单栏的最顶部。然后,从显示的选项列表中选择“Internet选项”。也可以按“Alt键”快速定位。 点击“安全标签”。 点击“自定义级别”按钮。 继续向下滚动到页面底部,直到找到“脚本”标题。 选择“活动脚本”以启用JavaScript。 点击“确定” 刷新浏览器  Mozilla Firefox 启动Mozilla Firefox浏览器并打开一个窗口。 在地址栏输入“about:config”并按回车键。 点击警告信息下方的“接受风险并继续”按钮,进入首选项搜索框页面。 在首选项搜索框中输入“javascript.enabled“。 在搜索结果中找到标有“javascript.enabled”的选项并打开JavaScript。 刷新浏览器 (关闭操作请选择disabled)  Opera 启动Opera迷你浏览器 打开“简易设置”菜单。 向下滚动至简易设置菜单底部,然后选择“转到浏览器设置”。 接下来,向下滚动找到“网站设置”选项,然后点击它。 在“网站设置”下,找到显示JavaScript的选项并选择它。 选择“已允许(推荐)”开关激活/关闭JavaScript。启用时将变为蓝色。  Apple Safari 导航到设备的“工具”部分。 选择“偏好设置”。 点击安全性图标。 选中复选框“启用JavaScript”。(关闭取消即可) 重新启动浏览器。 更多精彩产品或服务,去看看: 产品 – 富泰科 (futaike.net)

使用教程

  • 关于小说源码建站的问答 (0) 2019年11月14日futaike_admin
    需求环境:php5.4+ ,要求空间必须可以做伪静态。 自动更新、5万以上页面收录的完美小说源码,用来建站吸粉引流,效果极佳。 建站步骤:1.文件放入网站根目录;2.空间做伪静态;3.访问域名;4.按页面要求填写;5.安装时 admin 不要修改,安装好后后台改,即使你改了也会默认用 admin,使用 admin 和你设置的密码登录后,后台改就会生效;6.按视频的教程进行设置; 注意点: 1、底部信息修改路径: /Public/biquge/js/header.js (找出如备案号、网站名称,用自己的去替换)2、logo 图修改路径: /Public/biquge/images/all.gif (修改前先下载原图,然后将后缀名gif改为png,如photoshop等修图软件打开以后,把图中 logo 的部分改成自己的,其他的不能动,保存后记得改为gif后缀名)3、默认书封面图修改路径: /Public/images/nocover.jpg (按原尺寸做一个自己的,替换掉即可)4、关于采集到的文章里有其他网站的广告的问题: 采用后台基础设置屏蔽关键字就能解决。 5、关于 sitemap: 这个程序不会生成 sitemap,源码包里那是作者自己生成放进去的,建议直接用百度主动推 送代码,在基础设置最下面填写“百度主动推送 api”,默认填写的是作者的,修改成自己的 就行,百度主动推送代码要去自己申请 申请地址:https://ziyuan.baidu.com/linksubmit/index6、关于流量统计: 基础设置最下面有个“统计代码”,默认填的作者的,得填自己的,有很多第三方统计网站流 量数据的,比如百度统计,申请个代码放进去,在百度统计就能看了 百度统计申请地址:https://tongji.baidu.com7、关于首页内容迟迟不推送的问题: 这个源码采用搜索引擎爬虫触发推送机制,也就是说有搜索引擎或者方可来访问某小说程序 才会采集推送,没有就不动,这是最大程度的节省系统资源,假如着急看到满满的首页页面, 那就后台文章列表去手动查看一些文章(每个分类查看几篇),那就会加快推送了。一半1-2小时左右就会将首页各频道推送到。 8、关于首页 小牛图标的修改文件:/Public/biquge/images/c/niushu.png,将这个文件改为自己的图标即可。 9、新采集规则导入: 关于搭建好以后,后台采集小说的补充说明: 1、在每个采集规则后点击采集: 2、采集完以后,还可以点击:批量处理文章信息(建议在半夜进行操作,以免对目标服务器造成过多负担) 3、点击左侧的菜单,切换到更多功能-数据区块,点击:更新区块数据 4、最后,记得要清除一下相关的缓存。如下图所示。 5、如果浏览器端没有变化,那么还需要将浏览器的缓存也清除一下。或者使用无痕模式浏览。即可看到前台的更新文章了。 6、关于文件缓存:该源码在用户浏览后会将浏览文件缓存在服务器以方便读者下次访问可以更新的加载。但因此也会导致服务器硬盘空间占用问题,如果有的同学硬盘较小,或者一段时间清除一下。可以在宝塔当中打开安装目录,找到以下路径:../Application/Runtime/Logs,下面每个文件夹目录当中都有缓存日志,可以根据自己的情况去清这些文件夹下的缓存文件,记得不要删文件夹,以免出错。 (PS:如果不是空间不足,不建议以上操作,如果你的站已经有不少粉丝的话,以免误删,造成不可预见的错误,导致网站访问出错)   如果还有问题,请联系微信:futaike_corp。