富泰科 | 提供专业级的千万级数据采集/数据爬取服务 | 文章列表

这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科

产品与服务

  • 必看文章 | 软件运行没反应、闪退,可能是这些原因 (0) 2022年1月13日futaike_admin
    经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
  • 实用技能 | 如何快速安装《美团外卖采集助手》并迅速上手使用 (0) 2024年5月24日futaike_admin
    美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
  • 好用的工具 | 携程酒店价格采集助手 – 通过输入携程酒店链接,自动实时采集目标酒店的房间价格信息 (0) 2024年5月23日futaike_admin
    软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。 软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
  • 使用教程 | 美团外卖cookie更新使用说明 | 美团外卖采集助手 | 美团外卖爬虫 (0) 2022年6月17日futaike_admin
    cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
  • 置顶文章 | 富泰科软件使用协议及通用说明 (2) 2021年10月18日futaike_admin
    软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
  • 软件推荐 | 有哪些好用的修图软件? (0) 2022年2月7日futaike_admin
    今天抽空来跟大家去分享一款国产AI修图软件。事情的发生挺简单的,有一天在摄影群里朋友给了我一个链接推荐,说帮忙下载一下,顺便可以体验一下这个软件,说是比国外的修图插件Retouch4me还要好用
  • 软件推荐 | 2021年度最佳开源软件榜单出炉!有你关注的吗? (0) 2022年2月6日futaike_admin
    机器学习社区 2022-01-30 09-41 欢迎关注 @机器学习社区 ,专注学术论文、机器学习、人工智能、Python技巧 小伙伴们大家好,今天我们来聊一聊InfoWorld发布的2021年最佳开源软件榜单。 每年InfoWorld 都会根据软件对开源界的贡献,以及在业界的影响力评选出当年的 “最佳开源软件” (BOSSIE),该奖项评选已经延续了十多年。 本次获奖的 29 个开源项目包括:软件开发、开发、云原生计算、机器学习等类型,下面我们一起来看看,有没有熟悉的面孔! 1、Svelte 和 SvelteKit 在众多创新的、开源的、前端的 JavaScript 框架中,Svelte 及其全栈对应的 SvelteKit 可能是最有野心和远见的。 Svelte 一开始就通过采用编译时策略来颠覆现状,并以出色的性能、持续的发展和卓越的开发者体验向前迈进。 SvelteKit 现已进入公测阶段,它延续了 Svelte 的传统,通过采用最新的工具,并将部署到无服务器环境作为一项内置功能来实现飞跃。 地址:https://github.com/sveltejs/svelte 2、Minikube Minikube 是一个易于在本地运行 Kubernetes 的工具,可在你的笔记本电脑上的虚拟机内轻松创建单机版 Kubernetes 集群。便于尝试 Kubernetes 或使用 Kubernetes 日常开发。 地址:https://github.com/kubernetes/minikube 3、Pixie Pixie 是 Kubernetes 应用的可观察性工具,它可以查看集群的高级状态,如服务地图、集群资源和应用流量;还可以深入到更详细的视图,如 pod 状态、火焰图和单个 full-body 应用请求。 Pixie 使用 eBPF 自动收集遥测数据,它在集群本地收集、存储和查询所有的遥测数据,使用不到 5% 的集群 CPU。Pixie 的用例包括集群内的网络监控、基础设施健康、服务性能和数据库查询剖析。 地址:https://github.com/pixie-io/pixie 4、FastAPI FastAPI 是一个高性能 Web 框架,用于构建 API。主要特性: 快速:非常高的性能,与 NodeJS 和 Go 相当 快速编码:将功能开发速度提高约 200% 至 300% 更少的错误:减少约 40% 的人为错误 直观:强大的编辑器支持,自动补全无处不在,调试时间更少 简易:旨在易于使用和学习,减少阅读文档的时间。 简短:减少代码重复。 稳健:获取可用于生产环境的代码,具有自动交互式文档 基于标准:基于并完全兼容 API ...
  • 软件推荐 | 2022年有哪些电脑必装软件推荐? (0) 2022年2月4日futaike_admin
    近40款好用还免费的软件 – 2022年有哪些电脑必装软件推荐
  • 你的电脑上有哪些你认为不可或缺的神仙软件?这里给大家推荐几款。 (0) 2022年1月30日futaike_admin
    今天给大家推荐几个我经常使用的软件,个人感觉都是宝。

使用教程

  • 开启SMTP服务及获取发送邮件的授权码 (0) 2021年9月17日futaike_admin
    自动发送邮件能应用于许多场景中, 我们要想通过软件能自动发送,需要开启SMTP服务,并获取发送邮件的授权码,然后才可以发送服务。 首先,我们需要在邮箱中开启SMTP服务: 以QQ邮箱为例 开启smtp、生成授权码 然后我们将自己的发送邮箱地址和授权码填入软件以后,就可以边采集边发送邮件了。
  • 八爪鱼教程:模板采集或设置时需要登录,如何操作? (0) 2021年9月17日futaike_admin
    有很多网站,是需要登录,在输入账号密码以后,才能采集到目标数据的。有的网站登录时还会需输入验证码。针对这类网站,八爪鱼提供了多种解决方法。下面一一详细讲解。 方法一、浏览器模式+记住Cookie 针对需要登录的网站,我们可以在采集器当中先将八爪鱼切换成浏览器模式,在浏览器模式下完成登录。然后通过获取当前页面的Cookie记住登录状态。这样,八爪鱼就能在执行采集任务时,直接以登录状态打开网页,然后再采集数据。 按下图示所示,一步步操作即可。 举例说明: 场景一:输入账号、密码登录 以豆瓣网为例, 登录网址为:https://www.douban.com 实际要采集数据的网址为:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4 步骤1、使用浏览器模式,输入账号密码,完成登录 在客户端首页,输入登录网址,打开网页后,点击  按钮,进入浏览器模式。下图状态即为浏览器模式。在浏览器模式下,和用普通浏览器访问网页完全一样:只可浏览网页数据,不可配置规则。如需编辑规则,再次点击 按钮,关闭浏览器模式。 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理 在浏览器模式中,输入账号密码并登录。可以看到,现在我们已经以登录状态访问网页。 步骤2、记住Cookie 现在,我们已经处于登录状态,八爪鱼可以获取登录后的Cookie,记住登录状态。 将鼠标移动到【打开网页】步骤后的 位置,会出现  按钮。点击 按钮,再添加一个【打开网页】步骤。双击新建的【打开网页】步骤,输入要采集数据的目标网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。 然后在【高级设置】勾选【使用指定的Cookie】,再点击【获取当前页面Cookie】。获取Cookie后会变成 ,点击  ,可查看具体的Cookie内容,最后点击【应用】保存。 八爪鱼会记住这个Cookie状态,启动采集后,直接以登录状态打开网页。 tips: a. Cookie是什么?通俗的说,Cookie是一些存储在用户电脑上的一些个文件,主要用来保存一些站点交互的和用户登录操作相关的一些数据,作用是让浏览器记往用户操作网页的一些内容。例如:用户第一次访问某网站,输入了账号密码登录。浏览器会问你是否需要“记住账号密码”。选择是以后,浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站,就无需再次输入账号密码。 b. Cookie是有生命周期的,这个周期多长时间取决于采集的网站。如果Cookie到期了,就需要再重新获取一次登陆之后的Cookie。 c. 如果需要切换账号,可以打开【高级选项】,勾选【打开网页前先清理缓存】。这样,每次打开网页时都会清理掉缓存信息,以未登录状态打开网页,此时再登录新账号即可。记得勾选时,要把下面的记住浏览器的cookie取消掉。 步骤3、按照需求,配置采集任务 接下来,请根据采集需求,自行配置采集任务。在这里以提取第1页的列表数据为例。如若不会,请看 新手入门教程 。 可以看到,在启动本地采集以后,八爪鱼就以登录状态打开网页,采集数据。 方法二:直接登录( 启动采集以及修改任务时) 记住cookie十分方便,每次直接以登录状态打开网页采集数据。但是,这个方法也有一定局限性,部分网站是不支持Cookie登录的。如果遇到这类网站,那么我们就要使用启动采集任务时先手动登录的办法。这个办法可以应对所有这类网站。具体我们在设置模板时都有考虑了。用户只要依步骤执行即可。
  • 八爪鱼教程:美团网防采集任务切分批量采集教程 – 八爪鱼模板 (0) 2021年9月17日futaike_admin
    我们在使用模板采集美团网的信息时,会遇到网站的反爬,这里呢,我们需要掌握一些任务切分的知识,以尽可能减少反爬对我们采集效率的影响。 打开采集网址的规则,如上图所示: 采集任务启动以后如下图: 采集结束,导出已经采集到的网址列表保存到本地 我们打开这个表格看一下,这里面的网址就是我们后面需要的: 我们再打开规则2 – 采集详情的模板 点开箭头处,这个规则里已经有了一些网址,是示例。不是你想要的,一会我们去替换掉即可。 这里,我们可以手动输入要采集的目标网址,也可以从文件导入,还可以批量生成,以及从任务导入。 重要:由于美团网防采集措施严格,这里要说明的是,大约2000条数据以后,可能会出现验证码或者网页加载不了,这是美团的防采集措施。这里我们需要预估一下,把规则1采集的商圈网址列表进行适当的拆分,如200条拆分成10条一组,共20组,这样,每个子任务可能采集数百或者一千多就采集完成了。如此,我们就可以高效的采集到想要的所有数据。而不会因为一个大任务由于被限制中断,导致所有的数据又得重头再来的错误。 所以,这里呢,我们就把刚才那个表格当中的网址,复制大约10条进来。 复制后的截图如下: 点击保存网址、再保存规则。 这时我们就可以点击开始采集。开始这个子任务了。 然后,我们就按大任务的量,批量复制一下规则2,建立好各个子任务:点击如下图的更多操作,选择任务-复制: 复制成功后,立即查看任务: 下图就是复制好的另一子任务: 按上述步骤,将这个子任务的网址列表更换。然后依次保存网址、保存规则。 启动采集这个规则。如此我们就有了两个并行的子任务,下图是两个子任务采集的截图。 然后,我们可以继续以上的步骤,直到大任务被拆分完毕,然后视个人电脑的配置,同时或者分批次启动各个子任务。 如此,我们就是可以将一个地区的美团商家分批次采集到了。 想到本教程提到的采集模板。点击下面的链接即可。 美团网采集模板
  • 八爪鱼教程:八爪鱼批量网址及批量关键词添加生成简明教程 (0) 2021年9月16日futaike_admin
    规则文件(otd文件)导入: 文件导入以后,在标题上点击打开规则文件: 下面是批量网址操作教程: 然后保存设置即可。 批量生成或者修改: 在上图采集网址处,点击:批量生成,输入网址,选择要批量的字段,点添加参数。修改也一样,如下图 然后在弹出的窗口当中,可以设置参数名、选择参数类型,图示为关键词,我们选择自定义列表,然后在下方的输入框当中批量添加关键词,一行一个。 添加好以后 然后返回保存即可。 如果采集完以后的关键词不要了,也按上述步骤操作删除即可。
  • 八爪鱼教程:八爪鱼采集模板多关键字添加简明教程 (0) 2021年9月16日futaike_admin
    第一种情况: 第二种情况: 然后返回保存即可。 如果采集完以后的关键词不要了,也按上述步骤操作删除即可。