富泰科 | 提供专业级的千万级数据采集/数据爬取服务 | 文章列表

这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科

产品与服务

  • 实用技能 | 如何快速安装《美团外卖采集助手》并迅速上手使用 (0) 2024年5月24日futaike_admin
    美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
  • 好用的工具 | 携程酒店价格采集助手 – 通过输入携程酒店链接,自动实时采集目标酒店的房间价格信息 (0) 2024年5月23日futaike_admin
    软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。 软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
  • 使用教程 | 美团外卖cookie更新使用说明 | 美团外卖采集助手 | 美团外卖爬虫 (0) 2022年6月17日futaike_admin
    cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
  • 必看文章 | 软件运行没反应、闪退,可能是这些原因 (0) 2022年1月13日futaike_admin
    经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
  • 置顶文章 | 富泰科软件使用协议及通用说明 (2) 2021年10月18日futaike_admin
    软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
  • 词频统计分析 – 停用词 (0) 2021年9月27日futaike_admin
    词频统计分析 – 常用停用词: 下载链接:点击这里
  • 饿了么全国外卖商家采集教程 (0) 2021年9月23日futaike_admin
    采集前的准备工作: 安装采集器软件:市面上如八爪鱼等支持JSON采集的都可以;安装后注册账号备用; 安装正版纯净的谷歌浏览器;安装好备用; 导入采集规则 规则使用详细说明 双击打开规则,界面如上图所示。左边窗体是流程图,用户无须更改,不要变动。右边窗体是采集全国各城市的重点要讲解的内容。 上图为某城市某商区的采集示例网址,我们想要变换采集的城市和商区,以及采集网址的生成和修改通过点击编辑按钮进行。 点击编辑按钮以后,出现如下的界面: 这里我们选择批量生成, 然后在下面的网址栏输入我们要批量生成的源网址(这个源网址后面我们来告诉大家从何而来) 在这个网址当中将offset=后面的数字选中,点击添加参数。 按上图的数字设置,红框当中的项数可以自行修改。此项的意思对应于采集的商区周圈商家数量的多少,由用户自己判断,结束值对应于本次采集的目标商家数。用户可通过设置项数,来灵活的设置采集本商区的目标商家数量。数量小可能会漏采,数量也不宜过大,过大则可能要空采,浪费时间。 设置好以后,点确定。最后保存网址。 然后会进入任务编辑页面: 依上图所示,点击确定,再点击保存。 然后,我们就可以启动任务,开始采集了。 我们会发现,采集的速度非常快,1分钟有100多条。采集到的内容有商家名称、地址、电话、优惠内容、商家图片、营业时间等。 如果采集结束,便可以导出数据,导出的数据支持的格式如下: 我们如果选择excel导出,导出后的表格如下: 四、采集网址的由来: 我们打开谷歌浏览器,在地址栏输入:h5.ele.me,在页面上点击右键,选择:检查: 点击下面的选择城市,和商区来定位。 我们这里选择大连市-老虎滩商区 点击这里,切换成移动端模拟页面: 点击页面上的:我的,登录饿了么客户端。 找到列表的含json数据的网址,在这个JSON网址上按右键,选择复制这个网址。 下面我们就可以回到步骤三,在采集器当中添加批量参数,采集该商区的所有商家了。 这个我们示例使用的是城市-大连,大家可以根据自己的需要,更换采集的目标城市,而由于每个城市的商区很多,这里我们也使用批量采集工具,帮大家采集好了,大家只需要选择好一个城市,使用表格当中的商区复制到下图的位置。然后复制步骤四当中生成的网址,设置好批量参数即可批量采集了。 全国商区7万多: 几点注意: 登录过饿了么以后,需要将登录后的cookie以及user-agent等复制到采集器当中去。否则访问网址会获取不到数据。 关于cookie的生命周期 cookie是有生命周期的,如果过期了,就会失效。如果失效了,可能会导致采集无法进行,因为饿了么限制未登录用户的翻页次数。所以,我们保证cookie的有效性。下面是需要更新cookie的时候: A/更换了采集的城市;B/超过了几个小时未有采集;C/采集过程当中出错。 Tips:使用市面上第三方采集器采集移动app类的数据,都非常的复杂,需要用户有一定的动手能力。如果用户没有这方面的基础,上面可能很多步骤都完成不了。这时用户可以考虑委托我们定制一个专门的采集软件,或者更简单一些委托我们代为爬取数据。
  • 地图采集模板使用简明教程 (0) 2021年9月23日futaike_admin
    输入行业关键字的操作说明 一、搜狗地图可选城市、可选行业关键字采集商家信息 打开规则,可以点击如下图的红框,更改城市名 更改行业关键字。修改以后记得点确定-保存。 启动规则,进行采集,可以看到采集的速度很快,采集的内容也如我们预期。 配合功能包使用,采集更多数据: 把对应城市的组合关键字,按下图输入,保存。 即可进行采集了。 想要上面提到的采集爬虫软件或者八爪鱼模板,一键直达
  • 开启SMTP服务及获取发送邮件的授权码 (0) 2021年9月17日futaike_admin
    自动发送邮件能应用于许多场景中, 我们要想通过软件能自动发送,需要开启SMTP服务,并获取发送邮件的授权码,然后才可以发送服务。 首先,我们需要在邮箱中开启SMTP服务: 以QQ邮箱为例 开启smtp、生成授权码 然后我们将自己的发送邮箱地址和授权码填入软件以后,就可以边采集边发送邮件了。
  • 八爪鱼教程:模板采集或设置时需要登录,如何操作? (0) 2021年9月17日futaike_admin
    有很多网站,是需要登录,在输入账号密码以后,才能采集到目标数据的。有的网站登录时还会需输入验证码。针对这类网站,八爪鱼提供了多种解决方法。下面一一详细讲解。 方法一、浏览器模式+记住Cookie 针对需要登录的网站,我们可以在采集器当中先将八爪鱼切换成浏览器模式,在浏览器模式下完成登录。然后通过获取当前页面的Cookie记住登录状态。这样,八爪鱼就能在执行采集任务时,直接以登录状态打开网页,然后再采集数据。 按下图示所示,一步步操作即可。 举例说明: 场景一:输入账号、密码登录 以豆瓣网为例, 登录网址为:https://www.douban.com 实际要采集数据的网址为:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4 步骤1、使用浏览器模式,输入账号密码,完成登录 在客户端首页,输入登录网址,打开网页后,点击  按钮,进入浏览器模式。下图状态即为浏览器模式。在浏览器模式下,和用普通浏览器访问网页完全一样:只可浏览网页数据,不可配置规则。如需编辑规则,再次点击 按钮,关闭浏览器模式。 鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理 在浏览器模式中,输入账号密码并登录。可以看到,现在我们已经以登录状态访问网页。 步骤2、记住Cookie 现在,我们已经处于登录状态,八爪鱼可以获取登录后的Cookie,记住登录状态。 将鼠标移动到【打开网页】步骤后的 位置,会出现  按钮。点击 按钮,再添加一个【打开网页】步骤。双击新建的【打开网页】步骤,输入要采集数据的目标网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。 然后在【高级设置】勾选【使用指定的Cookie】,再点击【获取当前页面Cookie】。获取Cookie后会变成 ,点击  ,可查看具体的Cookie内容,最后点击【应用】保存。 八爪鱼会记住这个Cookie状态,启动采集后,直接以登录状态打开网页。 tips: a. Cookie是什么?通俗的说,Cookie是一些存储在用户电脑上的一些个文件,主要用来保存一些站点交互的和用户登录操作相关的一些数据,作用是让浏览器记往用户操作网页的一些内容。例如:用户第一次访问某网站,输入了账号密码登录。浏览器会问你是否需要“记住账号密码”。选择是以后,浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站,就无需再次输入账号密码。 b. Cookie是有生命周期的,这个周期多长时间取决于采集的网站。如果Cookie到期了,就需要再重新获取一次登陆之后的Cookie。 c. 如果需要切换账号,可以打开【高级选项】,勾选【打开网页前先清理缓存】。这样,每次打开网页时都会清理掉缓存信息,以未登录状态打开网页,此时再登录新账号即可。记得勾选时,要把下面的记住浏览器的cookie取消掉。 步骤3、按照需求,配置采集任务 接下来,请根据采集需求,自行配置采集任务。在这里以提取第1页的列表数据为例。如若不会,请看 新手入门教程 。 可以看到,在启动本地采集以后,八爪鱼就以登录状态打开网页,采集数据。 方法二:直接登录( 启动采集以及修改任务时) 记住cookie十分方便,每次直接以登录状态打开网页采集数据。但是,这个方法也有一定局限性,部分网站是不支持Cookie登录的。如果遇到这类网站,那么我们就要使用启动采集任务时先手动登录的办法。这个办法可以应对所有这类网站。具体我们在设置模板时都有考虑了。用户只要依步骤执行即可。

使用教程