富泰科 | 提供专业级的千万级数据采集/数据爬取服务

这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科

产品与服务

实用技能 | 如何快速安装《美团外卖采集助手》并迅速上手使用 (0) 2024年5月24日futaike_admin美团外卖采集助手安装及使用说明：为保证软件的正常使用，需要在使用软件之前，先安装软件目录下的《node-v20.12.0-x64.msi》
好用的工具 | 携程酒店价格采集助手 – 通过输入携程酒店链接，自动实时采集目标酒店的房间价格信息 (0) 2024年5月23日futaike_admin软件功能：通过输入携程酒店链接，自动采集目标酒店的房间价格信息。软件更新网址：https://www.futaike.net/shop/ctrip_room_price_collection，可批量，也可设置手机推送通知、电脑通知等。软件免费下载试用。
使用教程 | 美团外卖cookie更新使用说明 | 美团外卖采集助手 | 美团外卖爬虫 (0) 2022年6月17日futaike_admincookie使用时效延长小技巧：在浏览器当中登录的同时，可以在手机浏览器上同步登录，然后如果遇到cookie不可用（软件提示有：keyerror这样的字符时，这时可能在电脑浏览器页面刷新会遇到验证拦截，就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下，如果需要验证，验证一下可能就通过了，也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
置顶文章 | 富泰科软件使用协议及通用说明 (2) 2021年10月18日futaike_admin软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤，本公司大部分软件都依赖谷歌浏览器，使用前请先安装最新版本的谷歌浏览器软件，安装成功后再运行软件。
淘宝闪购（饿了么）全国外卖商家采集教程 (0) 2021年9月23日futaike_admin 采集前的准备工作：安装采集器软件：市面上如八爪鱼等支持JSON采集的都可以；安装后注册账号备用；安装正版纯净的谷歌浏览器；安装好备用；导入采集规则规则使用详细说明双击打开规则，界面如上图所示。左边窗体是流程图，用户无须更改，不要变动。右边窗体是采集全国各城市的重点要讲解的内容。上图为某城市某商区的采集示例网址，我们想要变换采集的城市和商区，以及采集网址的生成和修改通过点击编辑按钮进行。点击编辑按钮以后，出现如下的界面：这里我们选择批量生成，然后在下面的网址栏输入我们要批量生成的源网址（这个源网址后面我们来告诉大家从何而来）在这个网址当中将offset=后面的数字选中，点击添加参数。按上图的数字设置，红框当中的项数可以自行修改。此项的意思对应于采集的商区周圈商家数量的多少，由用户自己判断，结束值对应于本次采集的目标商家数。用户可通过设置项数，来灵活的设置采集本商区的目标商家数量。数量小可能会漏采，数量也不宜过大，过大则可能要空采，浪费时间。设置好以后，点确定。最后保存网址。然后会进入任务编辑页面：依上图所示，点击确定，再点击保存。然后，我们就可以启动任务，开始采集了。我们会发现，采集的速度非常快，1分钟有100多条。采集到的内容有商家名称、地址、电话、优惠内容、商家图片、营业时间等。如果采集结束，便可以导出数据，导出的数据支持的格式如下：我们如果选择excel导出，导出后的表格如下：四、采集网址的由来：我们打开谷歌浏览器，在地址栏输入：h5.ele.me，在页面上点击右键，选择：检查：点击下面的选择城市，和商区来定位。我们这里选择大连市-老虎滩商区点击这里，切换成移动端模拟页面：点击页面上的：我的，登录饿了么客户端。找到列表的含json数据的网址，在这个JSON网址上按右键，选择复制这个网址。下面我们就可以回到步骤三，在采集器当中添加批量参数，采集该商区的所有商家了。这个我们示例使用的是城市-大连，大家可以根据自己的需要，更换采集的目标城市，而由于每个城市的商区很多，这里我们也使用批量采集工具，帮大家采集好了，大家只需要选择好一个城市，使用表格当中的商区复制到下图的位置。然后复制步骤四当中生成的网址，设置好批量参数即可批量采集了。全国商区7万多：几点注意：登录过饿了么以后，需要将登录后的cookie以及user-agent等复制到采集器当中去。否则访问网址会获取不到数据。关于cookie的生命周期 cookie是有生命周期的，如果过期了，就会失效。如果失效了，可能会导致采集无法进行，因为饿了么限制未登录用户的翻页次数。所以，我们保证cookie的有效性。下面是需要更新cookie的时候： A/更换了采集的城市；B/超过了几个小时未有采集；C/采集过程当中出错。 Tips：使用市面上第三方采集器采集移动app类的数据，都非常的复杂，需要用户有一定的动手能力。如果用户没有这方面的基础，上面可能很多步骤都完成不了。这时用户可以考虑委托我们定制一个专门的采集软件，或者更简单一些委托我们代为爬取数据。
地图采集模板使用简明教程 (0) 2021年9月23日futaike_admin 输入行业关键字的操作说明一、搜狗地图可选城市、可选行业关键字采集商家信息打开规则，可以点击如下图的红框，更改城市名更改行业关键字。修改以后记得点确定-保存。启动规则，进行采集，可以看到采集的速度很快，采集的内容也如我们预期。配合功能包使用，采集更多数据：把对应城市的组合关键字，按下图输入，保存。即可进行采集了。想要上面提到的采集爬虫软件或者八爪鱼模板，一键直达
开启SMTP服务及获取发送邮件的授权码 (0) 2021年9月17日futaike_admin 自动发送邮件能应用于许多场景中，我们要想通过软件能自动发送，需要开启SMTP服务，并获取发送邮件的授权码，然后才可以发送服务。首先，我们需要在邮箱中开启SMTP服务：以QQ邮箱为例开启smtp、生成授权码然后我们将自己的发送邮箱地址和授权码填入软件以后，就可以边采集边发送邮件了。
八爪鱼教程：模板采集或设置时需要登录，如何操作？ (0) 2021年9月17日futaike_admin 有很多网站，是需要登录，在输入账号密码以后，才能采集到目标数据的。有的网站登录时还会需输入验证码。针对这类网站，八爪鱼提供了多种解决方法。下面一一详细讲解。方法一、浏览器模式+记住Cookie 针对需要登录的网站，我们可以在采集器当中先将八爪鱼切换成浏览器模式，在浏览器模式下完成登录。然后通过获取当前页面的Cookie记住登录状态。这样，八爪鱼就能在执行采集任务时，直接以登录状态打开网页，然后再采集数据。按下图示所示，一步步操作即可。举例说明：场景一：输入账号、密码登录以豆瓣网为例，登录网址为：https://www.douban.com 实际要采集数据的网址为：https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4 步骤1、使用浏览器模式，输入账号密码，完成登录在客户端首页，输入登录网址，打开网页后，点击按钮，进入浏览器模式。下图状态即为浏览器模式。在浏览器模式下，和用普通浏览器访问网页完全一样：只可浏览网页数据，不可配置规则。如需编辑规则，再次点击按钮，关闭浏览器模式。鼠标放到图片上，右键，选择【在新标签页中打开图片】可查看高清大图下文其他图片同理在浏览器模式中，输入账号密码并登录。可以看到，现在我们已经以登录状态访问网页。步骤2、记住Cookie 现在，我们已经处于登录状态，八爪鱼可以获取登录后的Cookie，记住登录状态。将鼠标移动到【打开网页】步骤后的位置，会出现按钮。点击按钮，再添加一个【打开网页】步骤。双击新建的【打开网页】步骤，输入要采集数据的目标网址：https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。然后在【高级设置】勾选【使用指定的Cookie】，再点击【获取当前页面Cookie】。获取Cookie后会变成，点击，可查看具体的Cookie内容，最后点击【应用】保存。八爪鱼会记住这个Cookie状态，启动采集后，直接以登录状态打开网页。 tips： a. Cookie是什么？通俗的说，Cookie是一些存储在用户电脑上的一些个文件，主要用来保存一些站点交互的和用户登录操作相关的一些数据，作用是让浏览器记往用户操作网页的一些内容。例如：用户第一次访问某网站，输入了账号密码登录。浏览器会问你是否需要“记住账号密码”。选择是以后，浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站，就无需再次输入账号密码。 b. Cookie是有生命周期的，这个周期多长时间取决于采集的网站。如果Cookie到期了，就需要再重新获取一次登陆之后的Cookie。 c. 如果需要切换账号，可以打开【高级选项】，勾选【打开网页前先清理缓存】。这样，每次打开网页时都会清理掉缓存信息，以未登录状态打开网页，此时再登录新账号即可。记得勾选时，要把下面的记住浏览器的cookie取消掉。步骤3、按照需求，配置采集任务接下来，请根据采集需求，自行配置采集任务。在这里以提取第1页的列表数据为例。如若不会，请看新手入门教程。可以看到，在启动本地采集以后，八爪鱼就以登录状态打开网页，采集数据。方法二：直接登录（启动采集以及修改任务时）记住cookie十分方便，每次直接以登录状态打开网页采集数据。但是，这个方法也有一定局限性，部分网站是不支持Cookie登录的。如果遇到这类网站，那么我们就要使用启动采集任务时先手动登录的办法。这个办法可以应对所有这类网站。具体我们在设置模板时都有考虑了。用户只要依步骤执行即可。
八爪鱼教程：美团网防采集任务切分批量采集教程 – 八爪鱼模板 (0) 2021年9月17日futaike_admin 我们在使用模板采集美团网的信息时，会遇到网站的反爬，这里呢，我们需要掌握一些任务切分的知识，以尽可能减少反爬对我们采集效率的影响。打开采集网址的规则，如上图所示：采集任务启动以后如下图：采集结束，导出已经采集到的网址列表保存到本地我们打开这个表格看一下，这里面的网址就是我们后面需要的：我们再打开规则2 – 采集详情的模板点开箭头处，这个规则里已经有了一些网址，是示例。不是你想要的，一会我们去替换掉即可。这里，我们可以手动输入要采集的目标网址，也可以从文件导入，还可以批量生成，以及从任务导入。重要：由于美团网防采集措施严格，这里要说明的是，大约2000条数据以后，可能会出现验证码或者网页加载不了，这是美团的防采集措施。这里我们需要预估一下，把规则1采集的商圈网址列表进行适当的拆分，如200条拆分成10条一组，共20组，这样，每个子任务可能采集数百或者一千多就采集完成了。如此，我们就可以高效的采集到想要的所有数据。而不会因为一个大任务由于被限制中断，导致所有的数据又得重头再来的错误。所以，这里呢，我们就把刚才那个表格当中的网址，复制大约10条进来。复制后的截图如下：点击保存网址、再保存规则。这时我们就可以点击开始采集。开始这个子任务了。然后，我们就按大任务的量，批量复制一下规则2，建立好各个子任务：点击如下图的更多操作，选择任务-复制：复制成功后，立即查看任务：下图就是复制好的另一子任务：按上述步骤，将这个子任务的网址列表更换。然后依次保存网址、保存规则。启动采集这个规则。如此我们就有了两个并行的子任务，下图是两个子任务采集的截图。然后，我们可以继续以上的步骤，直到大任务被拆分完毕，然后视个人电脑的配置，同时或者分批次启动各个子任务。如此，我们就是可以将一个地区的美团商家分批次采集到了。想到本教程提到的采集模板。点击下面的链接即可。美团网采集模板

<<
1

富泰科 | 提供专业级的千万级数据采集/数据爬取服务 | 文章列表

产品与服务

使用教程