这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科
美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。
软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
工欲善其事,必先利其器。想要提高科研效率,自然少不了科研利器。本期内容我们就为大家盘点一下能提高科研效率的一些软件,希望能够帮到大家~
科技BOOM
2022-01-28 10-20
本文首发于「科技BOOM」,未经允许禁止转载!!
■Window TopMost Control
Window TopMost Control 是一款大小仅有 791KB 的,免费无广告的窗口置顶工具(绿色软件)。它简单好用,可以置顶任何一个程序窗口,比较适合在一些需要将某个程序窗口置顶显示的场景下使用。它目前仅支持 Windows 平台。
它的使用方法非常简单:解压软件压缩包后,双击运行其中的 exe 可执行文件就可以打开软件。
运行成功后,可以在任务栏上看到软件图标。鼠标右键点击软件图标,选择【Options】可以打开它的设置。在设置中我们可以自定义它的快捷键(用于置顶或取消置顶目标窗口):
在默认设置下,按 Ctrl+Alt+Space 快捷键就可以置顶或取消置顶当前的窗口。
当然,我们还可以通过鼠标右键点击任务栏上的软件图标,选择【Window List】打开窗口列表,从窗口列表中快速地置顶窗口。只要是打开了的窗口(处于最小化状态的窗口也能被检测到),它都能检测出来,并在Window List 中显示窗口名称:
■Smart System Menu
Smart System Menu是一款大小仅有 859KB 的,免费无广告的窗口标题栏菜单增强工具(绿色软件)。它目前仅支持 Windows 平台。
当我们在电脑上运行 Smart System Menu 后点击窗口标题栏时可以发现,此时的窗口标题栏右键菜单有了很多功能,如查看窗口信息、置顶窗口、打开或关闭毛玻璃效果、调节窗口透明度、调整窗口大小、将窗口移动到其他显示器等等:
我们可以通过它快速地查看窗口的信息,调节窗口的大小、透明度、位置等等:
鼠标右键点击任务栏上的软件图标后选择【设置】,就可以自定义这些菜单:
■Defender Exclusion Tool
Defender Exclusion Tool 是一款大小仅有 453KB 的免费无广告的绿色小软件。它可以快速地给 Windows 安全中心添加要从 Windows Defender 防病毒扫描中排除的项目。
相信大家在使用电脑的过程中都遇到过电脑上的某些文件或文件夹、甚至某些软件莫名其妙的消失或无法正常运行的情况。
这其实就是Windows Defender 在扫描磁盘时,将自己认为存在危险的文件或应用程序删除掉导致的。
Windows Defender 在 Windows 系统中极高的权限,可以轻松删除电脑上的任何一个自己认为可能存在安全问题的文件或程序。
而 Defender Exclusion Tool 可以快速地将任何一个文件或文件夹添加到 Windows Defeder 的“白名单”中。这样 ...
测评列表:吾记、墨记、flomo、时光手账、pendo、随手写、小日记、印象笔记、格子笔记、Zine、青橙日记、Notability
小明
2022-01-28 08-03
今天小编为大家精心分享这 5 款十分良心又好用的软件。
一、Convertio-文件转换器
Convertio 是一款在线转换文件的简单工具,它能支持超过309 种不同的文档、图像、电子表格、电子书、文档、演示文稿、音频和视频格式的转换。
在 Convertio 中,我们只需要把文件拖放至转换页面,选择输出格式并点击“转换”按钮即可,整个转换过程速度非常快,只需要1分钟左右的时间就能完成转换。
Convertio 下载地址
https://convertio.co/zh/webp-jpg/
二、Bandizip-免费压缩解压软件神器
Bandizip 是一款完全免费的自动解压缩软件,相比于其它解压缩软件,虽然它也只是做到了一款压缩软件本来该有的样子,但绝对比你用过的任何一款压缩软件都好用。
这款压缩软件几乎可以支持所有的压缩格式,软件界面、压缩文件预览、自动打包解压缩文件等页面设置也是非常的简洁美观。
该软件最大的优势,它完全支持商用,且还无广告和产品捆绑。
Bandizip 下载地址
https://www.bandisoft.com/bandizip/
三、Quicker-快速启动器
Quicker 是 Windows 上的一款工具箱软件,它的里面内置了电脑里常用的截图、使用百度搜索关键字等常用的操作,可以通过写好的自动化程序,一键完成需要多个步骤的操作。
除此之外,你还可以从 Quicker 动作库里选取一些别人分享的动作进行安装,来增强 Quicker 的能力。
Quicker 的面板划分为上下两块区域:上方是全局按钮区域,里面的按钮不会因打开的 Windows 应用而发生变化;对于下方的区域,按钮则会根据当前打开的应用有所变化。
Quicker 值得推荐的便是截图 OCR(文字识别)了,因为有时候我们在网上会看到一些值得保存的文本内容,但这些内容可能是以图片的形式存在,或者设置了禁止复制,让我们根本无法保存,那我们的 OCR 就可以很好的派上用场了。
对于识别得到的文本内容,Quicker 还能进行翻译、搜索和多行合并等,能方便你对文本后续可能进行的处理。
Quicker 下载地址
四、Everything- 快速搜索本地文件神器
Everything 是 Windows 上的一款搜索引擎软件,可以快速搜索本地磁盘文件。
它占用内存小,搜索界面简单,搜索速度又快,而且完全免费,还能够基于文件名快速锁定文件和文件夹位置,搜索时也只需输入文件夹或文件的关键字。
与Windows系统自带的搜索相比,Everything的速度确实要快很多倍,整个搜索过程几乎是感觉不到什么延迟的。
Everything还可以限定搜索类型,在视图中勾选筛选器就可以想定搜索范围了。同时还有预览功能,不论是文档、图片还是视频都可以快速显示。
右键点击文件也可以打开和复制文件路径,喜欢捣鼓的小伙伴还可以使用正则表达式进行搜索,不过默认的搜索功能也能让大家够用了。
Everything 下载地址
https://www.voidtools.com/zh-cn/
五、Geek-卸载流氓软件神器
Geek是一款专业的 Windows 软件卸载工具,真的是流氓软件的克星了,它自身内存非常小,只有 6M 大小,使用起来非常轻巧方便。
软件不仅完全免费 ,而且整个操作页面干净简洁,没有任何广告,单文件绿色版,可以解压即用。
打开 Geek Uninstaller,主界面列出了我们电脑上安装的所有软件列表。最近安装或修改过的,会以橙色突出显示。
选中要卸载的软件,点击右键进行卸载,软件还会自动扫描卸载程序中残留的文件和注册表等。
这款软件完全能够让你一键轻松删除所有残余垃圾,保持电脑的清洁!
Geek 下载地址
https://geekuninstaller.com/
IT技术分享社区
个人博客网站:https://programmerblog.xyz
文章推荐程序员效率:画流程图常用的工具程序员效率:整理常用的在线笔记软件远程办公:常用的远程协助软件,你都知道吗?51单片机程序下载、ISP及串口基础知识硬件:断路器、接触器、继电器基础知识
来源:https://zhuanlan.zhihu.com/p/462613023, 版权归原作者所有,如不同意转载,请来信告知。本站将停止转载。
今天抽空来跟大家去分享一款国产AI修图软件。事情的发生挺简单的,有一天在摄影群里朋友给了我一个链接推荐,说帮忙下载一下,顺便可以体验一下这个软件,说是比国外的修图插件Retouch4me还要好用
采集前的准备工作:
安装采集器软件:市面上如八爪鱼等支持JSON采集的都可以;安装后注册账号备用;
安装正版纯净的谷歌浏览器;安装好备用;
导入采集规则
规则使用详细说明
双击打开规则,界面如上图所示。左边窗体是流程图,用户无须更改,不要变动。右边窗体是采集全国各城市的重点要讲解的内容。
上图为某城市某商区的采集示例网址,我们想要变换采集的城市和商区,以及采集网址的生成和修改通过点击编辑按钮进行。
点击编辑按钮以后,出现如下的界面:
这里我们选择批量生成,
然后在下面的网址栏输入我们要批量生成的源网址(这个源网址后面我们来告诉大家从何而来)
在这个网址当中将offset=后面的数字选中,点击添加参数。
按上图的数字设置,红框当中的项数可以自行修改。此项的意思对应于采集的商区周圈商家数量的多少,由用户自己判断,结束值对应于本次采集的目标商家数。用户可通过设置项数,来灵活的设置采集本商区的目标商家数量。数量小可能会漏采,数量也不宜过大,过大则可能要空采,浪费时间。
设置好以后,点确定。最后保存网址。
然后会进入任务编辑页面:
依上图所示,点击确定,再点击保存。
然后,我们就可以启动任务,开始采集了。
我们会发现,采集的速度非常快,1分钟有100多条。采集到的内容有商家名称、地址、电话、优惠内容、商家图片、营业时间等。
如果采集结束,便可以导出数据,导出的数据支持的格式如下:
我们如果选择excel导出,导出后的表格如下:
四、采集网址的由来:
我们打开谷歌浏览器,在地址栏输入:h5.ele.me,在页面上点击右键,选择:检查:
点击下面的选择城市,和商区来定位。
我们这里选择大连市-老虎滩商区
点击这里,切换成移动端模拟页面:
点击页面上的:我的,登录饿了么客户端。
找到列表的含json数据的网址,在这个JSON网址上按右键,选择复制这个网址。
下面我们就可以回到步骤三,在采集器当中添加批量参数,采集该商区的所有商家了。
这个我们示例使用的是城市-大连,大家可以根据自己的需要,更换采集的目标城市,而由于每个城市的商区很多,这里我们也使用批量采集工具,帮大家采集好了,大家只需要选择好一个城市,使用表格当中的商区复制到下图的位置。然后复制步骤四当中生成的网址,设置好批量参数即可批量采集了。
全国商区7万多:
几点注意:
登录过饿了么以后,需要将登录后的cookie以及user-agent等复制到采集器当中去。否则访问网址会获取不到数据。
关于cookie的生命周期
cookie是有生命周期的,如果过期了,就会失效。如果失效了,可能会导致采集无法进行,因为饿了么限制未登录用户的翻页次数。所以,我们保证cookie的有效性。下面是需要更新cookie的时候:
A/更换了采集的城市;B/超过了几个小时未有采集;C/采集过程当中出错。
Tips:使用市面上第三方采集器采集移动app类的数据,都非常的复杂,需要用户有一定的动手能力。如果用户没有这方面的基础,上面可能很多步骤都完成不了。这时用户可以考虑委托我们定制一个专门的采集软件,或者更简单一些委托我们代为爬取数据。
输入行业关键字的操作说明
一、搜狗地图可选城市、可选行业关键字采集商家信息
打开规则,可以点击如下图的红框,更改城市名
更改行业关键字。修改以后记得点确定-保存。
启动规则,进行采集,可以看到采集的速度很快,采集的内容也如我们预期。
配合功能包使用,采集更多数据:
把对应城市的组合关键字,按下图输入,保存。
即可进行采集了。
想要上面提到的采集爬虫软件或者八爪鱼模板,一键直达
自动发送邮件能应用于许多场景中, 我们要想通过软件能自动发送,需要开启SMTP服务,并获取发送邮件的授权码,然后才可以发送服务。
首先,我们需要在邮箱中开启SMTP服务:
以QQ邮箱为例
开启smtp、生成授权码
然后我们将自己的发送邮箱地址和授权码填入软件以后,就可以边采集边发送邮件了。
有很多网站,是需要登录,在输入账号密码以后,才能采集到目标数据的。有的网站登录时还会需输入验证码。针对这类网站,八爪鱼提供了多种解决方法。下面一一详细讲解。
方法一、浏览器模式+记住Cookie
针对需要登录的网站,我们可以在采集器当中先将八爪鱼切换成浏览器模式,在浏览器模式下完成登录。然后通过获取当前页面的Cookie记住登录状态。这样,八爪鱼就能在执行采集任务时,直接以登录状态打开网页,然后再采集数据。
按下图示所示,一步步操作即可。
举例说明:
场景一:输入账号、密码登录
以豆瓣网为例,
登录网址为:https://www.douban.com
实际要采集数据的网址为:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4
步骤1、使用浏览器模式,输入账号密码,完成登录
在客户端首页,输入登录网址,打开网页后,点击 按钮,进入浏览器模式。下图状态即为浏览器模式。在浏览器模式下,和用普通浏览器访问网页完全一样:只可浏览网页数据,不可配置规则。如需编辑规则,再次点击 按钮,关闭浏览器模式。
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
在浏览器模式中,输入账号密码并登录。可以看到,现在我们已经以登录状态访问网页。
步骤2、记住Cookie
现在,我们已经处于登录状态,八爪鱼可以获取登录后的Cookie,记住登录状态。
将鼠标移动到【打开网页】步骤后的 位置,会出现 按钮。点击 按钮,再添加一个【打开网页】步骤。双击新建的【打开网页】步骤,输入要采集数据的目标网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。
然后在【高级设置】勾选【使用指定的Cookie】,再点击【获取当前页面Cookie】。获取Cookie后会变成 ,点击 ,可查看具体的Cookie内容,最后点击【应用】保存。
八爪鱼会记住这个Cookie状态,启动采集后,直接以登录状态打开网页。
tips:
a. Cookie是什么?通俗的说,Cookie是一些存储在用户电脑上的一些个文件,主要用来保存一些站点交互的和用户登录操作相关的一些数据,作用是让浏览器记往用户操作网页的一些内容。例如:用户第一次访问某网站,输入了账号密码登录。浏览器会问你是否需要“记住账号密码”。选择是以后,浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站,就无需再次输入账号密码。
b. Cookie是有生命周期的,这个周期多长时间取决于采集的网站。如果Cookie到期了,就需要再重新获取一次登陆之后的Cookie。
c. 如果需要切换账号,可以打开【高级选项】,勾选【打开网页前先清理缓存】。这样,每次打开网页时都会清理掉缓存信息,以未登录状态打开网页,此时再登录新账号即可。记得勾选时,要把下面的记住浏览器的cookie取消掉。
步骤3、按照需求,配置采集任务
接下来,请根据采集需求,自行配置采集任务。在这里以提取第1页的列表数据为例。如若不会,请看 新手入门教程 。
可以看到,在启动本地采集以后,八爪鱼就以登录状态打开网页,采集数据。
方法二:直接登录( 启动采集以及修改任务时)
记住cookie十分方便,每次直接以登录状态打开网页采集数据。但是,这个方法也有一定局限性,部分网站是不支持Cookie登录的。如果遇到这类网站,那么我们就要使用启动采集任务时先手动登录的办法。这个办法可以应对所有这类网站。具体我们在设置模板时都有考虑了。用户只要依步骤执行即可。
我们在使用模板采集美团网的信息时,会遇到网站的反爬,这里呢,我们需要掌握一些任务切分的知识,以尽可能减少反爬对我们采集效率的影响。
打开采集网址的规则,如上图所示:
采集任务启动以后如下图:
采集结束,导出已经采集到的网址列表保存到本地
我们打开这个表格看一下,这里面的网址就是我们后面需要的:
我们再打开规则2 – 采集详情的模板
点开箭头处,这个规则里已经有了一些网址,是示例。不是你想要的,一会我们去替换掉即可。
这里,我们可以手动输入要采集的目标网址,也可以从文件导入,还可以批量生成,以及从任务导入。
重要:由于美团网防采集措施严格,这里要说明的是,大约2000条数据以后,可能会出现验证码或者网页加载不了,这是美团的防采集措施。这里我们需要预估一下,把规则1采集的商圈网址列表进行适当的拆分,如200条拆分成10条一组,共20组,这样,每个子任务可能采集数百或者一千多就采集完成了。如此,我们就可以高效的采集到想要的所有数据。而不会因为一个大任务由于被限制中断,导致所有的数据又得重头再来的错误。
所以,这里呢,我们就把刚才那个表格当中的网址,复制大约10条进来。
复制后的截图如下:
点击保存网址、再保存规则。
这时我们就可以点击开始采集。开始这个子任务了。
然后,我们就按大任务的量,批量复制一下规则2,建立好各个子任务:点击如下图的更多操作,选择任务-复制:
复制成功后,立即查看任务:
下图就是复制好的另一子任务:
按上述步骤,将这个子任务的网址列表更换。然后依次保存网址、保存规则。
启动采集这个规则。如此我们就有了两个并行的子任务,下图是两个子任务采集的截图。
然后,我们可以继续以上的步骤,直到大任务被拆分完毕,然后视个人电脑的配置,同时或者分批次启动各个子任务。
如此,我们就是可以将一个地区的美团商家分批次采集到了。
想到本教程提到的采集模板。点击下面的链接即可。
美团网采集模板