软件推荐 | 5 个用于网络抓取的 Python 库都是哪些？

有数十种用于 Web 抓取的软件包…… 但是您只需要少数几个就可以抓取几乎所有网站。这是一个自己认定的说法。这里决定采用我们最喜欢的 5 个用于网络抓取的 Python 库。它们一起涵盖了所有重要基础，并且有较好的文件。

我需要学习下面的每个包吗？

不，但是每个人都会有需要，因为这是您如何与网站进行交流。其余的取决于您的用例。经验法则如下：

您应该至少学习 BeautifulSoup 或 lxml 中的一种。选择哪个对您来说更直观（请参见下文）。

如果您需要使用 JavaScript 收集的数据来抓取网站，请学习 Selenium。

如果您需要构建真正的蜘蛛或网络爬虫，而不仅仅是在这里和那里刮几页，请学习 Scrapy。

那个必较适合你用餐呢？

农场 / Requests

对于添加到数据科学工具箱中至关重要。这是一个简单但功能强大的 HTTP 包，这意味着您可以使用它来访问网页。我们将其称为 “农场”，因为您将使用它来获取菜肴的原料（即原始 HTML）（即可用数据）。它的简单性绝对是其最大的优势。它非常易于使用，您无需阅读文档即可直接进入。例如，如果您想取得页面的内容，简单如下。：但这不仅是 Requests 所能做的。它可以访问 API，发布到窗体等等。另外，它具有特色…… 这是唯一自称为非基因，有机和素食的包。你一定会喜欢的。

炖菜 / Beautiful Soup 4

有了食材之后，现在呢？现在，您将它们制成炖菜…… 美丽的炖菜。Beautiful Soup（BS4）是一个解析包，可以使用不同的解析器。解析器只是一个可以从 HTML 和 XML 文文件提取数据的程序。Beautiful Soup 的默认解析器来自 Python 的标准库。它既灵活又宽容，但是有点慢。好消息是，如果需要速度，可以将其解析器换成更快的解析器。BS4 的一个优点是它能够自动检测编码。这使它可以优雅地处理带有特殊字符的 HTML 文檔。此外，BS4 可以帮助您浏览已解析的文档并找到所需的内容。这使得构建通用应用程序变得快捷而轻松。例如，如果您想找到我们之前取得网页中的所有链接，则只有下面几行，这种迷人的简单性使其成为最受欢迎的 Python Web 抓取包之一！

色拉 /lxml

Lxml 是高性能，生产质量的 HTML 和 XML 解析包。我们称其为 “色拉”，因为无论您选择哪种饮食，您都可以依靠它对自己有益。在所有 Python 网络抓取包中，我们最喜欢使用 lxml。它简单，快速且功能丰富。即使这样，如果您有使用 XPath 或 CSS 的经验，也很容易上手。它的原始速度和力量也帮助其在行业中被广泛采用。

BeautifulSoup 对上 lxml

历史上，经验法则是：如果需要速度，请使用 lxml。如果需要处理杂乱的文档，请选择 BeautifulSoup。但是，这种区别不再成立。Beautiful Soup 现在支持使用 lxml 解析器，反之亦然。一旦学习了另一种，也很容易学习另一种。因此，一开始，我们建议您同时尝试并选择一种对您而言更直观的选择。我们更喜欢 lxml，但是许多人对 Beautiful Soup 始终如一。

. 使用 lxml 和 Requests 进行 HTML Scraping –简短而有趣的教程，介绍了使用 Requests 提取网页，然后使用 XPath 选择器来挖掘所需的数据。比正式文档更适合初学者。

餐厅 / Selenium

有时，您确实需要去餐厅吃某些菜。农场很棒，但是您找不到那里的一切。

同样，有时 Requests 包不足以抓取网站。那里的某些站点使用 JavaScript 来提供内容。例如，他们可能要等到您向下滚动页面或单击按钮才能加载某些内容。其他站点可能需要您单击窗体才能查看其内容。或从下拉菜单中选择选项。或进行部落雨舞…… 对于这些网站，您将需要更强大的功能。您将需要 Selenium（可以处理部落雨舞以外的所有事物）。Selenium 是使浏览器自动化的工具，也称为 Web 驱动程序。有了它，您实际上可以打开 Google Chrome 窗口，访问网站，然后单击链接。很酷吧？它还带有 Python 绑定，可直接在您的应用程序中对其进行控制。与您选择的解析库集成变得轻而易举。

厨师 / Scrapy

好的，我们刚才讲了很多。您已经有了 Requests 和 Selenium，可以从网页中获取 HTML / XML。然后，您可以使用 Beautiful Soup 或 lxml 将其解析为有用的数据。但是，如果您还需要更多呢？如果您需要一个可以系统地爬整个网站的完整蜘蛛，该怎么办？Scrapy！从技术上讲，Scrapy 甚至不是一个包…… 这是一个完整的 Web 抓取框架。这意味着您可以使用它来管理请求，保留用户会话，遵循复位向并处理输出管道。这也意味着您可以与其他 Python Web 抓取包交换单个模块。例如，如果您需要插入 Selenium 来抓取动态网页。因此，如果您需要重新使用搜寻器，对其进行缩放，管理复杂的数据管道或制作其他一些复杂的蜘蛛，那么 Scrapy 就是为您量身定制的。

————————————————

转自链接：五个常用的爬虫包 | Python 技术论坛

微信扫描下方的二维码阅读本文

软件推荐 | 5 个用于网络抓取的 Python 库都是哪些？

相关文章

美团外卖登录用这招彻底清除登录后的浏览器缓存，解决小袋鼠|您的网络不给力问题

富泰科促销活动信息汇总

外卖商家采集导出，不需要登录平台账号，一键傻瓜导出 | 美团外卖 | 饿了么外卖

更多相关

密码保护：美团外卖采集助手定制功能使用教程

chrome浏览器（谷歌浏览器）的问题，用这个小工具全能解决。（没安装、安装路径当中有中文用户名等）

美团外卖登录用这招彻底清除登录后的浏览器缓存，解决小袋鼠|您的网络不给力问题

🔥京东到手价批量查询 | 京东薅羊毛必备！这个神器我不允许你还不知道