在笔记本电脑上安装 Hadoop、Pig 和 Hive
install Hadoop,Pig and hive in laptop
我想在笔记本电脑上安装hadoop、pig 和hive。我不知道如何安装和配置hadoop、pig和hive以及需要什么软件来安装和配置。
请告诉我 install/configure 笔记本电脑中的 Hadoop、Pig 和 Hive 所需的确切步骤。
并且我可以使用 windows OS 并且我在 windows OS
中安装了 hadoop
对于初学者,我建议坚持使用良好的预打包 Hadoop distribution/sandbox。即使您想在使用 Hadoop 提供的工具(例如 Hive 等)之前学习如何设置 Hadoop 集群,至少在开始时设置一个公共分布要容易得多。
Hadoop 的预打包沙箱将在 Linux 中。但最有可能的是,如果您从这些沙箱开始,您不需要在 Linux 中做很多事情就可以开始使用 Hadoop。就个人而言,我认为通过避免 Windows 端口上的支持和文档问题而节省的时间将大大补偿跳入 Linux 所需的任何额外工作,并且您至少会进入 [=] 的领域30=] 这本身就是一个非常重要的工具。
对于预打包的解决方案,您可以尝试瞄准 Cloudera quickstart VM or MapR quickstart VM,因为这些是使用最广泛的发行版。通过使用沙箱,您将跳过安装过程(如果您不知道自己想要什么,特别是如果您不熟悉 Linux,安装过程可能会很忙)并直接开始使用工具。由于 Cloudera 和 MapR 等大型供应商的良好文档的可用性,您在访问想要学习的工具时也会面临较少的问题。
遵循供应商特定的设置指南(也作为入门指南在下载页面上列出)以获取有关设置沙箱的更多详细信息。
设置沙箱后,您可以使用多种不同的方式访问 Hive 和 Pig。您可以使用 Hive 的命令行界面(称为直线)。如果您熟悉 JDBC,您可以通过它访问 Hive。安装 Apache-Thrift 以启用更广泛的访问选项,但您也可以将其保存以备后用。
除非您有非常具体的用途,否则我不建议您学习 Pig。如果您熟悉 Java(或 Scala,甚至 Python,以及其他选项),请尝试编写一些 Map-Reduce 风格的作业以了解有关 Hadoop 工作原理的更多信息。打开预先配置了这些沙箱的 Ambari(或 Cloudera Manger 等)界面,并查看沙箱预先打包的工具和服务。这些是最常见的,可以用作初学者的有用列表。开始了解它们(但如果可以,请跳过 Pig,即使它已预先安装;)
一旦您熟悉了您拥有的沙箱,我建议您选择 Apache Nifi,它的学习曲线更容易,并且具有很大的灵活性。但是您很可能必须为此设置一个新的沙箱。它也可以作为一个很好的学习复习练习。将其与您的 Hadoop 沙箱集成,实施一些不错的用例,您将获得一些很好的经验。
我想在笔记本电脑上安装hadoop、pig 和hive。我不知道如何安装和配置hadoop、pig和hive以及需要什么软件来安装和配置。
请告诉我 install/configure 笔记本电脑中的 Hadoop、Pig 和 Hive 所需的确切步骤。
并且我可以使用 windows OS 并且我在 windows OS
中安装了 hadoop对于初学者,我建议坚持使用良好的预打包 Hadoop distribution/sandbox。即使您想在使用 Hadoop 提供的工具(例如 Hive 等)之前学习如何设置 Hadoop 集群,至少在开始时设置一个公共分布要容易得多。
Hadoop 的预打包沙箱将在 Linux 中。但最有可能的是,如果您从这些沙箱开始,您不需要在 Linux 中做很多事情就可以开始使用 Hadoop。就个人而言,我认为通过避免 Windows 端口上的支持和文档问题而节省的时间将大大补偿跳入 Linux 所需的任何额外工作,并且您至少会进入 [=] 的领域30=] 这本身就是一个非常重要的工具。
对于预打包的解决方案,您可以尝试瞄准 Cloudera quickstart VM or MapR quickstart VM,因为这些是使用最广泛的发行版。通过使用沙箱,您将跳过安装过程(如果您不知道自己想要什么,特别是如果您不熟悉 Linux,安装过程可能会很忙)并直接开始使用工具。由于 Cloudera 和 MapR 等大型供应商的良好文档的可用性,您在访问想要学习的工具时也会面临较少的问题。
遵循供应商特定的设置指南(也作为入门指南在下载页面上列出)以获取有关设置沙箱的更多详细信息。
设置沙箱后,您可以使用多种不同的方式访问 Hive 和 Pig。您可以使用 Hive 的命令行界面(称为直线)。如果您熟悉 JDBC,您可以通过它访问 Hive。安装 Apache-Thrift 以启用更广泛的访问选项,但您也可以将其保存以备后用。
除非您有非常具体的用途,否则我不建议您学习 Pig。如果您熟悉 Java(或 Scala,甚至 Python,以及其他选项),请尝试编写一些 Map-Reduce 风格的作业以了解有关 Hadoop 工作原理的更多信息。打开预先配置了这些沙箱的 Ambari(或 Cloudera Manger 等)界面,并查看沙箱预先打包的工具和服务。这些是最常见的,可以用作初学者的有用列表。开始了解它们(但如果可以,请跳过 Pig,即使它已预先安装;)
一旦您熟悉了您拥有的沙箱,我建议您选择 Apache Nifi,它的学习曲线更容易,并且具有很大的灵活性。但是您很可能必须为此设置一个新的沙箱。它也可以作为一个很好的学习复习练习。将其与您的 Hadoop 沙箱集成,实施一些不错的用例,您将获得一些很好的经验。