云端大数据 (Azure)

BigData On Cloud ( Azure )

我已经主要使用 Hadoop 和 NoSQL 产品在本地实施了生产大数据解决方案,但从未在云上实施过。

今天我需要转向云端,因此我在寻找 BigData on Cloud(主要是 azure)的已知(生产而不仅仅是 POC)实现:

  1. 完整的 PaaS 解决方案:EMR/HDINSIGHT + S3/AzureBlob(或 Azure Datalake)+ Kenesis/Azure 事件中心
  2. 完整的 IaaS 发行版(CDH、HDP):IaaS 上的 Cloudera 或 Hortonworks + IaaS 上的 Kafka
  3. 混合 PaaS + IaaS:S3/AzureBlob 上的冷数据,IaaS Hadoop 上的暖+热数据和交换,PaaS 上的 AD + PaaS 上的 Azure 事件中心

此致

除了上面提到的内容之外,我还发现许多使用完整的 PAAS 和 IAAS 解决方案在云上实现的产品,其中一种比较成熟的是基于 S3 和 EMR 的 Netflix。