Kafka在什么情况下开始"congest"?
Under which circumstances does Kafka begin to "congest"?
背景
我在这里按照本教程进行构建分布式环境的第一步:http://docs.spring.io/spring-cloud-dataflow-server-kubernetes/docs/current-SNAPSHOT/reference/htmlsingle/#_getting_started
我想要实现的是 运行 遗留 shell 和 c++ 应用程序的分布式作业队列。作业应根据负载分配到多个服务器。
我所做的不是打算拆分单个作业的数据,处理也不可行(无论如何在性能方面都很糟糕,这是关于什么的)他们并行。
所以,如果你愿意,我打算滥用大数据机器来完成这种任务。
问题
鉴于以上背景,Kafka消息总线在什么情况下会开始拥塞?
假设,当我有 4 台服务器来处理作业队列并将许多文件(每个数十或数百 MB)放入队列时会发生什么。例如,Kafka 会将这些消息传递给某些节点,还是所有节点都会收到相同的消息?在后一种情况下,我想我的集群只能扩展到 Kafka 可以处理的程度。
在这种情况下拥塞的其他原因呢?
Kafka 很可能不是我正在尝试做的事情的正确选择。但这也是我问的原因。
Kafka 不是文件服务器。默认最大消息大小 (max.message.bytes) 为 1000012 字节。不要用 Kafka 作为文件服务器,它不会让你开心。
一种可能的模式:使用长期存储解决方案(SAN、S3 等)并使用 Kafka 将 URI 传送到该存储
背景
我在这里按照本教程进行构建分布式环境的第一步:http://docs.spring.io/spring-cloud-dataflow-server-kubernetes/docs/current-SNAPSHOT/reference/htmlsingle/#_getting_started
我想要实现的是 运行 遗留 shell 和 c++ 应用程序的分布式作业队列。作业应根据负载分配到多个服务器。
我所做的不是打算拆分单个作业的数据,处理也不可行(无论如何在性能方面都很糟糕,这是关于什么的)他们并行。
所以,如果你愿意,我打算滥用大数据机器来完成这种任务。
问题
鉴于以上背景,Kafka消息总线在什么情况下会开始拥塞?
假设,当我有 4 台服务器来处理作业队列并将许多文件(每个数十或数百 MB)放入队列时会发生什么。例如,Kafka 会将这些消息传递给某些节点,还是所有节点都会收到相同的消息?在后一种情况下,我想我的集群只能扩展到 Kafka 可以处理的程度。 在这种情况下拥塞的其他原因呢?
Kafka 很可能不是我正在尝试做的事情的正确选择。但这也是我问的原因。
Kafka 不是文件服务器。默认最大消息大小 (max.message.bytes) 为 1000012 字节。不要用 Kafka 作为文件服务器,它不会让你开心。
一种可能的模式:使用长期存储解决方案(SAN、S3 等)并使用 Kafka 将 URI 传送到该存储