Cassandra和Pig集成 - hadoop是可选的吗?

mar*_*hon 4 java hadoop apache-pig cassandra

我正在尝试建立一个试验cassandra +猪群.cassandra wiki让你觉得你需要hadoop与猪融为一体.

但是cassandra-src/contrib/pig中的自述文件让人觉得你可以在没有hadoop的情况下在cassandra上运行猪.

如果hadoop是可选的,那么不使用它会失去什么?

nic*_*ley 6

在测试时,Hadoop只是可选的.为了做任何规模的任何事情你也需要hadoop.

没有hadoop运行意味着你在本地模式下运行猪.这基本上意味着所有数据都由您运行的同一个进程处理.这适用于单个节点和示例数据.

当运行任何大量数据或多台机器时,您希望以hadoop模式运行pig.通过在cassandra节点上运行hadoop任务跟踪器,pig可以利用map reduce减少提供的优势,通过分配工作负载和使用数据位置来减少网络传输.