小编Pan*_*ias的帖子

Spark与Cassandra输入/输出

想象一下以下场景:Spark应用程序(Java实现)正在使用Cassandra数据库加载,转换为RDD并处理数据.该应用程序还从数据库中蒸出新数据,这些数据也由自定义接收器处理.流处理的输出存储在数据库中.该实现使用Spring Data Cassandra与数据库集成.

CassandraConfig:

@Configuration
@ComponentScan(basePackages = {"org.foo"})
@PropertySource(value = { "classpath:cassandra.properties" })
public class CassandraConfig {

    @Autowired
    private Environment env;

    @Bean
    public CassandraClusterFactoryBean cluster() {
        CassandraClusterFactoryBean cluster = new CassandraClusterFactoryBean();
        cluster.setContactPoints(env.getProperty("cassandra.contactpoints"));
        cluster.setPort(Integer.parseInt(env.getProperty("cassandra.port")));

        return cluster;
    }

    @Bean
    public CassandraMappingContext mappingContext() {
        return new BasicCassandraMappingContext();
    }

    @Bean
    public CassandraConverter converter() {
        return new MappingCassandraConverter(mappingContext());
    }

    @Bean
    public CassandraSessionFactoryBean session() throws Exception {
        CassandraSessionFactoryBean session = new CassandraSessionFactoryBean();
        session.setCluster(cluster().getObject());
        session.setKeyspaceName(env.getProperty("cassandra.keyspace"));
        session.setConverter(converter());
        session.setSchemaAction(SchemaAction.NONE);

        return session;
    }

    @Bean
    public CassandraOperations cassandraTemplate() throws Exception { …

Run Code Online (Sandbox Code Playgroud)

java cassandra apache-spark spring-data-cassandra

Pan*_*ias

2014 06-27

8
推荐指数

1
解决办法

8323
查看次数

Apache Spark(MLLib)用于实时分析

我有一些与使用Apache Spark进行实时分析相关的问题.提交Spark应用程序时,存储在Cassandra数据库中的数据将通过机器学习算法(支持向量机)加载和处理.在新数据到达时,通过Spark的流式传输扩展,它们将保留在数据库中,重新训练现有数据集并执行SVM算法.此过程的输出也存储在数据库中.

Apache Spark的MLLib提供线性支持向量机的实现.如果我想要一个非线性SVM实现,我应该实现自己的算法,还是可以使用现有的库,如libsvm或jkernelmachines？这些实现不是基于Spark的RDD,有没有办法在不使用RDD集合从头开始实现算法的情况下做到这一点？如果不是,如果我想测试几种算法,那将是一项巨大的努力.
MLLib是否在执行SVM算法之前提供了开箱即用的数据扩展工具？http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf,见2.2节
在对新数据集进行流式处理时,是否需要重新训练孔数据集？有什么方法可以将新数据添加到已经训练过的数据中吗？

machine-learning cassandra apache-spark

Pan*_*ias

2014 06-27

7
推荐指数

1
解决办法

1409
查看次数