下面的代码将从hbase读取,然后将其转换为json结构并转换为schemaRDD,但问题是我using List要存储json字符串然后传递给javaRDD,对于大约100 GB的数据,master将被加载内存中的数据.从hbase加载数据然后执行操作然后转换为JavaRDD的正确方法是什么.
package hbase_reader;
import java.io.IOException;
import java.io.Serializable;
import java.util.ArrayList;
import java.util.List;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.rdd.RDD;
import org.apache.spark.sql.api.java.JavaSQLContext;
import org.apache.spark.sql.api.java.JavaSchemaRDD;
import org.apache.commons.cli.ParseException;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.KeyValue;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableInputFormat;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.Text;
import org.apache.spark.SparkConf;
import scala.Function1;
import scala.Tuple2;
import scala.runtime.AbstractFunction1;
import com.google.common.collect.Lists;
public class hbase_reader {
public static void main(String[] args) throws IOException, ParseException {
List<String> jars = Lists.newArrayList("");
SparkConf spconf = new …Run Code Online (Sandbox Code Playgroud) 如何创建单词向量?我使用一个热键来创建单词向量,但它非常庞大,并不适用于类似的语义单词.所以我听说过使用神经网络发现单词相似性和单词向量的单词向量.所以我想知道如何生成这个向量(算法)或好材料来开始创建单词向量?
我想在文本中找到笔画的方向.如何使用Sobel算子?

这个图像显示了dp.它是渐变方向.我想知道如何应用Sobel算子来找到沿路径选择(从p到q)的像素,找到边缘像素的另一端q.
如何在 tf-idf 文档相似度和朴素贝叶斯分类器之间进行选择。我不明白该使用哪一种,有什么方法可以确定哪种算法适合什么用途?
我无法理解这个公式,
公式中的W(窗口)和强度是什么意思,
我在opencv文档中找到了这个公式 http://docs.opencv.org/trunk/doc/py_tutorials/py_feature2d/py_features_harris/py_features_harris.html
如何从中的task.py获取任务ID celery
from __future__ import absolute_import
from pig_engine.celery import app
import time
@app.task
def run(code):
result = task_id /// How to get the task id
return result
Run Code Online (Sandbox Code Playgroud)
我知道我们可以从run.delay()。id获取任务ID,但是如何在自己的任务中获取相同的ID