小编Ale*_*rev的帖子

hadoop中"超级模式"的目的是什么?

嗨,我是一个大数据新手.我搜索了整个互联网,找到了什么是超级模式.我搜索的越多,我就越困惑.有人可以回答我的问题来帮助我吗?

  • 优步模式有什么作用?
  • 它在mapred 1.x和2.x中的工作方式是否有所不同?
  • 我在哪里可以找到它的设置?

hadoop mapreduce

28
推荐指数
2
解决办法
2万
查看次数

read.table()和read.csv都是Rmd中的错误

我想在Rmd中读取一个txt

---
title: "Untitled"
output: html_document
---
```{r}
country <- read.table("country.txt")
country
```
Run Code Online (Sandbox Code Playgroud)

它显示错误:

processing file: Preview-2878539db5c7.Rmd

Quitting from lines 6-8 (Preview-2878539db5c7.Rmd) 
Error in file(file, "rt") : cannot open the connection
Calls: <Anonymous> ... withCallingHandlers -> withVisible -> eval -> eval -> read.table -  > file
Execution halted
Run Code Online (Sandbox Code Playgroud)

但我可以成功地在R控制台中运行代码

> country <- read.table("country.txt")

> country
     production1 education1     fir1 inflation1 lq1 nonstatein1 patent1     tax1   trade1
2001    52920.47   132649.4 2.339263   0.700000  NA    19562.16  109313 23783.07 23783.07
2002    65876.57   144090.3 2.500826  -0.800000  NA …
Run Code Online (Sandbox Code Playgroud)

markdown r read.table knitr r-markdown

23
推荐指数
1
解决办法
3万
查看次数

Numpy:如何将矩阵随机分割/选择为n个不同的矩阵

  • 我有一个形状为(4601,58)的numpy矩阵.
  • 我想根据行数按60%,20%,20%的比例随机分割矩阵
  • 这是我需要的机器学习任务
  • 是否存在随机选择行的numpy函数?

python random numpy scipy scikits

13
推荐指数
2
解决办法
7740
查看次数

Java使用中的Stanford POS标记

Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: ? (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: ? (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: ? (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: ? (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: ? (U+FFFD, decimal: 65533)
Mar 9, 2011 1:22:06 PM edu.stanford.nlp.process.PTBLexer next
WARNING: Untokenizable: ? (U+FFFD, decimal: 65533)
Mar 9, …
Run Code Online (Sandbox Code Playgroud)

java pos-tagger stanford-nlp

11
推荐指数
1
解决办法
5836
查看次数

如何在Apache Spark中使用Hadoop InputFormats?

ImageInputFormat在Hadoop中有一个类从HDFS读取图像.如何在Spark中使用我的InputFormat?

这是我的ImageInputFormat:

public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {

    @Override
    public ImageRecordReader createRecordReader(InputSplit split, 
                  TaskAttemptContext context) throws IOException, InterruptedException {
        return new ImageRecordReader();
    }

    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        return false;
    }
}  
Run Code Online (Sandbox Code Playgroud)

hadoop hdfs apache-spark

11
推荐指数
1
解决办法
1万
查看次数

Random.nextInt(int)[略微偏]

也就是说,它将永远不会连续生成超过16个偶数,并带有一些特定upperBound参数:

Random random = new Random();

int c = 0;
int max = 17;
int upperBound = 18;

while (c <= max) {
    int nextInt = random.nextInt(upperBound);
    boolean even = nextInt % 2 == 0;
    if (even) {
        c++;
    } else {
        c = 0;
    }
}
Run Code Online (Sandbox Code Playgroud)

在这个例子中,代码将永远循环,而当upperBound例如是16时,它会很快终止.

这种行为的原因是什么?方法的javadoc中有一些注释,但我没理解它们.


UPD1:代码似乎以奇数上限终止,但可能会遇到偶数


UPD2:我修改了代码以捕获c评论中建议的统计信息:

Random random = new Random();

int c = 0;
long trials = 1 << 58;
int max = 20; …
Run Code Online (Sandbox Code Playgroud)

java random

10
推荐指数
1
解决办法
2074
查看次数

Flink Scala API"没有足够的参数"

我在使用Apache Flink Scala API时遇到了麻烦

例如,即使我从官方文档中获取示例,scala编译器也会给我带来大量的编译错误.

码:

object TestFlink {

  def main(args: Array[String]) {
    val env = ExecutionEnvironment.getExecutionEnvironment
    val text = env.fromElements(
      "Who's there?",
      "I think I hear them. Stand, ho! Who's there?")

    val counts = text.flatMap { _.toLowerCase.split("\\W+") filter { _.nonEmpty } }
      .map { (_, 1) }
      .groupBy(0)
      .sum(1)

    counts.print()

    env.execute("Scala WordCount Example")
  }
}
Run Code Online (Sandbox Code Playgroud)

Scala IDE为该行输出以下内容 val text = env.fromElements

Multiple markers at this line
  - not enough arguments for method fromElements: (implicit evidence$14: scala.reflect.ClassTag[String], implicit evidence$15: 
   org.apache.flink.api.common.typeinfo.TypeInformation[String])org.apache.flink.api.scala.DataSet[String]. …
Run Code Online (Sandbox Code Playgroud)

scala-ide apache-flink

10
推荐指数
1
解决办法
2766
查看次数

如何在Flink Standalone中查看日志或Sysout

我在Flink独立运行我的应用程序,但无法在控制台中找到它的sysout FLINK_HOME/log.

有谁知道我在哪里可以看到我的应用程序调试日志?以及如何知道我的应用程序运行在哪些TM上?

apache-flink

9
推荐指数
1
解决办法
2600
查看次数

从eclipse启动mapreduce作业

我用Java编写了一个mapreduce程序,我可以将其提交给以分布式运行的远程集群.目前,我使用以下步骤提交作业:

  1. 将mapreuce作业导出为jar(例如myMRjob.jar)
  2. 使用以下shell命令将作业提交到远程集群: hadoop jar myMRjob.jar

当我尝试运行程序时,我想直接从Eclipse提交作业.我怎样才能做到这一点?

我目前正在使用CDH3,我的conf的删节版本是:

conf.set("hbase.zookeeper.quorum", getZookeeperServers());
conf.set("fs.default.name","hdfs://namenode/");
conf.set("mapred.job.tracker", "jobtracker:jtPort");
Job job = new Job(conf, "COUNT ROWS");
job.setJarByClass(CountRows.class);

// Set up Mapper
TableMapReduceUtil.initTableMapperJob(inputTable, scan, 
    CountRows.MyMapper.class, ImmutableBytesWritable.class,  
    ImmutableBytesWritable.class, job);  

// Set up Reducer
job.setReducerClass(CountRows.MyReducer.class);
job.setNumReduceTasks(16);

// Setup Overall Output
job.setOutputFormatClass(MultiTableOutputFormat.class);

job.submit();
Run Code Online (Sandbox Code Playgroud)

当我直接从Eclipse运行它时,该作业已启动,但Hadoop无法找到映射器/缩减器.我收到以下错误:

12/06/27 23:23:29 INFO mapred.JobClient:  map 0% reduce 0%  
12/06/27 23:23:37 INFO mapred.JobClient: Task Id :   attempt_201206152147_0645_m_000000_0, Status : FAILED  
java.lang.RuntimeException: java.lang.ClassNotFoundException:   com.mypkg.mapreduce.CountRows$MyMapper  
    at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:996)  
    at org.apache.hadoop.mapreduce.JobContext.getMapperClass(JobContext.java:212)  
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:602)  
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:323)   
    at org.apache.hadoop.mapred.Child$4.run(Child.java:270)  
    at java.security.AccessController.doPrivileged(Native …
Run Code Online (Sandbox Code Playgroud)

eclipse hadoop mapreduce

8
推荐指数
1
解决办法
1万
查看次数

节点的xlabels与点中的边缘重叠

我尝试使用点来绘制图形,我有以下问题

图形

节点的标签bato 的边缘重叠b.有没有办法以某种方式移动这个标签以避免这种情况?

这是我用来生成图像的代码(使用dot)

digraph A {
  rankdir=LR;
  center=true; margin=0.3; 
  nodesep=1.5; ranksep=0.5;

  node [shape=point,  height=".2", width=".2"];

  a [xlabel="a"];
  b [xlabel="b"];
  c [xlabel="c"];
  a -> b -> c;
  a -> c;
}
Run Code Online (Sandbox Code Playgroud)

这种情况经常发生并且很烦人(这里同样,但有边缘):

在此输入图像描述

据我所知,这是因为xlabel在所有事情都已经布好之后才会出现这个问题,但我想知道是否有可能帮助它 - 也就是说它需要放置标签的位置.

dot graphviz

7
推荐指数
1
解决办法
1748
查看次数