小编Dan*_*SFT的帖子

SQL:如何执行字符串不等于

我有以下查询

SELECT * FROM table
WHERE tester <> 'username';

Run Code Online (Sandbox Code Playgroud)

我希望这能返回测试仪不是字符串的所有结果username,但这不起作用.我想我正在寻找Like操作员的反转,但我不确定？在我的搜索中,我找到了数字的解决方案(这是我从<>开始的地方),但这似乎不适用于字符串.

mysql

Dan*_*SFT

2019 04-07

104
推荐指数

5
解决办法

20万
查看次数

Azure Block Blob和Page Blob之间的差异？

当我最近开始混音时Windows Azure,我遇到了一种情况,即Block Blob&之间的哪一个Page Blob.我目前正在将一些text,csv或dat文件上传到blob存储,然后MapReduce使用我的C#程序为它做一个程序.是的,我已经经历了一些物品,如走了第一条,第二条.

但无法从他们那里得到一个明确的想法.缩短,Block Blob vs Page Blob.任何帮助,将不胜感激.

azure azure-storage azure-storage-blobs hdinsight

Kul*_*gar

2016 03-24

49
推荐指数

4
解决办法

4万
查看次数

Spark最终任务比前199任务长100倍,如何改进

我在使用数据帧运行查询时看到了一些性能问题.我在研究中已经看到,长期运行最终任务可以表明数据没有被最佳干扰,但是没有找到解决此问题的详细过程.

我开始将两个表作为数据帧加载,然后我在一个字段上加入这些表.我试图通过(重新分区)添加分发,并按顺序排序,以提高性能,但我仍然看到这个单一的长期运行的最终任务.这是我的代码的简单版本,请注意查询一和二实际上并不简单,并使用UDF来计算某些值.

我尝试过几种不同的设置spark.sql.shuffle.我已经尝试了100,但它失败了(说实话我没有真正调试这个).我尝试了300,4000和8000.性能随着每次增加而下降.我选择一天的数据,每个文件是一小时.

val df1 = sqlContext.sql("Select * from Table1")
val df2 = sqlContext.sql("Select * from Table2")

val distributeDf1 = df1
    .repartition(df1("userId"))
    .sortWithinPartitions(df1("userId"))

val distributeDf2 = df2
    .repartition(df2("userId"))
    .sortWithinPartitions(df2("userId"))

distributeDf1.registerTempTable("df1")
distributeDf2.registerTempTable("df2")

val df3 = sqlContext
  .sql("""
    Select 
      df1.* 
    from 
      df1 
    left outer join df2 on 
      df1.userId = df2.userId""")

Run Code Online (Sandbox Code Playgroud)

由于看起来userId的分区并不理想,我可以通过时间戳进行分区.如果我这样做,我应该只做日期+小时吗？如果我有不到200个独特的组合,我会有空执行器吗？

hive scala left-join apache-spark

Dan*_*SFT

2016 08-04

27
推荐指数

1
解决办法

7024
查看次数

在Scala中递归删除目录

我正在编写以下内容(使用Scala 2.10和Java 6):

import java.io._

def delete(file: File) {
  if (file.isDirectory) 
    Option(file.listFiles).map(_.toList).getOrElse(Nil).foreach(delete(_))
  file.delete
}

Run Code Online (Sandbox Code Playgroud)

你会如何改进它？代码似乎工作但它忽略了返回值java.io.File.delete.可以用它scala.io代替java.io吗？

java scala file

Mic*_*ael

2019 04-07

23
推荐指数

5
解决办法

2万
查看次数

如何将RedShift上的表卸载到单个CSV文件？

我想将一个表从Amazon RedShift迁移到MySQL,但是使用"unload"将生成多个数据文件,这些文件难以直接导入MySQL.

有没有办法将表卸载到一个CSV文件,以便我可以直接导入MySQL？

mysql amazon-web-services amazon-redshift

cip*_*hor

2017 06-07

19
推荐指数

2
解决办法

2万
查看次数

如何在Azure App Service上部署Jetty？

我有一个我在Azure App Service实例上运行的Java Web应用程序.为了部署它,我使用了一个带有.war文件的Bitbucket repo.当我向该repo提交一个新的.war文件时,它应该由该服务自动部署.但是,通常情况下,我必须通过FTP重新启动,重新部署甚至上传.war文件,才能成功完成部署.

我有一个驻留在此服务中的Jetty实例,因此我的.war文件被命名ROOT.war.AFAIK,当上传到服务(无论是通过Bitbucket还是FTP)时,这个.war文件应该被解压缩到同一目录中,即/site/wwwroot/webapps.就我而言,这不会发生.Web应用程序可以独立使用ROOT.war文件/site/wwwroot/webapps.每隔一段时间,我会得到一个ROOT文件夹/site/wwwroot/webapps,有两个默认文件index.jsp和background.png.我没有任何想法导致ROOT文件夹与这些默认文件一起出现的原因.我唯一的线索是,在我更改环境变量后,它发生了几次.

此外,ROOT文件夹显示空服务器文件后,我可以重新部署应用程序的唯一方法是ROOT通过FTP或门户网站中提供的控制台手动删除此文件夹,然后我的重新部署请求成功使用我的Web应用程序.

那么,如果不够清楚,我的问题是这里发生了什么？我无法从我面临的行为中做出任何改变.我觉得我盲目地使用这个Azure服务,并且当出现问题时无法解决任何问题.是否有任何资源可以解释部署Web应用程序时后台发生的情况？

java deployment jetty azure azure-api-apps

hal*_*lei

2017 06-07

17
推荐指数

1
解决办法

1072
查看次数

从Azure ML实验中访问Azure博客存储

Azure ML实验提供了通过Reader和Writer模块将CSV文件读取和写入Azure blob存储的方法.但是,我需要将一个JSON文件写入blob存储.由于没有模块可以这样做,我试图在一个Execute Python Script模块中这样做.

# Import the necessary items
from azure.storage.blob import BlobService

def azureml_main(dataframe1 = None, dataframe2 = None):
    account_name = 'mystorageaccount'
    account_key='mykeyhere=='
    json_string='{jsonstring here}'

    blob_service = BlobService(account_name, account_key)

    blob_service.put_block_blob_from_text("upload","out.json",json_string)

    # Return value must be of a sequence of pandas.DataFrame
    return dataframe1,

Run Code Online (Sandbox Code Playgroud)

但是,这会导致错误: ImportError: No module named azure.storage.blob

这意味着azure-storageAzure包上未安装Python包.

如何从Azure ML实验中写入Azure blob存储？

这是填充错误消息:

Error 0085: The following error occurred during script evaluation, please view the output log for more information: …

Run Code Online (Sandbox Code Playgroud)

python azure azure-machine-learning-studio cortana-intelligence

Ste*_*org

2016 03-02

14
推荐指数

1
解决办法

3407
查看次数

如何导入org.apache Java依赖项w /或没有Maven

所以快速的背景是我正在创建一个使用许多不同导入的java程序

    import org.apache.hadoop.conf.*;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.io.*;
    import org.apache.hadoop.mapreduce.*;
    import org.apache.hadoop.util.*;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

Run Code Online (Sandbox Code Playgroud)

我知道Netbeans没有找到这些文件,因为我的计算机上没有这些文件.但有没有办法让Netbeans自动连接org.apache并检索这些文件？或者我只需要下载它们.有人建议使用Maven,但我不确定这是否是正确的解决方案或如何解决这个问题？

谢谢

java import dependencies hadoop netbeans

Dan*_*SFT

2014 02-07

11
推荐指数

1
解决办法

5万
查看次数

Java,将String数组作为Method Parameter传递的最有效方法

我有以下代码

String[] args = {"a", "b", "c"};
method(args);


private void method(String[] args){
    return args;
}

Run Code Online (Sandbox Code Playgroud)

为什么我不能没有错误地执行以下操作？

method({"a", "b", "c"});

Run Code Online (Sandbox Code Playgroud)

这段代码只是为了证明这一点,而不是我使用的实际方法.我想做第二种方法来清理我的代码,并且当我只使用它们一次传递给我的方法时,避免声明十几个不同的数组.

问题的核心是将字符串数组作为方法参数传递的最有效方法是什么.

java arrays

Dan*_*SFT

2013 07-30

10
推荐指数

3
解决办法

2万
查看次数

Azure机器学习 - CORS

我已经为此搜索了几个小时,找不到回答问题的单一内容.我创建并发布了一个新的Azure机器学习服务,并创建了一个端点.我可以使用Postman REST CLient调用该服务,但是通过JavaScript网页访问它会返回一个控制台日志,说明已为该服务启用了CORS.现在,就我而言,我无法弄清楚如何为Azure机器学习服务禁用CORS.任何帮助将不胜感激,谢谢!

machine-learning azure cors azure-machine-learning-studio

Nei*_*eil

2016 02-02

10
推荐指数

1
解决办法

1960
查看次数