小编Aja*_*jay的帖子

R - 将数据帧转换为时间序列

我有谷歌股票数据.它有两列Date(每日数据)和Close,即谷歌收盘指数.

Date    Close
10/11/2013  871.99
10/10/2013   868.24
10/9/2013    855.86
10/8/2013   853.67
10/7/2013   865.74
10/4/2013   872.35
10/3/2013   876.09
10/2/2013   887.99
10/1/2013   887
9/30/2013   875.91
9/27/2013   876.39
9/26/2013   878.17
9/25/2013   877.23
9/24/2013   886.84

Run Code Online (Sandbox Code Playgroud)

它以csv格式,我通过read.csv读取它返回数据框对象.当我尝试将其转换为timeseries/ts()对象时,它会返回不需要的数字.

请帮我将数据帧转换为ts()对象.

提前致谢.

r time-series

Aja*_*jay

lucky-day

13
推荐指数

2
解决办法

5万
查看次数

通过SQL代码识别主键候选者

我有一个包含数百万行且没有约束的原始数据,我想通过SQL代码识别主键的唯一列.

有什么办法可以通过SQL代码识别主键候选者吗？

sql sql-server primary-key

Aja*_*jay

2014 12-23

7
推荐指数

1
解决办法

2201
查看次数

使用JAVA列出HDFS的文件夹和文件

我试图使用JAVA列出HDFS中的所有目录和文件.

Configuration configuration = new Configuration();
FileSystem fs = FileSystem.get(new URI("hdfs://ip address"), configuration);
FileStatus[] fileStatus = fs.listStatus(new Path("hdfs://ip address/user/uname/"));
Path[] paths = FileUtil.stat2Paths(fileStatus);
for(FileStatus status : fileStatus){
    System.out.println(status.getPath().toString());
}

Run Code Online (Sandbox Code Playgroud)

我的代码能够生成fs对象,但卡在第3行,在这里它尝试读取文件的文件夹和文件.我正在使用AWS.

请帮我解决这个问题.

java hadoop mapreduce hdfs

Aja*_*jay

2017 10-03

3
推荐指数

1
解决办法

1万
查看次数

Sqoop - 数据分割

Sqoop能够使用--query子句从多个表中导入数据,但不清楚它是否能够在查询下导入.

从deptid的emp组中选择deptid,avg(薪水)

另一个问题是

sqoop import --connect jdbc:mysql:// myserver:1202/--username = u1 --password = p1 --query'从emp中选择*empid <1123和$ CONDITIONS'--split-by empid --target -dir/uname/emp/salary

$ CONDITIONS和split-by用于执行并行处理,或者我们可以说有效地导入数据.以前根据条件拆分行,然后在主键上使用最小和最大逻辑.这两者有什么区别($CONDITIONS, split-by).如果我们在同一个sqoop语句中使用两者,哪个子句会优先？

谢谢....

hadoop sqoop

Aja*_*jay

lucky-day

2
推荐指数

1
解决办法

5872
查看次数

Azure API 身份验证

我在 C# 代码中使用 Azure API 并使用以下库：

using Microsoft.Rest; using Microsoft.Rest.Azure.Authentication;
using Microsoft.Azure.Management.DataLake.Store;
using Microsoft.Azure.Management.DataLake.StoreUploader;
using Microsoft.Azure.Management.DataLake.Analytics;
using Microsoft.Azure.Management.DataLake.Analytics.Models;
using Microsoft.WindowsAzure.Storage.Blob;

Run Code Online (Sandbox Code Playgroud)

创建与 Azure 的连接：

private static ServiceClientCredentials AuthenticateAzure(string domainName, string nativeClientAppCLIENTID)
{
    // User login via interactive popup
    SynchronizationContext.SetSynchronizationContext(new SynchronizationContext());
    // Use the client ID of an existing AAD "Native Client" application.
    var activeDirectoryClientSettings = ActiveDirectoryClientSettings.UsePromptOnly(nativeClientAppCLIENTID, new Uri("urn:ietf:wg:oauth:2.0:oob"));
    return UserTokenProvider.LoginWithPromptAsync(domainName, activeDirectoryClientSettings).Result;
}

Run Code Online (Sandbox Code Playgroud)

打电话时LoginWithPromptAsync，我收到了弹出窗口，询问我的凭据。我不希望每次运行代码时都出现此弹出窗口。除了创建 Azure 应用程序之外，还有什么办法可以提出这个问题吗？

我有一个ApplicationId, TenantId, CertificateThumbprint, 和SubscriptionId（如下）。我可以使用这些字段在没有提示的情况下对 azure 进行身份验证吗？

c# azure azure-management-api azure-api-apps

Aja*_*jay

2020 08-12

2
推荐指数

1
解决办法

5506
查看次数

Scala - Groupby和Max on pair RDD

我是spark scala的新手,想要找到每个部门的最高工资

Dept,Salary
Dept1,1000
Dept2,2000
Dept1,2500
Dept2,1500
Dept1,1700
Dept2,2800

Run Code Online (Sandbox Code Playgroud)

我实现了以下代码

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf


object MaxSalary {
  val sc = new SparkContext(new SparkConf().setAppName("Max Salary").setMaster("local[2]"))

  case class Dept(dept_name : String, Salary : Int)

  val data = sc.textFile("file:///home/user/Documents/dept.txt").map(_.split(","))
  val recs = data.map(r => (r(0), Dept(r(0), r(1).toInt)))
  val a = recs.max()???????
})
}

Run Code Online (Sandbox Code Playgroud)

但坚持如何实现group by和max功能.我正在使用对RDD.

谢谢

scala apache-spark

Aja*_*jay

lucky-day

0
推荐指数

1
解决办法

3783
查看次数

SQL - 创建所有可能的组合

我有几个课程,我想创建所有可能的组合.

班级表

ColA
A
B
C
D
E

Run Code Online (Sandbox Code Playgroud)

输出(不是如果我有A,B作为输出我不想要B,A等等)

ColA    Col2 
A        B
A        C
A        D
A        E
B        C
B        D
B        E
C        D
C        E
D        E

Run Code Online (Sandbox Code Playgroud)

我不想使用游标.

sql sql-server

Aja*_*jay

2015 01-22

-2
推荐指数

1
解决办法

161
查看次数

标签统计

hadoop ×2

sql ×2

sql-server ×2

apache-spark ×1

azure ×1

azure-api-apps ×1

azure-management-api ×1

c# ×1

hdfs ×1

java ×1

mapreduce ×1

primary-key ×1

r ×1

scala ×1

sqoop ×1

time-series ×1

班级表

标签 统计

小编Aja_jay的帖子

标签统计