小编Kar*_*ikS的帖子

如何在Linux上找到HADOOP_HOME路径？

我试图在hadoop服务器上运行以下java代码.

javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java

Run Code Online (Sandbox Code Playgroud)

但我无法找到{HADOOP_HOME}.我尝试过,hadoop -classpath但它输出如下:

/etc/hadoop/conf:/usr/lib/hadoop/lib/*:/usr/lib/hadoop/.//*:/usr/lib/hadoop-hdfs/./:/usr/lib/hadoop-hdfs/lib/*:/usr/lib/hadoop-hdfs/.//*:/usr/lib/hadoop-yarn/.//*:/usr/lib/hadoop-0.20-mapreduce/./:/usr/lib/hadoop-0.20-mapreduce/lib/*:/usr/lib/hadoop-0.20-mapreduce/.//*

Run Code Online (Sandbox Code Playgroud)

有人对此有任何想法吗？

linux hadoop

Ani*_*iya

2015 10-22

9
推荐指数

1
解决办法

5万
查看次数

如何在IPython Notebook中加载jar依赖项

这个页面鼓励我尝试使用spark-csv在PySpark中读取.csv文件我发现了一些帖子,比如这个描述如何使用spark-csv

但我无法通过在启动时包含.jar文件或包扩展来初始化ipython实例,这可以通过spark-shell完成.

也就是说,而不是

ipython notebook --profile=pyspark

Run Code Online (Sandbox Code Playgroud)

我试过了

ipython notebook --profile=pyspark --packages com.databricks:spark-csv_2.10:1.0.3

Run Code Online (Sandbox Code Playgroud)

但它不受支持.

请指教.

csv apache-spark pyspark jupyter-notebook

Kar*_*ikS

2019 01-16

7
推荐指数

2
解决办法

5738
查看次数

使用开发人员桌面和开发人员 Web 的 Oracle 数据库中没有 GROUP BY 的 HAVING 子句

我按照标准做法的理解是， HAVING 将与 GROUP BY 一起用于过滤条件，而 WHERE 应该用于一般的按行过滤条件。

然而，关于是否使用 HAVING 作为 WHERE 子句的超集，在线讨论的结论不一。也就是说，它是否可以在没有 GROUP BY 的情况下使用，在这种情况下它作为 WHERE 子句工作。

我想了解在 Oracle、Microsoft SQL 服务器、MySQL、PostGreSQL 和其他工具中使用 HAVING 子句的行业实践是什么。

我在执行此查询时观察到的一件有趣的事情：

SELECT *
FROM SH.SALES
WHERE amount_sold > 1000
HAVING amount_sold < 2000;

Run Code Online (Sandbox Code Playgroud)

它在 Oracle SQL 开发人员桌面中执行时出错，而在 Oracle SQL 开发人员 Web 中成功运行。

oracle having oracle-sqldeveloper having-clause oracle-ords

Kar*_*ikS

2020 12-18

6
推荐指数

1
解决办法

171
查看次数

关系数据库与R / Python数据框架

在接触RDBMS系统和其他数据库系统之前，我曾接触过R中的表和数据结构。在R / Python中，从结构化数据（.csv或其他格式）创建表和列表，然后以编程方式进行数据处理是非常优雅的。

去年，我参加了数据库管理课程，学习了有关结构化和非结构化数据库的所有知识。我还注意到，通常将数据从多个数据源馈送到数据库中，而不是直接在R中使用它们（为了方便和约束？）。

出于研究目的，R似乎足以连接，附加甚至复杂的数据操作。

不断出现的问题是：何时通过使用诸如read.csv之类的命令直接使用R，何时通过创建数据库并使用R-SQL接口从表中查询来使用R？

例如，如果我有多源数据，例如（a）人员水平信息（年龄，性别，吸烟习惯），（b）结果变量（例如他们实时进行的调查），（c）协变量信息（环境特征），（d）治疗投入（发生改变结果的事件-调查响应）（d）参加调查的参与者的时间和空间信息

在这种情况下如何处理数据收集和处理。可能会有标准的行业程序，但是我在这里提出这个问题，以了解个人和小组研究人员可以采用的可行和最佳方法的列表。

database database-design data-processing data-collection dataframe

Kar*_*ikS

lucky-day

5
推荐指数

1
解决办法

1416
查看次数

如何为 write.csv 默认设置 row.names=FALSE 和 na=""？

当我发出时write.csv(dataframe_name,"File_name.csv")，我添加了参数row.names=F，na=" "以便于在 MS-Excel 中阅读。R 中是否有一个默认选项来始终设置这些参数。

r dataframe

Kar*_*ikS

lucky-day

1
推荐指数

1
解决办法

1218
查看次数

标签统计

dataframe ×2

apache-spark ×1

csv ×1

data-collection ×1

data-processing ×1

database ×1

database-design ×1

hadoop ×1

having ×1

having-clause ×1

jupyter-notebook ×1

linux ×1

oracle ×1

oracle-ords ×1

oracle-sqldeveloper ×1

pyspark ×1

r ×1

如何在Linux上找到HADOOP_HOME路径？

如何在IPython Notebook中加载jar依赖项

使用开发人员桌面和开发人员 Web 的 Oracle 数据库中没有 GROUP BY 的 HAVING 子句

关系数据库与R / Python数据框架

如何为 write.csv 默认设置 row.names=FALSE 和 na=""？

标签 统计

小编Kar_ikS的帖子

标签统计