我一直在使用与Anaconda发行版一起安装的Spyder,它默认使用Python 2.7.目前,我需要使用Python 3.4设置开发虚拟环境.
在线研究后的两个主要建议是:
这两个建议都很麻烦,看起来不像是开发的明智选择.
是否有一个解决方案可以在激活所需的虚拟环境后自动运行Spyder所需的Python版本?
假设我们有一个包含这样的文档的集合:
{
_id : "some id",
items: [
{item: "item A", count: 5},
{item: "item B", count: 3},
{item: "item C", count: 9}
]
}
Run Code Online (Sandbox Code Playgroud)
如何将项数组中的第三个(或任何其他索引值)元素的值增加1?
而且我想引用的不是像这个问题中的匹配值而是通过索引.
最近我想做 Spark Summit 2016 的 Spark 机器学习实验室。培训视频在这里,导出的笔记本可以在这里找到。
实验室使用的数据集可以从UCI 机器学习存储库下载。它包含来自燃气发电厂中各种传感器的一组读数。格式为 xlsx 文件,共五张。
为了在实验室中使用数据,我需要读取 Excel 文件中的所有工作表并将它们连接到一个 Spark DataFrame 中。在培训期间,他们使用 Databricks Notebook,但我使用 IntelliJ IDEA 和 Scala 并在控制台中评估代码。
第一步是将所有 Excel 工作表保存到名为 等的单独 xlsx 文件中sheet1.xlxs,sheet2.xlsx并将它们放入sheets目录中。
如何读取所有 Excel 文件并将它们连接到一个 Apache Spark DataFrame 中?
我在Linux 64(Fedora 25)上的Intellij(CE 2017.1)Scala控制台中运行Spark代码作为脚本.我在开始时设置SparkContext:
import org.apache.spark.{SparkConf, SparkContext}
val conf = new SparkConf().
setAppName("RandomForest").
setMaster("local[*]").
set("spark.local.dir", "/spark-tmp").
set("spark.driver.memory", "4g").
set("spark.executor.memory", "4g")
val sc = new SparkContext(conf)
Run Code Online (Sandbox Code Playgroud)
但是运行的SparkContext始终以相同的行开头:
17/03/27 20:12:21 INFO SparkContext:运行Spark版本2.1.0
17/03/27 20:12:21 INFO MemoryStore:MemoryStore的容量为871.6 MB
17/03/27 20:12:21 INFO BlockManagerMasterEndpoint:注册块管理器192.168.1.65:38119,内存为871.8 MB,BlockManagerId(驱动程序,192.168.1.65,38119,无)
Spark Web UI中的Executors选项卡显示相同的数量.在启动之前从终端导出_JAVA_OPTIONS =" - Xms2g -Xmx4g"也没有效果.
apache-spark ×2
scala ×2
anaconda ×1
excel ×1
fedora-25 ×1
mongodb ×1
python ×1
python-3.x ×1
spark-excel ×1
spyder ×1
virtualenv ×1