小编nom*_*-ir的帖子

调整ipython笔记本输出窗口的大小

默认情况下,ipython笔记本输出仅限于底部的小子窗口.当输出很大时,这使得我们强制使用输出窗口附带的单独滚动条.

任何配置选项使其不受大小限制,而是运行与实际输出一样高?或者选择在创建后调整大小?

ipython-notebook jupyter-notebook

94
推荐指数
6
解决办法
6万
查看次数

使输出单元格像Markdown

我喜欢IPython的Markdown单元格,用于在笔记本中集成HTML和其他丰富内容.我想知道输出单元格中是否可以类似地格式化命令输出.

这是我输出HTML的函数之一:

    print_html():
      print """
      <h2>Matplotlib's chart gallery (Click a chart to see the code to create it)</h2><br>
      <div align="center"> <iframe title="Matplotlib Gallery" width="950"
      height="250" src="http://matplotlib.org/gallery.html#api" frameborder="0"
      allowfullscreen></iframe></div>
    """
Run Code Online (Sandbox Code Playgroud)

上面的HTML代码,如果放在markdown(输入)单元格中,会产生与Matplotlib库的良好链接.但在输出单元格中,它只是纯文本.有什么办法让它内容丰富吗?

ipython-notebook

16
推荐指数
2
解决办法
8724
查看次数

Spark如何将切片分解为任务/执行者/工作者?

我有一个2节点的Spark集群,每个节点有4个核心.

        MASTER
(Worker-on-master)              (Worker-on-node1)
Run Code Online (Sandbox Code Playgroud)

Spark配置:

  • slave:master,node1
  • SPARK_WORKER_INSTANCES = 1

我想了解Spark的paralellize行为.sparkPi示例包含以下代码:

val slices = 8  // my test value for slices
val n = 100000 * slices
val count = spark.parallelize(1 to n, slices).map { i =>
  val x = random * 2 - 1
  val y = random * 2 - 1
  if (x*x + y*y < 1) 1 else 0
}.reduce(_ + _)
Run Code Online (Sandbox Code Playgroud)

根据文件:

Spark将为群集的每个切片运行一个任务.通常,您希望群集中的每个CPU有2-4个切片.

我将切片设置为8,这意味着工作集将在群集上的8个任务之间划分,反过来每个工作节点获得4个任务(每个核心1:1)

问题:

  1. 我在哪里可以看到任务级详细信息?内部执行程序我没有看到任务分解,所以我可以看到切片对UI的影响.

  2. 如何以编程方式查找上面的map函数的工作集大小?我认为它是n/slices(100000以上)

  3. 执行程序运行的多个任务是在多个线程中顺序运行还是并行运行?

  4. 推理每个CPU 2-4片.

  5. 我认为理想情况下我们应该调整SPARK_WORKER_INSTANCES以对应每个节点(在同构群集中)的核心数,以便每个核心获得自己的执行器和任务(1:1:1)

apache-spark

12
推荐指数
1
解决办法
8585
查看次数

"git add"后对文件的后续更改

git newbie here,如果这是微不足道的话,请耐心等待.我到目前为止看到的一些git基本文档中找不到这个.

我做了一个"git add file1",它将文件放入索引中.紧接着之后,"git diff --cahced"显示正确的差异内容.

然后我对file1做了一些更改.现在,"git diff --cached"显示先前显示的差异内容,并且未显示新的更改.这让我相信当我执行"git add"时,索引正在获取file1内容的快照,换句话说,当我暂存文件时.

它是否正确?并且后续提交只会提交"git diff --cached"向我显示的内容,或者我的所有更改,直到提交发布为止?

git

10
推荐指数
1
解决办法
1778
查看次数

ipython笔记本锚链接直接从外部引用单元格

我正在为基于笔记本的框架编写文档.当提到演示笔记本中的重要单元格时,我可以通过使用某种锚点指向特定单元格吗?

例如,如果我在127.0.0.1/mydemo上有demo-notebook,是否可以通过某些锚标记(如127.0.0.1/mydemo#In10)引用输入单元格[10]

ipython-notebook

9
推荐指数
3
解决办法
5336
查看次数

反转pandas DataFrame中的索引和列

我有一个带有单行的pandas DataFrame:

         10  20  30  70
data1:  2.3   5   6   7
Run Code Online (Sandbox Code Playgroud)

我想重新索引框架,以便列值(10,20,30,70)成为索引值,数据成为列:

    data1:
10     2.3
20     5.0
30     6.0
70     7.0
Run Code Online (Sandbox Code Playgroud)

我该如何实现这一目标?

python pandas

8
推荐指数
1
解决办法
1万
查看次数

matplotlib/pandas:在时间序列图中沿着绘制线放置线标签

我正在绘制比较多个节点的系统特征的时间序列数据.我想明确地沿着它的线标记来自特定节点的线.到目前为止,我已经成功地为特定节点添加了单独的线条样式,这使其在图例框中具有独特的线条和独特的样式标记.

我试图找到一种方法,沿着线放置独特的标签,可能是沿着线弯曲的文本.有什么方法可以实现吗?

python matplotlib pandas

6
推荐指数
1
解决办法
1537
查看次数

执行matplotlib.pyplot.subplots()时出错

我有一个脚本,可以从日志数据创建png图像.它在生产机器上工作正常,但现在在处理此行时在新盒子上发出错误:

    fig, ax = plt.subplots(1,1, figsize=(20,14))


AttributeError: 'module' object has no attribute 'subplots'
Run Code Online (Sandbox Code Playgroud)

我怀疑各种模块的版本差异问题.任何见解?

matplotlib ipython

5
推荐指数
1
解决办法
6577
查看次数

Pandas数据帧在每第n行重新采样

我有一个脚本将系统日志文件读入pandas数据帧并从中生成图表.这些图表适用于小型数据集.但是当我由于数据收集时间较长而面临更大的数据集时,图表变得过于拥挤而无法辨别.

我打算重新采样数据帧,以便如果数据集通过一定的大小,我将重新采样它,因此最终只有SIZE_LIMIT行数.这意味着我需要过滤数据帧,以便每个n = actual_size/SIZE_LIMIT行聚合到新数据帧中的单个行.聚合可以是平均值,也可以是按原样排列的第n行.

我并不完全熟悉大熊猫,所以可能错过了一些明显的手段.

pandas

4
推荐指数
2
解决办法
8406
查看次数

在cygwin下安装python ldap模块

我正在尝试在cygwin下安装基本的ldap python模块.以下是失败的:

%easy_install ldap
Searching for ldap...
..
No local packages or download links found for ldap
Run Code Online (Sandbox Code Playgroud)

我正在使用cherrypy用于在Ubuntu中正常运行的应用程序,并计划将其移植到cygwin,以便我可以在我的Win7 lapop下运行该应用程序.

(我可以安装一个特定于Django的模块django-auth-ldap,并尝试将其导入为ldap,但这似乎没有基本ldap模块具有的初始化方法.)

PS:我忘了提到尝试python-ldap,但'easy_install python-ldap'由于一些编译错误而失败:

.....
.....
Modules/constants.c: In function `LDAPinit_constants':
Modules/constants.c:153:1: error: `LDAP_OPT_DIAGNOSTIC_MESSAGE' undeclared (first use in this function)
Modules/constants.c:153:1: note: each undeclared identifier is reported only once for each function it appears in
Modules/constants.c:363:29: error: `LDAP_CONTROL_RELAX' undeclared (first use in this function)
error: Setup script exited with error: command 'gcc' failed with exit status 1
Run Code Online (Sandbox Code Playgroud)

python cygwin

2
推荐指数
1
解决办法
3062
查看次数