小编use_463的帖子

在 Jupyter Notebook 演示文稿中隐藏代码

我有一个 jupyter 笔记本，它是 markdown 和代码的混合体。最后我想将其呈现为 pdf 报告并隐藏代码。我仍然想看到代码的输出、图表和表格，我只是不想在最终报告中看到代码。我发现下面的帖子包含以下代码，如果将其添加到笔记本中，则会创建一个切换按钮，可用于隐藏或显示输入代码。问题是我的报告顶部有一个切换按钮。有谁知道如何做到这一点？

邮政：

http://chris-said.io/2016/02/13/how-to-make-polish-jupyter-presentations-with-optional-code-visibility/

代码：

<script>
  function code_toggle() {
    if (code_shown){
      $('div.input').hide('500');
      $('#toggleButton').val('Show Code')
    } else {
      $('div.input').show('500');
      $('#toggleButton').val('Hide Code')
    }
    code_shown = !code_shown
  }

  $( document ).ready(function(){
    code_shown=false;
    $('div.input').hide()
  });
</script>
<form action="javascript:code_toggle()"><input type="submit" id="toggleButton" value="Show Code"></form>

Run Code Online (Sandbox Code Playgroud)

python jupyter-notebook

5
推荐指数

1
解决办法

3万
查看次数

导入和解析 .eml 文件

我希望有人能给我一些关于在 r 中导入和解析 .eml 文件的建议。我有一个包含大约 1000 个 .eml 文件的文件夹，其中包含文本，其中包括如下所示的条目：

返回路径：< fake.name@stuff.com>

我想做的是将所有这些文件导入到 r 中的 data.frame 或 data.table 中，并将电子邮件地址解析到单独的字段中。
我想我以前见过用文本文件和使用 grep 完成类似的事情。

任何提示将非常感激。

4
推荐指数

1
解决办法

2811
查看次数

删除3个或更多列为0的记录

我有一个有很多0的数据帧,如下面的df示例.我想删除三列或更多列中包含0的任何行,如下面的示例Resultdf.

下面的脚本将删除所有0的记录

df = df[(df.T != 0).any()]

Run Code Online (Sandbox Code Playgroud)

有没有办法修改它所以它会丢弃全部为0的记录,或者有三个或更多列为0的记录？或者还有另一种方法吗？

打印df:

ind_key prtCnt fldCnt TmCnt bmCnt
1       0      0      0     0
2       2      0      0     3
3       0      1      0     0
4       0      1      1     0

Run Code Online (Sandbox Code Playgroud)

打印Resultdf:

ind_key prtCnt fldCnt TmCnt bmCnt
2       2      0      0     3
4       0      1      1     0

Run Code Online (Sandbox Code Playgroud)

4
推荐指数

1
解决办法

53
查看次数

使用Python的Hive UDF

我是python,pandas和hive的新手,肯定会欣赏一些提示.

我有下面的python代码,我想在hive中变成一个UDF.只是不是将csv作为输入,进行转换然后导出另一个csv,我想将hive表作为输入,然后将结果导出为包含转换数据的新hive表.

Python代码:

import pandas as pd
data = pd.read_csv('Input.csv')
df = data
df = df.set_index(['Field1','Field2'])
Dummies=pd.get_dummies(df['Field3']).reset_index()
df2=Dummies.drop_duplicates()
df3=df2.groupby(['Field1','Field2']).sum()
df3.to_csv('Output.csv')

Run Code Online (Sandbox Code Playgroud)

python hadoop hive pandas

3
推荐指数

1
解决办法

1万
查看次数

PCA:princomp()如何工作,我可以用它来为ARIMA获取变量吗？

我正在尝试使用PCA来挑选好的预测变量,以便在模型的xreg参数中使用,arima以尝试预测tVar下面的变量.我只是使用下面的简化数据集,只需几个变量就可以使示例变得简单.

我试图理解公式参数是如何princomp工作的.对于pc下面的对象,是说"使用xVar1和xVar2解释方差na.omit(dfData[,c("tVar","xVar1","xVar2")])"？

我最终想要做的是创建一个新的变量来解释大部分的变化tVar.这是我可以用PCA做的事吗？如果是这样,有人可以解释一下如何或指出我的榜样吗？

码:

pc <- princomp(~xVar1+xVar2,
               data = na.omit(dfData[,c("tVar","xVar1","xVar2")]), 
               cor=TRUE)

Run Code Online (Sandbox Code Playgroud)

数据:

dput(na.omit(dfData[1:100,c("tVar","xVar1","xVar2")]))
structure(list(tVar = c(11, 14, 17, 5, 5, 5.5, 8, 5.5, 
          6.5, 8.5, 4, 5, 9, 10, 11, 7, 6, 7, 7, 5, 6, 9, 9, 6.5, 9, 3.5, 
          2, 15, 2.5, 17, 5, 5.5, 7, 6, 3.5, 6, 9.5, 5, 7, 4, 5, 4, 9.5, 
          3.5, 5, 4, 4, …

Run Code Online (Sandbox Code Playgroud)

r machine-learning time-series forecasting pca

3
推荐指数

1
解决办法

599
查看次数

从数据框中选择具有非零值的列

我有以下数据。我只想从数据框中返回至少包含一个非零值的列。因此，在下面的示例中，它将是列ALF。返回非零行似乎并不棘手，但是选择列和记录给我带来了一些麻烦。

print df

Data:

Type             ADR             ALE     ALF               AME  
Seg0              0.0            0.0     0.0              0.0   
Seg1              0.0            0.0     0.5              0.0

Run Code Online (Sandbox Code Playgroud)

当我尝试以下链接时：

熊猫：如何在稀疏表中选择具有非零值的列

m1 = (df['Type'] == 'Seg0')
m2 = (df[m1] != 0).all()

print (df.loc[m1,m2])

Run Code Online (Sandbox Code Playgroud)

我收到“类型”的关键错误

python-2.7 pandas

3
推荐指数

1
解决办法

2289
查看次数

在另一列pyspark中创建具有字符串长度的列

我在pyspark的数据框中有一个列，例如下面的“ Col1”。我想用“ Col1”中每个字符串的长度创建一个新列“ Col2”。我是pyspark的新手，我一直在Google搜索，但还没有看到任何有关如何执行此操作的示例。非常感谢任何提示。

例：

Col1 Col2
12   2
123  3

Run Code Online (Sandbox Code Playgroud)

python-2.7 pyspark

3
推荐指数

1
解决办法

8515
查看次数

sess.run中不确定的feed_dict

我是tensorflow的新手。我有一些我想理解的代码。有没有一种方法可以获取sess.run中“ feed_dict”的所有可能输入的列表？feed_dict的结构是否始终相同或取决于会话？

码：

sess.run([input,input2],feed_dict={is_train:False,y:stuff,user:[_user]})

Run Code Online (Sandbox Code Playgroud)

更新：

下面的代码来自注释，描述了如何获取feed_dict的输入

码：

# populate session graph to look at place holders
# place holders are possible inputs to sess.run()

for op in sess.graph.get_operations():
     print(op.name, op.type)

Run Code Online (Sandbox Code Playgroud)

输出：

(u'Placeholder', u'Placeholder')
(u'ToFloat', u'Cast')
(u'sub/y', u'Const')
(u'sub', u'Sub')
(u'div/y', u'Const')
(u'div', u'RealDiv')
(u'Placeholder_1', u'Placeholder')
(u'DVBPR/Reshape/shape', u'Const')
(u'DVBPR/Reshape', u'Reshape')
(u'DVBPR/wc1/Initializer/random_uniform/shape', u'Const')
(u'DVBPR/wc1/Initializer/random_uniform/min', u'Const')
(u'DVBPR/wc1/Initializer/random_uniform/max', u'Const')
(u'DVBPR/wc1/Initializer/random_uniform/RandomUniform', u'RandomUniform')
(u'DVBPR/wc1/Initializer/random_uniform/sub', u'Sub')
(u'DVBPR/wc1/Initializer/random_uniform/mul', u'Mul')
(u'DVBPR/wc1/Initializer/random_uniform', u'Add')
(u'DVBPR/wc1', u'VariableV2')
(u'DVBPR/wc1/Assign', u'Assign')
(u'DVBPR/wc1/read', u'Identity')
(u'DVBPR/zeros', u'Const')
(u'DVBPR/bc1', u'VariableV2')
(u'DVBPR/bc1/Assign', u'Assign')
(u'DVBPR/bc1/read', u'Identity')
(u'DVBPR/Conv2D', u'Conv2D')
(u'DVBPR/BiasAdd', …

Run Code Online (Sandbox Code Playgroud)

python-2.7 tensorflow

3
推荐指数

1
解决办法

2100
查看次数

将 spark 数据帧转换为 aws 胶水动态帧

我尝试将我的 spark 数据帧转换为动态以输出为glueparquet 文件，但出现错误

'DataFrame' 对象没有属性 'fromDF'"

我的代码大量使用火花数据帧。有没有办法从火花数据帧转换为动态帧，这样我就可以写出glueparquet？如果是这样，您能否提供一个示例，并指出我在下面做错了什么？

代码：

# importing libraries

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

glueContext = GlueContext(SparkContext.getOrCreate())

# updated 11/19/19 for error caused in error logging function

spark = glueContext.spark_session

from pyspark.sql import Window
from pyspark.sql.functions import col
from pyspark.sql.functions import first
from pyspark.sql.functions  import date_format
from pyspark.sql.functions import lit,StringType
from pyspark.sql.types import *
from pyspark.sql.functions import substring, length, min,when,format_number,dayofmonth,hour,dayofyear,month,year,weekofyear,date_format,unix_timestamp …

Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark aws-glue

3
推荐指数

2
解决办法

1万
查看次数

get_dumies中不可用的类型'list'错误

我有一个数据框,其数据类似于下面的示例数据.我正在尝试使用get_dummies为categories字段中的值创建虚拟变量,但是当我运行下面的代码时,我得到以下错误.我想要的是例如第一个记录,有一个名为"Ramen"的列,其中包含1个,另一个列名为"Japanese",其中包含1个.

样本数据:

                 user_id             business_id  stars_x  \
1  CxDOIDnH8gp9KXzpBHJYXw  XSiqtcVEsP6dLOL7ZA9OxA        4   
2  CxDOIDnH8gp9KXzpBHJYXw  v95ot_TNwTk1iJ5n56dR0g        3   
3  CxDOIDnH8gp9KXzpBHJYXw  uloYxyRAMesZzI99mfNInA        2   
4  CxDOIDnH8gp9KXzpBHJYXw  gtcsOodbmk4E0TulYHnlHA        4   

                address                                         attributes  \
1      522 Yonge Street  {u'BusinessParking': {u'garage': False, u'stre...   
2   1661 Denison Street  {u'BusinessParking': {u'garage': False, u'stre...   
3  4101 Rutherford Road  {u'BusinessParking': {u'garage': False, u'stre...   
4    815 W Bloor Street  {u'Alcohol': u'full_bar', u'HasTV': False, u'N...   

                                          categories        city  \
1                     [Restaurants, Ramen, Japanese]     Toronto   
2                    [Chinese, Seafood, Restaurants]     Markham   
3                             [Italian, Restaurants]  Woodbridge   
4  [Food, Coffee & …

Run Code Online (Sandbox Code Playgroud)

2
推荐指数

1
解决办法

713
查看次数

标签统计

r ×2

apache-spark ×1

forecasting ×1

hive ×1

jupyter-notebook ×1

machine-learning ×1

pca ×1

text-parsing ×1

time-series ×1

«
1
2
3
»