小编use*_*463的帖子

在 Jupyter Notebook 演示文稿中隐藏代码

我有一个 jupyter 笔记本,它是 markdown 和代码的混合体。最后我想将其呈现为 pdf 报告并隐藏代码。我仍然想看到代码的输出、图表和表格,我只是不想在最终报告中看到代码。我发现下面的帖子包含以下代码,如果将其添加到笔记本中,则会创建一个切换按钮,可用于隐藏或显示输入代码。问题是我的报告顶部有一个切换按钮。有谁知道如何做到这一点?

邮政:

http://chris-said.io/2016/02/13/how-to-make-polish-jupyter-presentations-with-optional-code-visibility/

代码:

<script>
  function code_toggle() {
    if (code_shown){
      $('div.input').hide('500');
      $('#toggleButton').val('Show Code')
    } else {
      $('div.input').show('500');
      $('#toggleButton').val('Hide Code')
    }
    code_shown = !code_shown
  }

  $( document ).ready(function(){
    code_shown=false;
    $('div.input').hide()
  });
</script>
<form action="javascript:code_toggle()"><input type="submit" id="toggleButton" value="Show Code"></form>
Run Code Online (Sandbox Code Playgroud)

python jupyter-notebook

5
推荐指数
1
解决办法
3万
查看次数

导入和解析 .eml 文件

我希望有人能给我一些关于在 r 中导入和解析 .eml 文件的建议。我有一个包含大约 1000 个 .eml 文件的文件夹,其中包含文本,其中包括如下所示的条目:

返回路径:< fake.name@stuff.com>

我想做的是将所有这些文件导入到 r 中的 data.frame 或 data.table 中,并将电子邮件地址解析到单独的字段中。
我想我以前见过用文本文件和使用 grep 完成类似的事情。

任何提示将非常感激。

r text-parsing

4
推荐指数
1
解决办法
2811
查看次数

删除3个或更多列为0的记录

我有一个有很多0的数据帧,如下面的df示例.我想删除三列或更多列中包含0的任何行,如下面的示例Resultdf.

下面的脚本将删除所有0的记录

df = df[(df.T != 0).any()]
Run Code Online (Sandbox Code Playgroud)

有没有办法修改它所以它会丢弃全部为0的记录,或者有三个或更多列为0的记录?或者还有另一种方法吗?

打印df:

ind_key prtCnt fldCnt TmCnt bmCnt
1       0      0      0     0
2       2      0      0     3
3       0      1      0     0
4       0      1      1     0
Run Code Online (Sandbox Code Playgroud)

打印Resultdf:

ind_key prtCnt fldCnt TmCnt bmCnt
2       2      0      0     3
4       0      1      1     0
Run Code Online (Sandbox Code Playgroud)

python pandas

4
推荐指数
1
解决办法
53
查看次数

使用Python的Hive UDF

我是python,pandas和hive的新手,肯定会欣赏一些提示.

我有下面的python代码,我想在hive中变成一个UDF.只是不是将csv作为输入,进行转换然后导出另一个csv,我想将hive表作为输入,然后将结果导出为包含转换数据的新hive表.

Python代码:

import pandas as pd
data = pd.read_csv('Input.csv')
df = data
df = df.set_index(['Field1','Field2'])
Dummies=pd.get_dummies(df['Field3']).reset_index()
df2=Dummies.drop_duplicates()
df3=df2.groupby(['Field1','Field2']).sum()
df3.to_csv('Output.csv')
Run Code Online (Sandbox Code Playgroud)

python hadoop hive pandas

3
推荐指数
1
解决办法
1万
查看次数

PCA:princomp()如何工作,我可以用它来为ARIMA获取变量吗?

我正在尝试使用PCA来挑选好的预测变量,以便在模型的xreg参数中使用,arima以尝试预测tVar下面的变量.我只是使用下面的简化数据集,只需几个变量就可以使示例变得简单.

我试图理解公式参数是如何princomp工作的.对于pc下面的对象,是说"使用xVar1xVar2解释方差na.omit(dfData[,c("tVar","xVar1","xVar2")])"?

我最终想要做的是创建一个新的变量来解释大部分的变化tVar.这是我可以用PCA做的事吗?如果是这样,有人可以解释一下如何或指出我的榜样吗?

码:

pc <- princomp(~xVar1+xVar2,
               data = na.omit(dfData[,c("tVar","xVar1","xVar2")]), 
               cor=TRUE)
Run Code Online (Sandbox Code Playgroud)

数据:

dput(na.omit(dfData[1:100,c("tVar","xVar1","xVar2")]))
structure(list(tVar = c(11, 14, 17, 5, 5, 5.5, 8, 5.5, 
          6.5, 8.5, 4, 5, 9, 10, 11, 7, 6, 7, 7, 5, 6, 9, 9, 6.5, 9, 3.5, 
          2, 15, 2.5, 17, 5, 5.5, 7, 6, 3.5, 6, 9.5, 5, 7, 4, 5, 4, 9.5, 
          3.5, 5, 4, 4, …
Run Code Online (Sandbox Code Playgroud)

r machine-learning time-series forecasting pca

3
推荐指数
1
解决办法
599
查看次数

从数据框中选择具有非零值的列

我有以下数据。我只想从数据框中返回至少包含一个非零值的列。因此,在下面的示例中,它将是列ALF。返回非零行似乎并不棘手,但是选择列和记录给我带来了一些麻烦。

print df

Data:

Type             ADR             ALE     ALF               AME  
Seg0              0.0            0.0     0.0              0.0   
Seg1              0.0            0.0     0.5              0.0 
Run Code Online (Sandbox Code Playgroud)

当我尝试以下链接时:

熊猫:如何在稀疏表中选择具有非零值的列

m1 = (df['Type'] == 'Seg0')
m2 = (df[m1] != 0).all()

print (df.loc[m1,m2])
Run Code Online (Sandbox Code Playgroud)

我收到“类型”的关键错误

python-2.7 pandas

3
推荐指数
1
解决办法
2289
查看次数

在另一列pyspark中创建具有字符串长度的列

我在pyspark的数据框中有一个列,例如下面的“ Col1”。我想用“ Col1”中每个字符串的长度创建一个新列“ Col2”。我是pyspark的新手,我一直在Google搜索,但还没有看到任何有关如何执行此操作的示例。非常感谢任何提示。

例:

Col1 Col2
12   2
123  3
Run Code Online (Sandbox Code Playgroud)

python-2.7 pyspark

3
推荐指数
1
解决办法
8515
查看次数

sess.run中不确定的feed_dict

我是tensorflow的新手。我有一些我想理解的代码。有没有一种方法可以获取sess.run中“ feed_dict”的所有可能输入的列表?feed_dict的结构是否始终相同或取决于会话?

码:

sess.run([input,input2],feed_dict={is_train:False,y:stuff,user:[_user]})
Run Code Online (Sandbox Code Playgroud)

更新:

下面的代码来自注释,描述了如何获取feed_dict的输入

码:

# populate session graph to look at place holders
# place holders are possible inputs to sess.run()

for op in sess.graph.get_operations():
     print(op.name, op.type)
Run Code Online (Sandbox Code Playgroud)

输出:

(u'Placeholder', u'Placeholder')
(u'ToFloat', u'Cast')
(u'sub/y', u'Const')
(u'sub', u'Sub')
(u'div/y', u'Const')
(u'div', u'RealDiv')
(u'Placeholder_1', u'Placeholder')
(u'DVBPR/Reshape/shape', u'Const')
(u'DVBPR/Reshape', u'Reshape')
(u'DVBPR/wc1/Initializer/random_uniform/shape', u'Const')
(u'DVBPR/wc1/Initializer/random_uniform/min', u'Const')
(u'DVBPR/wc1/Initializer/random_uniform/max', u'Const')
(u'DVBPR/wc1/Initializer/random_uniform/RandomUniform', u'RandomUniform')
(u'DVBPR/wc1/Initializer/random_uniform/sub', u'Sub')
(u'DVBPR/wc1/Initializer/random_uniform/mul', u'Mul')
(u'DVBPR/wc1/Initializer/random_uniform', u'Add')
(u'DVBPR/wc1', u'VariableV2')
(u'DVBPR/wc1/Assign', u'Assign')
(u'DVBPR/wc1/read', u'Identity')
(u'DVBPR/zeros', u'Const')
(u'DVBPR/bc1', u'VariableV2')
(u'DVBPR/bc1/Assign', u'Assign')
(u'DVBPR/bc1/read', u'Identity')
(u'DVBPR/Conv2D', u'Conv2D')
(u'DVBPR/BiasAdd', …
Run Code Online (Sandbox Code Playgroud)

python-2.7 tensorflow

3
推荐指数
1
解决办法
2100
查看次数

将 spark 数据帧转换为 aws 胶水动态帧

我尝试将我的 spark 数据帧转换为动态以输出为glueparquet 文件,但出现错误

'DataFrame' 对象没有属性 'fromDF'"

我的代码大量使用火花数据帧。有没有办法从火花数据帧转换为动态帧,这样我就可以写出glueparquet?如果是这样,您能否提供一个示例,并指出我在下面做错了什么?

代码:

# importing libraries

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

glueContext = GlueContext(SparkContext.getOrCreate())

# updated 11/19/19 for error caused in error logging function

spark = glueContext.spark_session

from pyspark.sql import Window
from pyspark.sql.functions import col
from pyspark.sql.functions import first
from pyspark.sql.functions  import date_format
from pyspark.sql.functions import lit,StringType
from pyspark.sql.types import *
from pyspark.sql.functions import substring, length, min,when,format_number,dayofmonth,hour,dayofyear,month,year,weekofyear,date_format,unix_timestamp …
Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark aws-glue

3
推荐指数
2
解决办法
1万
查看次数

get_dumies中不可用的类型'list'错误

我有一个数据框,其数据类似于下面的示例数据.我正在尝试使用get_dummies为categories字段中的值创建虚拟变量,但是当我运行下面的代码时,我得到以下错误.我想要的是例如第一个记录,有一个名为"Ramen"的列,其中包含1个,另一个列名为"Japanese",其中包含1个.

样本数据:

                 user_id             business_id  stars_x  \
1  CxDOIDnH8gp9KXzpBHJYXw  XSiqtcVEsP6dLOL7ZA9OxA        4   
2  CxDOIDnH8gp9KXzpBHJYXw  v95ot_TNwTk1iJ5n56dR0g        3   
3  CxDOIDnH8gp9KXzpBHJYXw  uloYxyRAMesZzI99mfNInA        2   
4  CxDOIDnH8gp9KXzpBHJYXw  gtcsOodbmk4E0TulYHnlHA        4   

                address                                         attributes  \
1      522 Yonge Street  {u'BusinessParking': {u'garage': False, u'stre...   
2   1661 Denison Street  {u'BusinessParking': {u'garage': False, u'stre...   
3  4101 Rutherford Road  {u'BusinessParking': {u'garage': False, u'stre...   
4    815 W Bloor Street  {u'Alcohol': u'full_bar', u'HasTV': False, u'N...   

                                          categories        city  \
1                     [Restaurants, Ramen, Japanese]     Toronto   
2                    [Chinese, Seafood, Restaurants]     Markham   
3                             [Italian, Restaurants]  Woodbridge   
4  [Food, Coffee & …
Run Code Online (Sandbox Code Playgroud)

python pandas

2
推荐指数
1
解决办法
713
查看次数