我有一个 jupyter 笔记本,它是 markdown 和代码的混合体。最后我想将其呈现为 pdf 报告并隐藏代码。我仍然想看到代码的输出、图表和表格,我只是不想在最终报告中看到代码。我发现下面的帖子包含以下代码,如果将其添加到笔记本中,则会创建一个切换按钮,可用于隐藏或显示输入代码。问题是我的报告顶部有一个切换按钮。有谁知道如何做到这一点?
邮政:
代码:
<script>
function code_toggle() {
if (code_shown){
$('div.input').hide('500');
$('#toggleButton').val('Show Code')
} else {
$('div.input').show('500');
$('#toggleButton').val('Hide Code')
}
code_shown = !code_shown
}
$( document ).ready(function(){
code_shown=false;
$('div.input').hide()
});
</script>
<form action="javascript:code_toggle()"><input type="submit" id="toggleButton" value="Show Code"></form>
Run Code Online (Sandbox Code Playgroud) 我希望有人能给我一些关于在 r 中导入和解析 .eml 文件的建议。我有一个包含大约 1000 个 .eml 文件的文件夹,其中包含文本,其中包括如下所示的条目:
返回路径:< fake.name@stuff.com>
我想做的是将所有这些文件导入到 r 中的 data.frame 或 data.table 中,并将电子邮件地址解析到单独的字段中。
我想我以前见过用文本文件和使用 grep 完成类似的事情。
任何提示将非常感激。
我有一个有很多0的数据帧,如下面的df示例.我想删除三列或更多列中包含0的任何行,如下面的示例Resultdf.
下面的脚本将删除所有0的记录
df = df[(df.T != 0).any()]
Run Code Online (Sandbox Code Playgroud)
有没有办法修改它所以它会丢弃全部为0的记录,或者有三个或更多列为0的记录?或者还有另一种方法吗?
打印df:
ind_key prtCnt fldCnt TmCnt bmCnt
1 0 0 0 0
2 2 0 0 3
3 0 1 0 0
4 0 1 1 0
Run Code Online (Sandbox Code Playgroud)
打印Resultdf:
ind_key prtCnt fldCnt TmCnt bmCnt
2 2 0 0 3
4 0 1 1 0
Run Code Online (Sandbox Code Playgroud) 我是python,pandas和hive的新手,肯定会欣赏一些提示.
我有下面的python代码,我想在hive中变成一个UDF.只是不是将csv作为输入,进行转换然后导出另一个csv,我想将hive表作为输入,然后将结果导出为包含转换数据的新hive表.
Python代码:
import pandas as pd
data = pd.read_csv('Input.csv')
df = data
df = df.set_index(['Field1','Field2'])
Dummies=pd.get_dummies(df['Field3']).reset_index()
df2=Dummies.drop_duplicates()
df3=df2.groupby(['Field1','Field2']).sum()
df3.to_csv('Output.csv')
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用PCA来挑选好的预测变量,以便在模型的xreg参数中使用,arima以尝试预测tVar下面的变量.我只是使用下面的简化数据集,只需几个变量就可以使示例变得简单.
我试图理解公式参数是如何princomp工作的.对于pc下面的对象,是说"使用xVar1和xVar2解释方差na.omit(dfData[,c("tVar","xVar1","xVar2")])"?
我最终想要做的是创建一个新的变量来解释大部分的变化tVar.这是我可以用PCA做的事吗?如果是这样,有人可以解释一下如何或指出我的榜样吗?
码:
pc <- princomp(~xVar1+xVar2,
data = na.omit(dfData[,c("tVar","xVar1","xVar2")]),
cor=TRUE)
Run Code Online (Sandbox Code Playgroud)
数据:
dput(na.omit(dfData[1:100,c("tVar","xVar1","xVar2")]))
structure(list(tVar = c(11, 14, 17, 5, 5, 5.5, 8, 5.5,
6.5, 8.5, 4, 5, 9, 10, 11, 7, 6, 7, 7, 5, 6, 9, 9, 6.5, 9, 3.5,
2, 15, 2.5, 17, 5, 5.5, 7, 6, 3.5, 6, 9.5, 5, 7, 4, 5, 4, 9.5,
3.5, 5, 4, 4, …Run Code Online (Sandbox Code Playgroud) 我有以下数据。我只想从数据框中返回至少包含一个非零值的列。因此,在下面的示例中,它将是列ALF。返回非零行似乎并不棘手,但是选择列和记录给我带来了一些麻烦。
print df
Data:
Type ADR ALE ALF AME
Seg0 0.0 0.0 0.0 0.0
Seg1 0.0 0.0 0.5 0.0
Run Code Online (Sandbox Code Playgroud)
当我尝试以下链接时:
m1 = (df['Type'] == 'Seg0')
m2 = (df[m1] != 0).all()
print (df.loc[m1,m2])
Run Code Online (Sandbox Code Playgroud)
我收到“类型”的关键错误
我在pyspark的数据框中有一个列,例如下面的“ Col1”。我想用“ Col1”中每个字符串的长度创建一个新列“ Col2”。我是pyspark的新手,我一直在Google搜索,但还没有看到任何有关如何执行此操作的示例。非常感谢任何提示。
例:
Col1 Col2
12 2
123 3
Run Code Online (Sandbox Code Playgroud) 我是tensorflow的新手。我有一些我想理解的代码。有没有一种方法可以获取sess.run中“ feed_dict”的所有可能输入的列表?feed_dict的结构是否始终相同或取决于会话?
码:
sess.run([input,input2],feed_dict={is_train:False,y:stuff,user:[_user]})
Run Code Online (Sandbox Code Playgroud)
更新:
下面的代码来自注释,描述了如何获取feed_dict的输入
码:
# populate session graph to look at place holders
# place holders are possible inputs to sess.run()
for op in sess.graph.get_operations():
print(op.name, op.type)
Run Code Online (Sandbox Code Playgroud)
输出:
(u'Placeholder', u'Placeholder')
(u'ToFloat', u'Cast')
(u'sub/y', u'Const')
(u'sub', u'Sub')
(u'div/y', u'Const')
(u'div', u'RealDiv')
(u'Placeholder_1', u'Placeholder')
(u'DVBPR/Reshape/shape', u'Const')
(u'DVBPR/Reshape', u'Reshape')
(u'DVBPR/wc1/Initializer/random_uniform/shape', u'Const')
(u'DVBPR/wc1/Initializer/random_uniform/min', u'Const')
(u'DVBPR/wc1/Initializer/random_uniform/max', u'Const')
(u'DVBPR/wc1/Initializer/random_uniform/RandomUniform', u'RandomUniform')
(u'DVBPR/wc1/Initializer/random_uniform/sub', u'Sub')
(u'DVBPR/wc1/Initializer/random_uniform/mul', u'Mul')
(u'DVBPR/wc1/Initializer/random_uniform', u'Add')
(u'DVBPR/wc1', u'VariableV2')
(u'DVBPR/wc1/Assign', u'Assign')
(u'DVBPR/wc1/read', u'Identity')
(u'DVBPR/zeros', u'Const')
(u'DVBPR/bc1', u'VariableV2')
(u'DVBPR/bc1/Assign', u'Assign')
(u'DVBPR/bc1/read', u'Identity')
(u'DVBPR/Conv2D', u'Conv2D')
(u'DVBPR/BiasAdd', …Run Code Online (Sandbox Code Playgroud) 我尝试将我的 spark 数据帧转换为动态以输出为glueparquet 文件,但出现错误
'DataFrame' 对象没有属性 'fromDF'"
我的代码大量使用火花数据帧。有没有办法从火花数据帧转换为动态帧,这样我就可以写出glueparquet?如果是这样,您能否提供一个示例,并指出我在下面做错了什么?
代码:
# importing libraries
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
glueContext = GlueContext(SparkContext.getOrCreate())
# updated 11/19/19 for error caused in error logging function
spark = glueContext.spark_session
from pyspark.sql import Window
from pyspark.sql.functions import col
from pyspark.sql.functions import first
from pyspark.sql.functions import date_format
from pyspark.sql.functions import lit,StringType
from pyspark.sql.types import *
from pyspark.sql.functions import substring, length, min,when,format_number,dayofmonth,hour,dayofyear,month,year,weekofyear,date_format,unix_timestamp …Run Code Online (Sandbox Code Playgroud) 我有一个数据框,其数据类似于下面的示例数据.我正在尝试使用get_dummies为categories字段中的值创建虚拟变量,但是当我运行下面的代码时,我得到以下错误.我想要的是例如第一个记录,有一个名为"Ramen"的列,其中包含1个,另一个列名为"Japanese",其中包含1个.
样本数据:
user_id business_id stars_x \
1 CxDOIDnH8gp9KXzpBHJYXw XSiqtcVEsP6dLOL7ZA9OxA 4
2 CxDOIDnH8gp9KXzpBHJYXw v95ot_TNwTk1iJ5n56dR0g 3
3 CxDOIDnH8gp9KXzpBHJYXw uloYxyRAMesZzI99mfNInA 2
4 CxDOIDnH8gp9KXzpBHJYXw gtcsOodbmk4E0TulYHnlHA 4
address attributes \
1 522 Yonge Street {u'BusinessParking': {u'garage': False, u'stre...
2 1661 Denison Street {u'BusinessParking': {u'garage': False, u'stre...
3 4101 Rutherford Road {u'BusinessParking': {u'garage': False, u'stre...
4 815 W Bloor Street {u'Alcohol': u'full_bar', u'HasTV': False, u'N...
categories city \
1 [Restaurants, Ramen, Japanese] Toronto
2 [Chinese, Seafood, Restaurants] Markham
3 [Italian, Restaurants] Woodbridge
4 [Food, Coffee & …Run Code Online (Sandbox Code Playgroud) pandas ×4
python ×4
python-2.7 ×3
pyspark ×2
r ×2
apache-spark ×1
aws-glue ×1
forecasting ×1
hadoop ×1
hive ×1
pca ×1
tensorflow ×1
text-parsing ×1
time-series ×1