我想知道是否有办法以编程方式在Google幻灯片中创建演示文稿.因此,例如,如果基础数据发生变化,我可以刷新套牌,而不需要为所有图表等提供大量复制粘贴.
类似于使用markdown和R slidify来生成数据驱动的PDF演示文稿.我的最终产品需要是漂亮的Google幻灯片演示文稿.
这是我可以使用Google Drive API的那种东西吗?我不确定App Script是否可用于幻灯片,就像你可以用于Sheets一样.
我希望解决方案存在的问题是一个普遍存在的问题.
一种选择是自动生成PDF,然后手动导入到Google幻灯片中.问题是由于转换错误和缺少其他幻灯片功能,这种方法有点受限.
任何输入都非常赞赏.
我正在计算两个特征向量之间的余弦相似度,并想知道是否有人可能对下面的分类特征问题有一个巧妙的解决方案.
目前我有(例子):
# define the similarity function
cosineSim <- function(x){
as.matrix(x%*%t(x)/(sqrt(rowSums(x^2) %*% t(rowSums(x^2)))))
}
# define some feature vectors
A <- c(1,1,0,0.5)
B <- c(1,1,0,0.5)
C <- c(1,1,0,1.2)
D <- c(1,0,0,0.7)
dataTest <- data.frame(A,B,C,D)
dataTest <- data.frame(t(dataTest))
dataMatrix <- as.matrix(dataTest)
# get similarity matrix
cosineSim(dataMatrix)
Run Code Online (Sandbox Code Playgroud)
哪个工作正常.
但是我想要添加一个分类变量(例如city)来生成一个特征,当两个城市相等时为1,另一个则为0.
在这种情况下,示例特征向量将是:
A <- c(1,1,0,0.5,"Dublin")
B <- c(1,1,0,0.5,"London")
C <- c(1,1,0,1.2,"Dublin")
D <- c(1,0,0,0.7,"New York")
Run Code Online (Sandbox Code Playgroud)
我想知道是否有一种巧妙的方法可以在函数内动态生成最后一个特征的成对等式,从而使它成为一个矢量化实现?
我已经尝试过预处理为每个类别制作二进制标志,以便上面的例子会变成如下:
A <- c(1,1,0,0.5,1,0,0)
B <- c(1,1,0,0.5,0,1,0)
C <- c(1,1,0,1.2,1,0,0)
D <- c(1,0,0,0.7,0,0,1)
Run Code Online (Sandbox Code Playgroud)
这有效,但问题是它意味着我必须预先处理每个变量,在某些情况下,我可以看到类别的数量变得非常大.当我想要的只是产生一个为相等而返回1的特征时,这似乎相当昂贵/效率低,否则为0(在这里授予复杂性,因为它本质上是一个依赖于两个记录并在它们之间共享的特征).
我可以看到的一个解决方案就是编写一个循环来构建每对特征向量(我可以构建一个特征,如[is_same_city] = 1/0,当我们有相等时为每个向量设置为1,否则为0)然后得到距离 - …
r vectorization binary-data cosine-similarity categorical-data
我想知道是否有人知道在BigQuery中测量字符串相似度的方法。
似乎将具有一个整洁的功能。
我的情况是我需要比较两个URL的相似性,以确保它们引用同一篇文章。
我可以找到使用javascript的示例,因此也许可以使用UDF,但是我根本没有使用过UDF(或者使用javascript :))
只是想知道是否可以使用现有的regex函数,或者是否有人可以让我开始将javascript示例移植到UDF中。
任何帮助,不胜感激,谢谢
编辑:添加一些示例代码
因此,如果我将UDF定义为:
// distance function
function levenshteinDistance (row, emit) {
//if (row.inputA.length <= 0 ) {var myresult = row.inputB.length};
if (typeof row.inputA === 'undefined') {var myresult = 1};
if (typeof row.inputB === 'undefined') {var myresult = 1};
//if (row.inputB.length <= 0 ) {var myresult = row.inputA.length};
var myresult = Math.min(
levenshteinDistance(row.inputA.substr(1), row.inputB) + 1,
levenshteinDistance(row.inputB.substr(1), row.inputA) + 1,
levenshteinDistance(row.inputA.substr(1), row.inputB.substr(1)) + (row.inputA[0] !== row.inputB[0] ? 1 : 0)
) + 1; …
Run Code Online (Sandbox Code Playgroud) 我想知道是否有可能在BigQuery的UDF中对谷歌地图地理编码api进行api调用?
我有谷歌分析地理领域,如
{
"geoNetwork_continent": "Europe",
"geoNetwork_subContinent": "Eastern Europe",
"geoNetwork_country": "Russia",
"geoNetwork_region": "Novosibirsk Oblast",
"geoNetwork_metro": "(not set)"
},
Run Code Online (Sandbox Code Playgroud)
并且想打电话给:
只是想知道我是否能够在UDF中使用javascript来为BigQuery中的每一行进行api调用.
将是非常强大的,并避免我必须在R或Python中做到这一点.
对UDF来说非常新手所以只是想问一下我的建议是否可行(想知道UDF中的外部api调用是否可能出于某种原因而出于安全问题,或者只是技术上不可能).
任何建议都非常感谢.
javascript user-defined-functions google-geocoding-api google-bigquery udf
到目前为止,我正在尝试熟悉Airflow并热爱它。
但是,我不清楚的一件事是如何在我想运行相同dag但并行处理多个业务(lob)的dag中正确地设置dag参数。所以基本上我想在每次运行中为多个吊球运行以下dag,并让每个吊球并行运行。
因此,可以说我定义了一个变量,该变量是诸如“ lob1”,“ lob2”等lob的数组。我想在下面的bigquery sql语句中将“ mylob”替换为“ lob1”,然后替换为“ lob2”等。
我在想也许我可以将lob存储为ui中的一个变量,然后在dag中循环遍历,但是我不确定是否最终会是连续的,因为它等待每个任务在每次循环迭代中完成。
我认为另一种方法可能是使用这种参数化的dag作为较大驱动程序dag中的sub dag。但是再次不确定这是否是最佳实践方法。
任何帮助或指针,不胜感激。我觉得我在这里缺少明显的东西,但是在任何地方都找不到这样的例子。
"""
### My first dag to play around with bigquery and gcp stuff.
"""
from airflow import DAG
from airflow.operators.bash_operator import BashOperator
from datetime import datetime, timedelta
from dateutil import tz
from airflow.contrib.hooks.bigquery_hook import BigQueryHook
from airflow.contrib.operators.bigquery_operator import BigQueryOperator
default_args = {
'owner': 'airflow',
'depends_on_past': False,
'start_date': datetime(2017, 3, 10),
'email': ['xxx@xxx.com'],
'email_on_failure': True,
'retries': 1,
'retry_delay': timedelta(minutes=5),
# 'queue': 'bash_queue',
# 'pool': 'backfill',
# 'priority_weight': 10, …
Run Code Online (Sandbox Code Playgroud) 我一直在尝试将cloud-ml github示例仓库中的reddit_tft示例调整为我的需要。
我已经能够按照本教程自述文件的要求运行它。
但是,我要使用它的是一个二进制分类问题,并在批处理预测中输出键。
因此,我在此处复制了教程代码,并在几个地方进行了更改,以便能够deep_classifier
使用a DNNClasifier
代替a的模型类型DNNRegressor
。
我将score变量更改为
if(score>0,1,0) as score
它的训练很好,可以部署到云ml,但是我不确定现在如何从我的预测中获取密钥。`
我已经更新了从BigQuery提取的sql,将其包含id as example_id
在此处
看来本教程中的代码具有某种占位符,example_id
因此我正在尝试利用它。
一切似乎都有效,但是当我得到批量预测时,我得到的是像这样的json:
{"classes": ["0", "1"], "scores": [0.20427155494689941, 0.7957285046577454]}
{"classes": ["0", "1"], "scores": [0.14911963045597076, 0.8508803248405457]}
...
因此example_id
,似乎并没有像我需要的那样将其纳入服务功能。
我只是想不通如何完成这个Reddit示例以在预测中也输出键,因为它们在设计和功能上对我来说有点不同。
但这给出了错误:
NotFoundError (see above for traceback): /tmp/tmp2jllvb/model.ckpt-1_temp_9530d2c5823d4462be53fa5415e429fd; No such file or directory
[[Node: save/SaveV2 = SaveV2[dtypes=[DT_FLOAT, DT_FLOAT, DT_FLOAT, …
Run Code Online (Sandbox Code Playgroud) 我只是想知道是否有任何计划将S2地理库的功能添加到BigQuery中?
似乎肯定有很多人在BQ中拥有lat-long数据 - 一些s2函数可以获得单元格和返回等等,这肯定会非常有用 - 如果没有功能请求,则很乐意提交功能请求.
我可以找到最好的链接作为fyi:
http://blog.christianperone.com/2015/08/googles-s2-geometry-on-the-sphere-cells-and-hilbert-curve/ https://godoc.org/github.com/golang/geo/ s2 https://docs.google.com/presentation/d/1Hl4KapfAENAOf4gv-pSngKwvS_jwNVHRPZTTDzXXn6Q/view
我确实看到了一些javascript库,但不确定它们是否可以在UDF中使用
https://www.npmjs.com/package/s2-geometry https://github.com/mapbox/node-s2
我想知道是否可以在UDF中做到这一点?
我想知道我是否可以在BigQuery中使用正则表达式从字符串中提取所有数字.
我认为以下工作但只返回第一击 - 有没有办法提取所有的命中.
我的用例是,我基本上想从网址中获取最大数字,因为它往往更像是我需要加入的post_id.
这是我所说的一个例子:
SELECT
mystr,
REGEXP_EXTRACT(mystr, r'(\d+)') AS nums
FROM
(SELECT 'this is a string with some 666 numbers 999 in it 333' AS mystr),
(SELECT 'just one number 123 in this one ' AS mystr),
(SELECT '99' AS mystr),
(SELECT 'another -2 example 99' AS mystr),
(SELECT 'another-8766 example 99' AS mystr),
(SELECT 'http://somedomain.com/2015/12/this-is-a-post-with-id-in-url-99999' AS mystr),
(SELECT 'http://somedomain.com/2015/12/this-is-a-post-with-id-in-url-99999/gallery/001' AS mystr),
(SELECT 'http://somedomain.com/2015/12/this-is-a-post-with-id-in-url-99999/print-preview' AS mystr)
Run Code Online (Sandbox Code Playgroud)
我得到的结果是:
[
{
"mystr": "this is a string with some 666 numbers …
Run Code Online (Sandbox Code Playgroud) 认为标题涵盖了它。
只是想知道 web ui 上的“运行选择”下拉菜单是否有键盘快捷键。
如果有就太好了。
我有一个这样的 df:
import pandas as pd
df = pd.DataFrame(
[
['chart.a', 'dim1', -10],
['chart.a', 'dim2', 5],
['chart.a', 'dim3', 9],
['chart.b', 'dimb1', -1],
['chart.b', 'dimb2', 2],
], columns=['chart', 'dim', 'z']
)
Run Code Online (Sandbox Code Playgroud)
无论符号如何,我都想做一个分组以获得最大值。所以像这样:
df.groupby('chart').agg({'z': ['max']})
Run Code Online (Sandbox Code Playgroud)
哪个返回
z
max
chart
chart.a 9
chart.b 2
Run Code Online (Sandbox Code Playgroud)
但我真正想要的是
z
max
chart
chart.a -10
chart.b 2
Run Code Online (Sandbox Code Playgroud)
例如,chart.a
对于最大的 abs 值是 -10 所以返回那个,因为chart.b
它是 2 所以返回那个。
所以我想进行分组而不考虑符号,只是根据 abs 值,但将符号保持在我返回的最大值中。
javascript ×2
regex ×2
udf ×2
airflow ×1
apache ×1
binary-data ×1
geocoding ×1
geolocation ×1
geospatial ×1
pandas ×1
python ×1
r ×1
tensorflow ×1