小编Rom_man的帖子

dejavu.py识别的歌曲的附加信息

我正在调查dejavu.py(更多信息),我必须说到目前为止我对此印象深刻.虽然我发现文档在用户界面方面有点不完整.
当您从文件中识别出一首歌曲时oDjv.recognize(FileRecognizer, sFile),会返回一个如下所示的字典:

{'song_id': 2, 'song_name': 'Sean-Fournier--Falling-For-You', 'file_sha1': 'A9D18B9B9DAA467350D1B6B249C36759282B962E', 'confidence': 127475, 'offset_seconds': 0.0, 'match_time': 32.23410487174988, 'offset': 0}

Run Code Online (Sandbox Code Playgroud)

从录音(oDjv.recognize(MicrophoneRecognizer, seconds=iSecs)):

{'song_id': 2, 'song_name': 'Sean-Fournier--Falling-For-You', 'file_sha1': 'A9D18B9B9DAA467350D1B6B249C36759282B962E', 'confidence': 124, 'offset_seconds': 24.89179, 'offset': 536}

Run Code Online (Sandbox Code Playgroud)

那么,对于问题:
1)究竟是什么confidence,并且是否存在置信水平的上限？

2)offset_seconds和之间有什么区别offset？

3)为什么算法需要在30到60秒之间(在我运行的所有测试的情况下)从磁盘识别歌曲,但是在录制音频时它可以在10秒左右的时间内完成？

4)当运行从音频录制的功能时,我从该功能获得实际输出之前的以下代码块(即使成功).我们要去哪儿？

ALSA lib pcm_dmix.c:1022:(snd_pcm_dmix_open) unable to open slave
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.rear
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.center_lfe
ALSA lib pcm.c:2239:(snd_pcm_open_noupdate) Unknown PCM cards.pcm.side
bt_audio_service_open: connect() failed: Connection …

Run Code Online (Sandbox Code Playgroud)

python audio audio-fingerprinting

3
推荐指数

1
解决办法

1334
查看次数

Bigquery条件拆分聚合失败

我有一个类别列,其中包含一个字符串,其中包含由"|"分隔的变量位置的子类别字段.每个子类别的位置取决于字符串中的项目数.例如:

category    subcat1    subcat2    subcat3
a|b|c       b          c          a
x|y|a|b     b          null       a

Run Code Online (Sandbox Code Playgroud)

那么,要解决一个类别,我有:

SELECT
  a.category AS category,
  case
    WHEN COUNT(SPLIT(a.category, "|")) = 4 then nth(4, SPLIT(a.category, "|"))
    WHEN COUNT(SPLIT(a.category, "|")) = 3 then nth(2, SPLIT(a.category, "|"))
    WHEN COUNT(SPLIT(a.category, "|")) = 2 then nth(2, SPLIT(a.category, "|"))
    else null
  end as subcat1,
  --nth(2, SPLIT(a.category, "|")) as x      --uncomment for success.  see below
FROM
  [interim_groups.articles_unique] as a

Run Code Online (Sandbox Code Playgroud)

运行此失败时:

SELECT clause has mix of aggregations 'subcat1' and fields 'category' without GROUP BY clause …

Run Code Online (Sandbox Code Playgroud)

google-bigquery

3
推荐指数

1
解决办法

660
查看次数

google.cloud存储python api在指定位置创建存储区

我想EU在Google云端存储中的位置中创建一个存储桶。我该如何设置？该文档没有提及任何内容。

from google.cloud import storage
client = storage.Client(project=project_id)
client.create_bucket(bucket_name)

Run Code Online (Sandbox Code Playgroud)

US默认情况下，在该位置创建一个存储桶。

python-3.x google-cloud-storage

3
推荐指数

1
解决办法

850
查看次数

VS Code ruby-rubocode 增加 Metrics/MethodLength 检查

Rubocode（在 VS Code 的 ruby-rubocode 扩展中）坚持认为任何方法都不应超过 10 行：

Metrics/MethodLength: Method has too many lines. [11/10] (convention:Metrics/MethodLength)

Run Code Online (Sandbox Code Playgroud)

我觉得这个有点严重，想改成20。

是否可以通过 VS Code 编辑此值settings.json？

更新
B) 是否也可以Metrics/LineLength从 80 增加到 120？

Metrics/LineLength: Line is too long. [108/80] (convention:Metrics/LineLength)

Run Code Online (Sandbox Code Playgroud)

rubocop visual-studio-code

3
推荐指数

1
解决办法

2070
查看次数

用于在 Kubernetes 上运行 Spark 时指定容忍度的 Pod 模板

我在尝试通过 Kubernetes 调度程序启动 Spark 作业时遇到一些问题。

我希望所有驱动程序/执行程序 Pod 都生成到具有一定污点的节点上。因此，我想指定将直接注入到 Pod 配置文件中的容忍度。目前没有直接从spark-submit命令默认的方式

根据this和this，用户应该能够指定一个 pod 模板，该模板可以使用以下参数进行设置：spark.kubernetes.driver.podTemplateFile和spark.kubernetes.executor.podTemplateFile。

spark-submit我尝试使用以下文件在命令中指定这些参数：

pod_template.template

apiVersion: v1
kind: Pod
spec:
  tolerations:
  - effect: NoSchedule
    key: dedicated
    operator: Equal
    value: test

Run Code Online (Sandbox Code Playgroud)

然而，这种容忍永远不会被添加到启动的驱动程序窗格中。目前有办法解决这个问题吗？

作为参考，这里是完整的 Spark-submit 命令：

/opt/spark/bin/spark-submit --name spark-pi --class org.apache.spark.examples.SparkPi --conf spark.kubernetes.executor.volumes.persistentVolumeClaim.persistent.options.claimName=pvc-storage --conf spark.kubernetes.executor.volumes.persistentVolumeClaim.persistent.mount.subPath=test-stage1/spark --conf spark.executor.memory=1G --conf spark.executor.instances=1 --conf spark.kubernetes.driver.volumes.persistentVolumeClaim.persistent.mount.subPath=test-stage1/spark --conf spark.kubernetes.executor.limit.cores=1 --conf spark.kubernetes.authenticate.driver.serviceAccountName=spark --conf spark.kubernetes.namespace=test-stage1 --conf spark.kubernetes.driver.volumes.persistentVolumeClaim.persistent.mount.path=/persistent --conf spark.kubernetes.driver.limit.memory=3G --conf spark.kubernetes.executor.volumes.persistentVolumeClaim.persistent.mount.path=/persistent --conf spark.submit.deployMode=cluster --conf spark.kubernetes.container.image=<SPARK IMAGE> --conf spark.master=k8s://https://kubernetes.default.svc --conf …

Run Code Online (Sandbox Code Playgroud)

apache-spark kubernetes pyspark kubernetes-pod

3
推荐指数

1
解决办法

6614
查看次数

PySpark打印到控制台

在数据采集服务器上运行PySpark作业时

gcloud --project <project_name> dataproc jobs submit pyspark --cluster <cluster_name> <python_script>

Run Code Online (Sandbox Code Playgroud)

我的打印报表没有显示在我的终端中.

在云上运行作业时,有没有办法在PySpark中将数据输出到终端？

编辑:我想在转换中打印/记录信息.例如:

def print_funct(l):
    print(l)
    return l

rddData.map(lambda l: print_funct(l)).collect()

Run Code Online (Sandbox Code Playgroud)

应该打印RDD中的每一行数据rddData.

做一些挖掘,我找到了这个日志记录的答案,然而,测试它为我提供了这个问题的结果,其答案表明在转换过程中无法进行日志记录

python-2.7 pyspark google-cloud-dataproc

2
推荐指数

1
解决办法

9331
查看次数

Pandas 逐行映射器

Pandas 是否包含一种简单的方法来一次将映射器应用于每一行？

例如：

import pandas as pd
df = pd.DataFrame(
    [[j + (3*i) for j in range(3)] for i in range(4)],
    columns=['a','b','c']
)
print(df)


   a   b   c
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11

Run Code Online (Sandbox Code Playgroud)

然后应用一些映射器（伪代码）

df_ret = df.rowmap(lambda d: d['a'] + d['c'])
print(df_ret)

   0
0  2
1  8
2  14
3  20

Run Code Online (Sandbox Code Playgroud)

请注意，添加数字实际上并不是这里的重点。重点是要有一个按行映射器。

python mapper pandas

2
推荐指数

1
解决办法

1478
查看次数

如何使用 ffmpy 从文件中获取元数据

如何使用 python 包ffmpy获取多媒体文件的元数据，例如尺寸、持续时间和比特率？

1
推荐指数

1
解决办法

2192
查看次数

如何使用Kubernetes SSL证书

我正在尝试使用NginX代理LoadBalancer服务器或Ingress在Kubernetes中的另一个服务之前构建HTTPs代理服务器.无论哪种方式,我需要一个证书和密钥,以便我的外部请求得到身份验证.

我正在研究如何在集群中管理tls,并且我注意到用于连接到容器集群的证书与安装在/var/run/secrets/kubernetes.io/serviceaccount/ca.crt正在运行的pod上的证书相同.

所以我认为我的节点集群已经有一个注册证书,我需要的只是密钥,把它扔进一个秘密并挂载到我的代理服务器.但我找不到怎么样.

这很简单吗？我该怎么办？或者我是否需要创建新证书,签名等等？那我需要更换当前的证书吗？

1
推荐指数

1
解决办法

3759
查看次数

Mac bash 拆分不能按行字节拆分

我想按字节拆分文件，同时通过以下方式保持完整行

split -C <bytes> filename

Run Code Online (Sandbox Code Playgroud)

但是，默认拆分不接受 -C

split: illegal option -- C
usage: split [-a sufflen] [-b byte_count] [-l line_count] [-p pattern]
             [file [prefix]]

Run Code Online (Sandbox Code Playgroud)

我已经brew install coreutils，看起来它应该支持我想要的。

如何更改 split 以使用 coreutils？

1
推荐指数

1
解决办法

3099
查看次数

标签统计

apache-spark ×1

audio-fingerprinting ×1

bash ×1

google-bigquery ×1

google-cloud-dataproc ×1

google-cloud-storage ×1

kubernetes-pod ×1

ssl ×1

visual-studio-code ×1

«
1
2
3
4
»