小编Ril*_*Hun的帖子

你如何“永久”删除 Mlflow 中的一个实验？

任何地方都没有记录永久删除实验。我正在使用带有后端 postgres db 的 Mlflow

这是我运行的：

client = MlflowClient(tracking_uri=server)
client.delete_experiment(1)

Run Code Online (Sandbox Code Playgroud)

这将删除实验，但是当我运行一个与我刚刚删除的实验同名的新实验时，它将返回此错误：

mlflow.exceptions.MlflowException: Cannot set a deleted experiment 'cross-sell' as the active experiment. You can restore the experiment, or permanently delete the  experiment to create a new one.

Run Code Online (Sandbox Code Playgroud)

我在文档中找不到任何显示如何永久删除所有内容的地方。

python mlflow

Ril*_*Hun

lucky-day

13
推荐指数

3
解决办法

5467
查看次数

Selenium Webdriver：如何使用 Python 下载 PDF 文件？

我正在使用 selenium webdriver 自动下载多个 PDF 文件。我得到了 PDF 预览窗口（见下文），现在我想下载该文件。如何使用 Google Chrome 作为浏览器完成此操作？

python pdf selenium automation download

Ril*_*Hun

lucky-day

11
推荐指数

4
解决办法

3万
查看次数

R:带时间滑块的地图？

有没有办法为Leaf中的Leaflet或任何其他交互式地图库实现时间滑块？我按时间序列排列数据,并希望将其整合到"运动"地图中,其中绘图点随时间动态变化.

我正在考虑将我的数据分成几部分,使用子集来捕获每个月的相应数据表.但是,如何在不同月份对应的不同数据集之间移动？

就目前而言,我取平均值并绘制了这些点,但我宁愿制作一个整合时间序列的地图.

到目前为止,这是我的代码:

data<-read.csv("Stericycle Waste Data.csv")
library(reshape2)
library(ggplot2)
library(plyr)
library(ggmap)
names(data)<-c("ID1","ID2", "Site.Address", "Type", "City", "Province", "Category", "Density", "Nov-14", "Dec-14", "Jan-15", "Feb-15", "Mar-15", "Apr-15", "May-15", "Jun-15", "Jul-15", "Aug-15", "Sep-15", "Oct-15", "Nov-15", "Dec-15", "Jan-16")
data<-melt(data, c("ID1","ID2", "Site.Address","Type", "City", "Province", "Category", "Density")) 
data<-na.omit(data)
data_grouped<-ddply(data, c("Site.Address", "Type","City", "Province", "Category", "Density", "variable"), summarise, value=sum(value))
names(data_grouped)<-c("Site.Address", "Type", "City", "Province", "Category", "Density", "Month", 'Waste.Mass')

dummy<-read.csv('locations-coordinates.csv')
geodata<-merge(data_grouped, dummy, by.x="Site.Address", by.y="Site.Address", all.y=TRUE)

library(leaflet)
d = geodata_avg$density_factor
d = factor(d)
cols <- rainbow(length(levels(d)), alpha=NULL)
geodata_avg$colors <- cols[unclass(d)]
newmap <- …

Run Code Online (Sandbox Code Playgroud)

mapping time r motion leaflet

Ril*_*Hun

lucky-day

10
推荐指数

1
解决办法

4313
查看次数

如何使用 OAUTH/JWT 与 HANA 建立 Python 连接

我们目前在连接到 SAP HANA 的 Python 连接器中使用基本身份验证。在我们当前的连接字符串中，我们使用 SQLAlchemy，它看起来像这样：

def get_engine(host_name):
    return create_engine('hana://{user}:{password}@{host_name}:{port}/HUP'.format(
        user=request.json['username'],
        password=base64.b64decode(bytes(request.json['password'], encoding='utf-8')).decode('utf-8'),
        host_name=host_name,
        port=current_app.config['HANA_PORT']
    )
    )

Run Code Online (Sandbox Code Playgroud)

我们现在需要过渡到使用 HANA Oauth，因此不再需要在连接字符串中输入用户名和密码。理想情况下，应该有一种方法可以将 JWT 输入到连接详细信息中。我在网上找不到太多资源来真正说明如何使用 Oauth 的 HANA 创建基于 Python 的连接器。这里的任何帮助将不胜感激。

python sap sqlalchemy oauth-2.0 hana

Ril*_*Hun

2021 06-28

10
推荐指数

1
解决办法

217
查看次数

Python/Pandas:如何将字符串列表与DataFrame列匹配

我想比较两个列 - Description和Employer.我想查看列中Employer是否找到任何关键字Description.我已将Employer列拆分为单词并转换为列表.现在我想看看这些单词是否在相应的Description列中.

样本输入:

print(df.head(25))


          Date           Description   Amount  AutoNumber  \
0    3/17/2015  WW120 TFR?FR xxx8690   140.00       49246   
2    3/13/2015  JX154 TFR?FR xxx8690   150.00       49246   
5     3/6/2015   CANSEL SURVEY E PAY  1182.08       49246   
9     3/2/2015  UE200 TFR?FR xxx8690   180.00       49246   
10   2/27/2015  JH401 TFR?FR xxx8690   400.00       49246   
11   2/27/2015   CANSEL SURVEY E PAY   555.62       49246   
12   2/25/2015  HU204 TFR?FR xxx8690   200.00       49246   
13   2/23/2015  UQ263 TFR?FR xxx8690   102.00       49246   
14 …

Run Code Online (Sandbox Code Playgroud)

python regex string matching pandas

Ril*_*Hun

2017 03-09

7
推荐指数

2
解决办法

4782
查看次数

Dask：如何为 Dask 集群添加安全性 (TLS/SSL)？

我正在尝试弄清楚如何向在 GCP 上的 GKE 上使用 helm 部署的 Dask 集群添加安全层，这将强制用户将证书和密钥文件输入到安全对象中，如本文档中所述 [1] . 不幸的是，我从调度程序 pod 崩溃中收到超时错误。查了一下日志，报错如下：

Traceback (most recent call last):
  File "/opt/conda/bin/dask-scheduler", line 10, in <module>
    sys.exit(go())
  File "/opt/conda/lib/python3.7/site-packages/distributed/cli/dask_scheduler.py", line 226, in go
    main()
  File "/opt/conda/lib/python3.7/site-packages/click/core.py", line 764, in __call__
    return self.main(*args, **kwargs)
  File "/opt/conda/lib/python3.7/site-packages/click/core.py", line 717, in main
    rv = self.invoke(ctx)
  File "/opt/conda/lib/python3.7/site-packages/click/core.py", line 956, in invoke
    return ctx.invoke(self.callback, **ctx.params)
  File "/opt/conda/lib/python3.7/site-packages/click/core.py", line 555, in invoke
    return callback(*args, **kwargs)
  File "/opt/conda/lib/python3.7/site-packages/distributed/cli/dask_scheduler.py", line 206, in main
    **kwargs
  File "/opt/conda/lib/python3.7/site-packages/distributed/scheduler.py", line 1143, …

Run Code Online (Sandbox Code Playgroud)

python ssl cluster-computing dask dask-distributed

Ril*_*Hun

2020 07-31

6
推荐指数

1
解决办法

438
查看次数

Python：连接到 Postgresql DB 时遇到问题

我使用以下代码行已经很长时间了，没有任何问题，但今天它似乎产生了以下错误，我不明白为什么。奇怪的是，我有其他脚本使用相同的代码，而且它们似乎都可以工作......

import pandas as pd
import psycopg2
link_conn_string = "host='<host>'  dbname='<db>'  user='<user>'  password='<pass>'"
conn = psycopg2.connect(link_conn_string)
df = pd.read_sql("SELECT * FROM link._link_bank_report_lms_loan_application", link_conn_string)

Run Code Online (Sandbox Code Playgroud)

错误信息：

    "Could not parse rfc1738 URL from string '%s'" % name)
sqlalchemy.exc.ArgumentError: Could not parse rfc1738 URL from string 'host='<host>'  dbname='<db>'  user='<user>'  password='<pass>''

Run Code Online (Sandbox Code Playgroud)

python sql postgresql sqlalchemy

Ril*_*Hun

lucky-day

5
推荐指数

1
解决办法

6710
查看次数

PySpark：如何在不达到速率限制的情况下调用 API/Web 服务？

我有4列的星火据帧：location_string，locality，region，和country。我使用谷歌地图的地理编码API来解析每一个location_string，然后在空使用结果来填充locality，region和country领域。

我已将调用地理编码库的函数设为 udf，但我面临的问题是，当我超过 Google API 策略的速率限制时，最终会得到“OVERLIMIT”响应状态。

以下是 Spark 数据帧的示例：

+--------------------------------------------------------------------------------------------------------+------------+------+-------+
|location_string                                                                                         |locality    |region|country|
+--------------------------------------------------------------------------------------------------------+------------+------+-------+
|-Tainan City-Tainan, Taiwan                                                                             |Tainan City |null  |TWN    |
|093 Cicero, IL                                                                                          |null        |null  |null   |
|1005 US 98 Bypass Suite 7 Columbia, MS 39429                                                            |null        |null  |null   |
|10210  Baltimore Avenue, College Park, MD, US 20740                                                     |College Park|MD    |null   |
|12 Braintree - Braintree, MA, 02184                                                                     |null        |null  |null   | …

Run Code Online (Sandbox Code Playgroud)

python google-maps google-api apache-spark pyspark

Ril*_*Hun

2020 09-06

5
推荐指数

1
解决办法

604
查看次数

我们在生产中部署了一个使用 FastAPI 的模型预测服务，不幸的是，一些请求由于 10 秒超时而失败。就并发请求而言，我们通常每秒仅加载大约 2/3 个请求，因此我认为这不会对 FastAPI 造成太大压力。我们尝试做的第一件事是将 FastAPI 框架与模型本身隔离，当我们执行一些跟踪时，我们注意到这个部分花费了大量时间（6 秒）starlette.exceptions:ExceptionMiddleware.__call__：。

我们使用的 Gunicorn 配置似乎也没有帮助：

"""gunicorn server configuration."""\nimport os\n\xe2\x80\x8b\nthreads = 2\nworkers = 4\ntimeout = 60\nkeepalive = 1800\ngraceful_timeout = 1800\nbind = f":{os.environ.get(\'PORT\', \'80\')}"\nworker_class = "uvicorn.workers.UvicornWorker"\n

Run Code Online (Sandbox Code Playgroud)\n

非常感谢有关上述部分的含义以及在不太繁重的负载下导致某些请求超时问题的原因的一些指导。

python api rest starlette fastapi

Ril*_*Hun

lucky-day

5
推荐指数

1
解决办法

6384
查看次数

FastAPI 中间件：添加 Prometheus 检测包时出现性能问题 - 增加 REST api 的延迟

我们正在尝试减少使用 FastAPI 部署的 BERT 模型预测服务的延迟。通过端点调用预测/predict。我们研究了跟踪，发现瓶颈之一是prometheus-fastapi-instrumentator. 大约 1% 的请求会这样做，timeout因为它们超过了 10 秒。

我们还发现，某些指标未在每秒 4 个请求上报告。有些请求需要 30-50 秒，甚至需要starlette/fastapi很长时间。因此，在高使用率下，/metrics端点似乎无法获得足够的资源，因此所有/metrics请求都会等待一段时间并最终失败。因此，拥有单独的指标容器可能会有所帮助。或者如果可能的话，在高负载下延迟/暂停指标。任何见解/指导将不胜感激。