任何地方都没有记录永久删除实验。我正在使用带有后端 postgres db 的 Mlflow
这是我运行的:
client = MlflowClient(tracking_uri=server)
client.delete_experiment(1)
Run Code Online (Sandbox Code Playgroud)
这将删除实验,但是当我运行一个与我刚刚删除的实验同名的新实验时,它将返回此错误:
mlflow.exceptions.MlflowException: Cannot set a deleted experiment 'cross-sell' as the active experiment. You can restore the experiment, or permanently delete the experiment to create a new one.
Run Code Online (Sandbox Code Playgroud)
我在文档中找不到任何显示如何永久删除所有内容的地方。
有没有办法为Leaf中的Leaflet或任何其他交互式地图库实现时间滑块?我按时间序列排列数据,并希望将其整合到"运动"地图中,其中绘图点随时间动态变化.
我正在考虑将我的数据分成几部分,使用子集来捕获每个月的相应数据表.但是,如何在不同月份对应的不同数据集之间移动?
就目前而言,我取平均值并绘制了这些点,但我宁愿制作一个整合时间序列的地图.
到目前为止,这是我的代码:
data<-read.csv("Stericycle Waste Data.csv")
library(reshape2)
library(ggplot2)
library(plyr)
library(ggmap)
names(data)<-c("ID1","ID2", "Site.Address", "Type", "City", "Province", "Category", "Density", "Nov-14", "Dec-14", "Jan-15", "Feb-15", "Mar-15", "Apr-15", "May-15", "Jun-15", "Jul-15", "Aug-15", "Sep-15", "Oct-15", "Nov-15", "Dec-15", "Jan-16")
data<-melt(data, c("ID1","ID2", "Site.Address","Type", "City", "Province", "Category", "Density"))
data<-na.omit(data)
data_grouped<-ddply(data, c("Site.Address", "Type","City", "Province", "Category", "Density", "variable"), summarise, value=sum(value))
names(data_grouped)<-c("Site.Address", "Type", "City", "Province", "Category", "Density", "Month", 'Waste.Mass')
dummy<-read.csv('locations-coordinates.csv')
geodata<-merge(data_grouped, dummy, by.x="Site.Address", by.y="Site.Address", all.y=TRUE)
library(leaflet)
d = geodata_avg$density_factor
d = factor(d)
cols <- rainbow(length(levels(d)), alpha=NULL)
geodata_avg$colors <- cols[unclass(d)]
newmap <- …Run Code Online (Sandbox Code Playgroud) 我们目前在连接到 SAP HANA 的 Python 连接器中使用基本身份验证。在我们当前的连接字符串中,我们使用 SQLAlchemy,它看起来像这样:
def get_engine(host_name):
return create_engine('hana://{user}:{password}@{host_name}:{port}/HUP'.format(
user=request.json['username'],
password=base64.b64decode(bytes(request.json['password'], encoding='utf-8')).decode('utf-8'),
host_name=host_name,
port=current_app.config['HANA_PORT']
)
)
Run Code Online (Sandbox Code Playgroud)
我们现在需要过渡到使用 HANA Oauth,因此不再需要在连接字符串中输入用户名和密码。理想情况下,应该有一种方法可以将 JWT 输入到连接详细信息中。我在网上找不到太多资源来真正说明如何使用 Oauth 的 HANA 创建基于 Python 的连接器。这里的任何帮助将不胜感激。
我想比较两个列 - Description和Employer.我想查看列中Employer是否找到任何关键字Description.我已将Employer列拆分为单词并转换为列表.现在我想看看这些单词是否在相应的Description列中.
样本输入:
print(df.head(25))
Date Description Amount AutoNumber \
0 3/17/2015 WW120 TFR?FR xxx8690 140.00 49246
2 3/13/2015 JX154 TFR?FR xxx8690 150.00 49246
5 3/6/2015 CANSEL SURVEY E PAY 1182.08 49246
9 3/2/2015 UE200 TFR?FR xxx8690 180.00 49246
10 2/27/2015 JH401 TFR?FR xxx8690 400.00 49246
11 2/27/2015 CANSEL SURVEY E PAY 555.62 49246
12 2/25/2015 HU204 TFR?FR xxx8690 200.00 49246
13 2/23/2015 UQ263 TFR?FR xxx8690 102.00 49246
14 …Run Code Online (Sandbox Code Playgroud) 我正在尝试弄清楚如何向在 GCP 上的 GKE 上使用 helm 部署的 Dask 集群添加安全层,这将强制用户将证书和密钥文件输入到安全对象中,如本文档中所述 [1] . 不幸的是,我从调度程序 pod 崩溃中收到超时错误。查了一下日志,报错如下:
Traceback (most recent call last):
File "/opt/conda/bin/dask-scheduler", line 10, in <module>
sys.exit(go())
File "/opt/conda/lib/python3.7/site-packages/distributed/cli/dask_scheduler.py", line 226, in go
main()
File "/opt/conda/lib/python3.7/site-packages/click/core.py", line 764, in __call__
return self.main(*args, **kwargs)
File "/opt/conda/lib/python3.7/site-packages/click/core.py", line 717, in main
rv = self.invoke(ctx)
File "/opt/conda/lib/python3.7/site-packages/click/core.py", line 956, in invoke
return ctx.invoke(self.callback, **ctx.params)
File "/opt/conda/lib/python3.7/site-packages/click/core.py", line 555, in invoke
return callback(*args, **kwargs)
File "/opt/conda/lib/python3.7/site-packages/distributed/cli/dask_scheduler.py", line 206, in main
**kwargs
File "/opt/conda/lib/python3.7/site-packages/distributed/scheduler.py", line 1143, …Run Code Online (Sandbox Code Playgroud) 我使用以下代码行已经很长时间了,没有任何问题,但今天它似乎产生了以下错误,我不明白为什么。奇怪的是,我有其他脚本使用相同的代码,而且它们似乎都可以工作......
import pandas as pd
import psycopg2
link_conn_string = "host='<host>' dbname='<db>' user='<user>' password='<pass>'"
conn = psycopg2.connect(link_conn_string)
df = pd.read_sql("SELECT * FROM link._link_bank_report_lms_loan_application", link_conn_string)
Run Code Online (Sandbox Code Playgroud)
错误信息:
"Could not parse rfc1738 URL from string '%s'" % name)
sqlalchemy.exc.ArgumentError: Could not parse rfc1738 URL from string 'host='<host>' dbname='<db>' user='<user>' password='<pass>''
Run Code Online (Sandbox Code Playgroud) 我有4列的星火据帧:location_string,locality,region,和country。我使用谷歌地图的地理编码API来解析每一个location_string,然后在空使用结果来填充locality,region和country领域。
我已将调用地理编码库的函数设为 udf,但我面临的问题是,当我超过 Google API 策略的速率限制时,最终会得到“OVERLIMIT”响应状态。
以下是 Spark 数据帧的示例:
+--------------------------------------------------------------------------------------------------------+------------+------+-------+
|location_string |locality |region|country|
+--------------------------------------------------------------------------------------------------------+------------+------+-------+
|-Tainan City-Tainan, Taiwan |Tainan City |null |TWN |
|093 Cicero, IL |null |null |null |
|1005 US 98 Bypass Suite 7 Columbia, MS 39429 |null |null |null |
|10210 Baltimore Avenue, College Park, MD, US 20740 |College Park|MD |null |
|12 Braintree - Braintree, MA, 02184 |null |null |null | …Run Code Online (Sandbox Code Playgroud) 我们在生产中部署了一个使用 FastAPI 的模型预测服务,不幸的是,一些请求由于 10 秒超时而失败。就并发请求而言,我们通常每秒仅加载大约 2/3 个请求,因此我认为这不会对 FastAPI 造成太大压力。我们尝试做的第一件事是将 FastAPI 框架与模型本身隔离,当我们执行一些跟踪时,我们注意到这个部分花费了大量时间(6 秒)starlette.exceptions:ExceptionMiddleware.__call__:。
我们使用的 Gunicorn 配置似乎也没有帮助:
\n"""gunicorn server configuration."""\nimport os\n\xe2\x80\x8b\nthreads = 2\nworkers = 4\ntimeout = 60\nkeepalive = 1800\ngraceful_timeout = 1800\nbind = f":{os.environ.get(\'PORT\', \'80\')}"\nworker_class = "uvicorn.workers.UvicornWorker"\nRun Code Online (Sandbox Code Playgroud)\n非常感谢有关上述部分的含义以及在不太繁重的负载下导致某些请求超时问题的原因的一些指导。
\n\n\n我们正在尝试减少使用 FastAPI 部署的 BERT 模型预测服务的延迟。通过端点调用预测/predict。我们研究了跟踪,发现瓶颈之一是prometheus-fastapi-instrumentator. 大约 1% 的请求会这样做,timeout因为它们超过了 10 秒。
我们还发现,某些指标未在每秒 4 个请求上报告。有些请求需要 30-50 秒,甚至需要starlette/fastapi很长时间。因此,在高使用率下,/metrics端点似乎无法获得足够的资源,因此所有/metrics请求都会等待一段时间并最终失败。因此,拥有单独的指标容器可能会有所帮助。或者如果可能的话,在高负载下延迟/暂停指标。任何见解/指导将不胜感激。
代码示例:
这是我用来构建 FastAPI 预测服务的模板。唯一的区别是我使用的是基于 BERT 的模型,而不是模板中使用的简单模型。
python ×8
fastapi ×2
sqlalchemy ×2
apache-spark ×1
api ×1
automation ×1
dask ×1
datadog ×1
download ×1
google-api ×1
google-maps ×1
hana ×1
leaflet ×1
mapping ×1
matching ×1
metrics ×1
middleware ×1
mlflow ×1
motion ×1
oauth-2.0 ×1
pandas ×1
pdf ×1
postgresql ×1
prometheus ×1
pyspark ×1
r ×1
regex ×1
rest ×1
sap ×1
selenium ×1
sql ×1
ssl ×1
starlette ×1
string ×1
time ×1