小编use*_*_12的帖子

如何在两个方向（向前，向后）获取每个元素的值的滑动窗口？

我有一个这样的值列表，

lst = [1, 2, 3, 4, 5, 6, 7, 8]

Run Code Online (Sandbox Code Playgroud)

期望输出：

window size = 3
    1  # first element in the list
    forward = [2, 3, 4]
    backward = []

    2  # second element in the list
    forward = [3, 4, 5]
    backward = [1]

    3  # third element in the list
    forward = [4, 5, 6]
    backward = [1, 2]

    4  # fourth element in the list
    forward = [5, 6, 7]
    backward = [1, 2, 3] …

Run Code Online (Sandbox Code Playgroud)

python python-3.x

use*_*_12

2020 06-11

29
推荐指数

3
解决办法

1117
查看次数

search_after 在弹性搜索中如何工作？

我一直在尝试在我们的应用程序中使用 Elasticsearch，但分页限制为 10k 对我们来说实际上是一个问题，并且由于必须超时问题，滚动 API 也不是推荐的选择。

我发现 Elasticsearch 有一个叫做 search_after 的东西，它是支持深度分页的理想解决方案。我一直试图从文档中理解它，但它有点令人困惑，并且无法清楚地理解它是如何工作的。

假设我的文档中有三列，id, first_name, last_name其中 ID 是唯一的主键。

{\n    "size": 10,\n    "query": {\n        "match" : {\n            "title" : "elasticsearch"\n        }\n    },\n    "sort": [\n        {"id": "asc"}      \n    ]\n}\n

Run Code Online (Sandbox Code Playgroud)\n

我可以使用上面的查询来使用 search_after 功能吗？我在他们的文档中读到，我们必须在排序中使用多个唯一值，而不仅仅是一个 ( ID)，但正如你所知，在我的数据集中，我只有 ID 是唯一的。我可以做什么来将 search_after 用于我的数据集示例？

我无法理解所述问题，如果我使用一个独特的决胜局进行排序？有人可以帮忙用外行人的话解释一下吗？

https://www.elastic.co/guide/en/elasticsearch/reference/6.8/search-request-search-after.html

\n
每个文档具有唯一值的字段应用作排序规范的\ntiebreaker。否则，具有相同排序值的文档的排序顺序将是未定义的，并可能导致结果丢失或重复。每个文档的 _id 字段都有唯一的值，但不建议直接将其用作决胜局。请注意，search_after 会查找第一个完全或部分匹配 tiebreaker\xe2\x80\x99s 提供的值的文档。因此，如果某个文档的决胜局值为“654323”，而您在“654”之后搜索，它仍会匹配该文档并返回在该文档之后找到的结果。文档值在此字段上被禁用，因此对其进行排序\n需要在内存中加载大量数据。相反，建议\n在另一个启用了文档值的字段中复制（客户端或使用设置的摄取处理器）\n_id 字段的内容，并使用\n这个新字段作为排序的决胜局。
\n

elasticsearch elastic-stack

use*_*_12

lucky-day

24
推荐指数

1
解决办法

3万
查看次数

Python3.7：加载共享库时出错：libpython3.7m.so.1.0

我有两个版本 Python-2.7 和 Python-3.5 ，我可以分别使用python(pip)和python3(pip3)命令访问它们。然后我安装了另一个版本的python (i.e 3.7.5).

我已经使用这些命令来安装它。

sudo apt-get install -y make build-essential libssl-dev zlib1g-dev libbz2-dev \
libreadline-dev libsqlite3-dev wget curl llvm libncurses5-dev libncursesw5-dev \
xz-utils tk-dev libffi-dev liblzma-dev

wget https://www.python.org/ftp/python/3.7.5/Python-3.7.5.tgz
tar xvf Python-3.7.5.tgz
cd Python-3.7.5
./configure --enable-optimizations --enable-shared
make -j6
sudo make altinstall

Run Code Online (Sandbox Code Playgroud)

一切都成功了，但唯一的问题是我无法使用命令访问 Python-3.7 python3.7。

当我使用 python3.7 时，它返回以下错误：

python3.7：加载共享库时出错：libpython3.7m.so.1.0：无法打开共享对象文件：没有这样的文件或目录

任何人都可以帮助我解决这个问题吗？

信息: OS: Debian GNU/Linux 9.11 (stretch)

输入时输出：

user_83@debian-241:~$ whereis python     
python: /usr/bin/python3.5m-config 
/usr/bin/python3.5m 
/usr/bin/python2.7-config 
/usr/bin/python3.5 
/usr/bin/python2.7 
/usr/bin/python 
/usr/bin/python3.5-config 
/usr/lib/python3.5 …

Run Code Online (Sandbox Code Playgroud)

python unix pip python-3.x

use*_*_12

2019 11-01

21
推荐指数

2
解决办法

4万
查看次数

使用 xgboost 分类器进行多类分类？

我正在尝试使用 xgboost 进行多类分类，并且我已经使用此代码构建了它，

clf = xgb.XGBClassifier(max_depth=7, n_estimators=1000)

clf.fit(byte_train, y_train)
train1 = clf.predict_proba(train_data)
test1 = clf.predict_proba(test_data)

Run Code Online (Sandbox Code Playgroud)

这给了我一些不错的结果。对于我的案例，我的对数损失低于 0.7。但是在浏览了几页之后，我发现我们必须在 XGBClassifier 中使用另一个目标来解决多类问题。以下是这些页面的推荐内容。

clf = xgb.XGBClassifier(max_depth=5, objective='multi:softprob', n_estimators=1000, 
                        num_classes=9)

clf.fit(byte_train, y_train)  
train1 = clf.predict_proba(train_data)
test1 = clf.predict_proba(test_data)

Run Code Online (Sandbox Code Playgroud)

这段代码也可以工作，但与我的第一个代码相比，它需要很多时间才能完成。

为什么我的第一个代码也适用于多类案例？我已经检查过它的默认目标是 binary:logistic 用于二进制分类，但它对多类工作真的很好吗？如果两者都正确，我应该使用哪一个？

python machine-learning scikit-learn xgboost

use*_*_12

2019 09-18

13
推荐指数

2
解决办法

3万
查看次数

如何在 FastAPI 应用程序中发送操作进度？

我已经部署了一个 fastapi 端点，

from fastapi import FastAPI, UploadFile
from typing import List

app = FastAPI()

@app.post('/work/test')
async def testing(files: List(UploadFile)):
    for i in files:
        .......
        # do a lot of operations on each file

        # after than I am just writing that processed data into mysql database
        # cur.execute(...)
        # cur.commit()
        .......
    
    # just returning "OK" to confirm data is written into mysql
    return {"response" : "OK"}

Run Code Online (Sandbox Code Playgroud)

我可以从 API 端点请求输出，它对我来说工作得很好。

现在，对我来说最大的挑战是知道每次迭代需要多少时间。因为在 UI 部分（那些访问我的 API 端点的人）我想帮助他们为正在处理的每个迭代/文件显示一个进度条（TIME TAKEN）。

我有什么可能的方法来实现它吗？如果是这样，请帮助我了解如何进一步处理？

谢谢你。

python api python-3.x fastapi uvicorn

use*_*_12

2020 11-27

13
推荐指数

2
解决办法

2613
查看次数

How to efficiently use CountVectorizer to get ngram counts for all files in a directory combined?

I have around 10k .bytes files in my directory and I want to use count vectorizer to get n_gram counts (i.e fit on train and transform on test set). In those 10k files I have 8k files as train and 2k as test.

files = 
['bfiles/GhHS0zL9cgNXFK6j1dIJ.bytes',
 'bfiles/8qCPkhNr1KJaGtZ35pBc.bytes',
 'bfiles/bLGq2tnA8CuxsF4Py9RO.bytes',
 'bfiles/C0uidNjwV8lrPgzt1JSG.bytes',
 'bfiles/IHiArX1xcBZgv69o4s0a.bytes',
    ...............................
    ...............................]

print(open(files[0]).read())
    'A4 AC 4A 00 AC 4F 00 00 51 EC 48 00 57 7F 45 00 2D 4B 42 45 E9 77 51 4D 89 1D 19 …

Run Code Online (Sandbox Code Playgroud)

python python-3.x scikit-learn

use*_*_12

2019 09-09

8
推荐指数

1
解决办法

219
查看次数

如何在大文本python中高效搜索相似的子字符串？

让我尝试用一个例子来解释我的问题，我有一个很大的语料库和一个子字符串，如下所示，

corpus = """very quick service, polite workers(cory, i think that's his name), i basically just drove there and got a quote(which seems to be very fair priced), then dropped off my car 4 days later(because they were fully booked until then), then i dropped off my car on my appointment day, then the same day the shop called me and notified me that the the job is done i can go pickup my car. when i go checked out …

Run Code Online (Sandbox Code Playgroud)

python string python-3.x

use*_*_12

2022 12-07

8
推荐指数

1
解决办法

795
查看次数

如何从opencv中的图像中删除多余的空格？

我有以下图像，它是收据图像，收据周围有很多空白区域。我想裁剪空白区域。我无法手动裁剪它，所以我正在寻找一种方法来做到这一点。

剪下一张：

从以下帖子中尝试了此代码：How to remove whitespace from an image in OpenCV?

gray = load_image(IMG_FILE) # image file
gray = 255*(gray < 128).astype(np.uint8)
coords = cv2.findNonZero(gray) # Find all non-zero points (text)
x, y, w, h = cv2.boundingRect(coords) # Find minimum spanning bounding box
rect = load_image(IMG_FILE)[y:y+h, x:x+w] # Crop the image - note we do this on the original image

Run Code Online (Sandbox Code Playgroud)

它正在裁剪白色空间的一小部分。

python opencv image image-processing computer-vision

use*_*_12

2020 01-08

6
推荐指数

2
解决办法

2316
查看次数

如何从谷歌语音 api 获取每个话语的结果并将每个音频话语块单独保存为 wav 文件？

我正在使用下面的 python 脚本从实时流音频输入中获取来自谷歌语音 API 的预测。

问题是，我需要从谷歌语音 API 对每个话语进行预测，然后还将每个话语的音频保存到磁盘。

我不确定如何修改脚本以保存每个话语的实时音频并打印每个话语的结果而不是连续预测。

#!/usr/bin/env python

import os
import re
import sys
import time

from google.cloud import speech
import pyaudio
from six.moves import queue

# Audio recording parameters
STREAMING_LIMIT = 240000  # 4 minutes
SAMPLE_RATE = 16000
CHUNK_SIZE = int(SAMPLE_RATE / 10)  # 100ms

api_key = r'path_to_json_file\google.json'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = api_key

RED = '\033[0;31m'
GREEN = '\033[0;32m'
YELLOW = '\033[0;33m'


def get_current_time():
    """Return Current Time in MS."""

    return int(round(time.time() * 1000))


class ResumableMicrophoneStream:
    """Opens a recording …

Run Code Online (Sandbox Code Playgroud)

python python-3.x google-cloud-platform google-speech-api google-speech-to-text-api

use*_*_12

2020 07-29

6
推荐指数

1
解决办法

772
查看次数

如何将文件（docx、doc、pdf 或 json）发送到 fastapi 并在没有 UI（即 HTML）的情况下对其进行预测？

如果您知道如何将文件发送到 FastAPI 服务器并在 /predict 端点中访问它以使用我的模型进行预测，请帮助我。

我已经使用 /predict 端点部署了模型并完成了uvicorn main:app部署，但唯一的输入是文档位于我的本地电脑中，那么如何将其发送到 FastAPI？

我已经浏览了 FastAPI 的文档，并在那里找到了这个示例代码，但挑战是该代码创建了一个用于上传文件的 UI，这不是我想要的。

from typing import Optional
from fastapi import FastAPI
from fastapi import FastAPI, File, UploadFile
from pydantic import BaseModel
from typing import List
from fastapi.responses import HTMLResponse


app = FastAPI()

class User(BaseModel):
    user_name: dict

@app.post("/files/")
async def create_files(files: List[bytes] = File(...)):
    return {"file_sizes": [len(file) for file in files]}


@app.post("/uploadfiles/")
async def create_upload_files(files: List[UploadFile] = File(...)):
    return {"filenames": [file.filename for file in files]}


@app.get("/")
async def …

Run Code Online (Sandbox Code Playgroud)

python python-3.x fastapi

use*_*_12

lucky-day

6
推荐指数

1
解决办法

1万
查看次数