小编sha*_*nuo的帖子

对单词和字符进行分组和分类

我需要拆分斜线然后报告标签.这是hunspell字典格式.我试图在github上找到一个可以做到这一点的类,但找不到一个.

# vi test.txt
test/S
boy
girl/SE
home/
house/SE123
man/E
country
wind/ES
Run Code Online (Sandbox Code Playgroud)

代码:

from collections import defaultdict
myl=defaultdict(list)

with open('test.txt') as f :
    for l in f:
        l = l.rstrip()
        try:
            tags = l.split('/')[1]
            myl[tags].append(l.split('/')[0])
            for t in tags:
                myl[t].append( l.split('/')[0])
        except:
            pass
Run Code Online (Sandbox Code Playgroud)

输出:

defaultdict(list,
            {'S': ['test', 'test', 'girl', 'house', 'wind'],
             'SE': ['girl'],
             'E': ['girl', 'house', 'man', 'man', 'wind'],
             '': ['home'],
             'SE123': ['house'],
             '1': ['house'],
             '2': ['house'],
             '3': ['house'],
             'ES': ['wind']})
Run Code Online (Sandbox Code Playgroud)

SE组应该有3个单词'girl','wind'和'house'.应该没有ES组,因为它包含在内且与"SE"相同,SE123应保持不变.我怎么做到这一点?


更新:

我设法添加了双字母,但如何添加3,4,5克?

from collections import defaultdict
import nltk …
Run Code Online (Sandbox Code Playgroud)

python nltk hunspell

6
推荐指数
1
解决办法
217
查看次数

boto 脚本列出所有 api 网关部署

我使用网关部署了几个 API。如何以表格格式列出所有这些内容以及集成类型(如 lambda)和方法响应(如 200)等详细信息?


更新:正如答案中所建议的,我可以使用“get-rest-apis”方法来获取所有 API ID 的列表。json 数据可以像这样转换为 pandas dataframe...

# aws apigateway get-rest-apis --region=us-east-1 > /tmp/to_file.json

import pandas as pd
import json
from pandas.io.json import json_normalize

with open("to_file.json") as f:
    data = json.load(f)

df = json_normalize(data, "items")

df["createdDate"] = pd.to_datetime(df["createdDate"], unit="s").dt.date
df = df.sort_values(["createdDate"])

df["endpointConfiguration.types"] = df["endpointConfiguration.types"].str[0]
Run Code Online (Sandbox Code Playgroud)

但是如何查询才能获取每个ID的详细信息呢?


为了全面了解给定 API,我需要查询多种方法,例如 get-integration、get-method-response、get-resource。其中每一项都有不同数量的所需参数,这使得自动化过程非常困难。

boto amazon-web-services jq aws-api-gateway

6
推荐指数
1
解决办法
3459
查看次数

暂时停止竞价实例

这是关于最近的公告:

https://aws.amazon.com/about-aws/whats-new/2020/01/amazon-ec2-spot-instances-stopped-started-similar-to-on-demand-instances/

但我可以看到 2017 年推出了一个类似的功能

https://aws.amazon.com/about-aws/whats-new/2017/09/amazon-ec2-spot-can-now-stop-and-start-your-spot-instances/

1)我想知道这两个公告之间的区别。2) 当我尝试停止我的 Spot 实例时,出现以下错误:

Error stopping instances
You can't stop the Spot Instance 'i-0f298e1710169xxxx' because it is in a fleet, which does not support stop
Run Code Online (Sandbox Code Playgroud)

我想停止该实例以节省成本。

amazon-ec2-spot-market

6
推荐指数
1
解决办法
1920
查看次数

删除旧的备份文件

# find /home/shantanu -name 'my_stops*' | xargs ls -lt | head -2
Run Code Online (Sandbox Code Playgroud)

上面提到的命令将列出最新的2个文件,其中包含my_stops的名称.我想保留这两个文件.但我想删除当前目录中以"my_stops"开头的所有其他文件.

bash shell

5
推荐指数
1
解决办法
5420
查看次数

Innodb表的创建时间

来自INFORMATION_SCHEMA的"TABLES"表的CREATE_TIME列显示了我所有InnoDB表的相同CREATE_TIME.这意味着所有这些表都是在2010-03-26 06:52:00和2010-03-26 06:53:00之间创建的,而实际上它们是在几个月前创建的.

对于InnoDB表,CREATE_TABLE字段是否自动更改?

mysql

5
推荐指数
2
解决办法
1816
查看次数

附件的位置在JIRA

JIRA在哪里保存与门票相关的附件?我想只备份在我的JIRA网站上找到的屏幕截图和文件.它是否将其保存在MySQL BLOB列类型中?

jira

5
推荐指数
1
解决办法
3405
查看次数

将表类型更改为InnoDB

我有一个myisam专用的32 GB RAM mysql服务器,运行在默认配置.我想将引擎类型更改为一个表的InnoDB,以避免表锁.它拥有5000万条记录,磁盘大小约为15 GB.我使用的是mysql 5.5版,我想我需要添加以下选项并重新启动mysql.

innodb_buffer_pool_size=1G
innodb_log_file_size=100M
innodb_file_per_table=1
Run Code Online (Sandbox Code Playgroud)

在改变发动机类型时还需要什么?

mysql innodb

5
推荐指数
2
解决办法
9124
查看次数

php 对 mongoDB 的支持

我正在使用这个按预期工作的图像。

https://hub.docker.com/r/clue/adminer/

唯一的问题是它没有连接 MongoDB 或 Oracle 所需的 php 扩展...

Oracle
None of the supported PHP extensions (OCI8, PDO_OCI) are available.

MongoDB
None of the supported PHP extensions (mongo) are available.
Run Code Online (Sandbox Code Playgroud)

是否有包含对这两个数据库的支持的图像?


编辑:我可以像这样为 Oracle 和 mongodb 使用另一个容器。但是这个容器不支持 mssql 和 postgresql。我正在寻找单个图像中的所有数据库支持。

wget http://www.adminer.org/latest.php -O /tmp/index.php

docker run -d -p 8080:80 -v /tmp/:/app lukaszkinder/apache-php-oci8-pdo_oci
Run Code Online (Sandbox Code Playgroud)

并且可以使用它连接 mongoDB。

docker run -d -p 8070:80 -v /tmp:/var/www/html ishiidaichi/apache-php-mongo-phalcon
Run Code Online (Sandbox Code Playgroud)

编辑 2:此处提供了 oracle 的 dockerfile。

https://github.com/davidgaya/docker-apache-php-oci/blob/master/Dockerfile

但我不确定如何合并这 2 个 docker 文件。

docker

5
推荐指数
1
解决办法
1992
查看次数

从 docker 容器连接到 mysql 数据库

我有这个 docker 文件,它按预期工作。我有一个连接到本地主机上的 mysql 的 php 应用程序。

# cat Dockerfile
FROM tutum/lamp:latest
RUN rm -fr /app
ADD crm_220 /app/
ADD crmbox.sql /
ADD mysql-setup.sh /mysql-setup.sh
EXPOSE 80 3306
CMD ["/run.sh"]
Run Code Online (Sandbox Code Playgroud)

当我尝试将数据库作为单独的容器运行时,我的 php 应用程序仍然指向 localhost。当我连接到“web”容器时,我无法连接到“mysql1”容器。

# cat docker-compose.yml
web:
  build: .
  restart: always
  volumes:
    - .:/app/
  ports:
    - "8000:8000"
    - "80:80"
  links:
    - mysql1:mysql

mysql1:
  image: mysql:latest
  volumes:
    - "/var/lib/mysql:/var/lib/mysql"
  ports:
    - "3306:3306"
  environment:
    MYSQL_ROOT_PASSWORD: secretpass
Run Code Online (Sandbox Code Playgroud)

我的 php 应用程序如何从另一个容器连接到 mysql?

这类似于这里提出的问题......

从主机连接到 docker 容器中的 mysql

我不想从主机连接到 mysql,我需要从另一个容器连接。

docker dockerfile docker-compose

5
推荐指数
1
解决办法
2万
查看次数

训练测试拆分之前或之后的处理

我正在使用这篇优秀的文章来学习机器学习。

https://stackabuse.com/python-for-nlp-multi-label-text-classification-with-keras/

作者将 X 和 y 数据拆分后对其进行了标记。

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.20, random_state=42
)

tokenizer = Tokenizer(num_words=5000)
tokenizer.fit_on_texts(X_train)

X_train = tokenizer.texts_to_sequences(X_train)
X_test = tokenizer.texts_to_sequences(X_test)

vocab_size = len(tokenizer.word_index) + 1

maxlen = 200

X_train = pad_sequences(X_train, padding="post", maxlen=maxlen)
X_test = pad_sequences(X_test, padding="post", maxlen=maxlen)
Run Code Online (Sandbox Code Playgroud)

如果我在使用 train_test_split 类之前标记它,我可以节省几行代码。

tokenizer = Tokenizer(num_words=5000)
tokenizer.fit_on_texts(X)

X_t = tokenizer.texts_to_sequences(X)
vocab_size = len(tokenizer.word_index) + 1
maxlen = 200

X = pad_sequences(X_t, padding="post", maxlen=maxlen)
Run Code Online (Sandbox Code Playgroud)

我只是想确认我的方法是正确的,我不希望脚本后面有任何惊喜。

nlp tokenize scikit-learn keras train-test-split

5
推荐指数
2
解决办法
2051
查看次数