小编the*_*est的帖子

与 spaCy 的搭配

我一直在使用 NLTK 来查找搭配或 n-gram，并且最近发现了用于 NLP 的 spaCy 模块。我才刚刚开始熟悉它，到目前为止，几乎没有提到支持的搭配功能。

可以直接用spaCy找搭配吗？

我已经通读了文档，但没有看到提及。

python nlp spacy

the*_*est

lucky-day

6
推荐指数

1
解决办法

2177
查看次数

将 Elastic Beanstalk URL 重定向到域名

我有一个托管在 AWS Elastic Beanstalk 上的应用程序，它被分配了一个环境 URL，如下所示：

<my-appname>.<aws-region>.elasticbeanstalk.com

我还注册了一个域名，如下：

my-appname.com

在 AWS Route 53 中，我指出了A ALIASEBmy-appname.com环境：

my-appname.com>A ALIAS <my-appname>.<aws-region>.elasticbeanstalk.com

我通过我的注册商设置了 Route 53 域名服务器，以通过 Amazon 管理 DNS。

一切正常

我想了解如何确保对<my-appname>.<aws-region>.elasticbeanstalk.com>域的任何请求都到达301域my-appname.com。

我当前使用 ApacheRewriteRule将所有非 www 请求重定向到网站的 www 版本，在文件中使用以下内容.config：

<If "'%{HTTP_HOST}' !~ /^www\./">
    RewriteRule ^(.*)$ http://www.%{HTTP_HOST}%{REQUEST_URI} [R=301,L]
</If>

Run Code Online (Sandbox Code Playgroud)

HTTP_HOST简单地更改为是一个好的做法吗my-appname.com？

编辑：无论如何，这种方法似乎不起作用。不知道为什么？

apache dns amazon-web-services amazon-route53 amazon-elastic-beanstalk

the*_*est

2020 09-09

5
推荐指数

2
解决办法

2715
查看次数

根据 Beautifulsoup 中的内容排除标签

我正在抓取类似于以下内容的 html 数据：

<div class="target-content">
    <p id="random1">
      "the content of the p"
    </p>

    <p id="random2">
      "the content of the p"
    </p>

    <p>
      <q class="semi-predictable">
         "q tag content that I don't want
      </q>
    </p>

    <p id="random3">
      "the content of the p"
    </p>

</div>

Run Code Online (Sandbox Code Playgroud)

我的目标是获取所有标签及其内容，同时能够排除<q>标签及其内容。目前，我使用以下方法获取所有标签：

contentlist = soup.find('div', class_='target-content').find_all('p')

Run Code Online (Sandbox Code Playgroud)

我的问题是，在找到所有标签的结果集之后，如何过滤掉包含<q>?

注意：从获取结果集后soup.find('div', class_='target-content')find_all('p')，我以以下方式将结果集中的每个迭代添加到列表中：

content = ''
    for p in contentlist:
        content += str(p)

Run Code Online (Sandbox Code Playgroud)

python beautifulsoup web-scraping

the*_*est

2016 06-27

4
推荐指数

1
解决办法

1429
查看次数

在 BeautifulSoup 中，获取父元素数据时忽略子元素

我的 html 如下：

<html>
    <div class="maindiv">
        text data here 
        <br>
        continued text data
        <br>
        <div class="somename">
            text & data I want to omit
        </div>
    </div>
</html>

Run Code Online (Sandbox Code Playgroud)

我试图只获取maindiv元素中找到的文本，而不获取somename元素中找到的文本数据。在大多数情况下，根据我的经验，大多数文本数据都包含在某个子元素中。但是，我遇到了这种特殊情况，其中数据似乎有些不经意地包含并且有点难以过滤。

我的方法如下：

textdata= soup.find('div', class_='maindiv').get_text()

这将获取在maindiv元素中找到的所有文本数据，以及在somenamediv 元素中找到的文本数据。

我想使用的逻辑更多的是： textdata = soup.find('div', class_='maindiv').get_text(recursive=False)这将省略在somename元素中找到的任何文本数据。

我知道在recursive=False使用 BeautifulSoup 搜索 DOM 结构时，该参数仅适用于定位父级元素，但不能与该.get_text()方法一起使用。

我已经实现了查找所有文本，然后从somename元素中找到的字符串数据中减去元素中找到的字符串数据的方法maindiv，但我正在寻找更有效的方法。

html python beautifulsoup

the*_*est

lucky-day

4
推荐指数

1
解决办法

5315
查看次数

如何更新文件的修改时间？

我正在尝试更新文件的文件修改元数据。我可以访问：Metadata

use std::fs;\n\nfn main() -> std::io::Result<()> {\n    let metadata = fs::metadata("foo.txt")?;\n\n    if let Ok(time) = metadata.modified() {\n        println!("{:?}", time);\n    } else {\n        println!("Not supported on this platform");\n    }\n    Ok(())\n}\n

Run Code Online (Sandbox Code Playgroud)\n

但我不知道如何改变这个值。我的直觉是以附加模式打开现有文件并写入一个空字符串 \xe2\x80\x94 不起作用。

对此的一般方法是什么样的？

io file rust

the*_*est

2022 07-02

4
推荐指数

1
解决办法

2058
查看次数