小编the*_*est的帖子

与 spaCy 的搭配

我一直在使用 NLTK 来查找搭配或 n-gram,并且最近发现了用于 NLP 的 spaCy 模块。我才刚刚开始熟悉它,到目前为止,几乎没有提到支持的搭配功能。

可以直接用spaCy找搭配吗?

我已经通读了文档,但没有看到提及。

python nlp spacy

6
推荐指数
1
解决办法
2177
查看次数

将 Elastic Beanstalk URL 重定向到域名

我有一个托管在 AWS Elastic Beanstalk 上的应用程序,它被分配了一个环境 URL,如下所示:

<my-appname>.<aws-region>.elasticbeanstalk.com

我还注册了一个域名,如下:

my-appname.com

在 AWS Route 53 中,我指出了A ALIASEBmy-appname.com环境:

my-appname.com>A ALIAS <my-appname>.<aws-region>.elasticbeanstalk.com

我通过我的注册商设置了 Route 53 域名服务器,以通过 Amazon 管理 DNS。

一切正常

我想了解如何确保对<my-appname>.<aws-region>.elasticbeanstalk.com>域的任何请求都到达301my-appname.com

我当前使用 ApacheRewriteRule将所有非 www 请求重定向到网站的 www 版本,在文件中使用以下内容.config

<If "'%{HTTP_HOST}' !~ /^www\./">
    RewriteRule ^(.*)$ http://www.%{HTTP_HOST}%{REQUEST_URI} [R=301,L]
</If>
Run Code Online (Sandbox Code Playgroud)

HTTP_HOST简单地更改为是一个好的做法吗my-appname.com

编辑:无论如何,这种方法似乎不起作用。不知道为什么?

apache dns amazon-web-services amazon-route53 amazon-elastic-beanstalk

5
推荐指数
2
解决办法
2715
查看次数

根据 Beautifulsoup 中的内容排除标签

我正在抓取类似于以下内容的 html 数据:

<div class="target-content">
    <p id="random1">
      "the content of the p"
    </p>

    <p id="random2">
      "the content of the p"
    </p>

    <p>
      <q class="semi-predictable">
         "q tag content that I don't want
      </q>
    </p>

    <p id="random3">
      "the content of the p"
    </p>

</div>
Run Code Online (Sandbox Code Playgroud)

我的目标是获取所有<p>标签及其内容,同时能够排除<q>标签及其内容。目前,我<p>使用以下方法获取所有标签:

contentlist = soup.find('div', class_='target-content').find_all('p')
Run Code Online (Sandbox Code Playgroud)

我的问题是,在找到所有<p>标签的结果集之后,如何过滤掉<p>包含<q>?

注意:从 获取结果集后soup.find('div', class_='target-content')find_all('p'),我<p>以以下方式将结果集中的每个迭代添加到列表中:

content = ''
    for p in contentlist:
        content += str(p)
Run Code Online (Sandbox Code Playgroud)

python beautifulsoup web-scraping

4
推荐指数
1
解决办法
1429
查看次数

在 BeautifulSoup 中,获取父元素数据时忽略子元素

我的 html 如下:

<html>
    <div class="maindiv">
        text data here 
        <br>
        continued text data
        <br>
        <div class="somename">
            text & data I want to omit
        </div>
    </div>
</html>
Run Code Online (Sandbox Code Playgroud)

我试图只获取maindiv元素中找到的文本,而不获取somename元素中找到的文本数据。在大多数情况下,根据我的经验,大多数文本数据都包含在某个子元素中。但是,我遇到了这种特殊情况,其中数据似乎有些不经意地包含并且有点难以过滤。

我的方法如下:

textdata= soup.find('div', class_='maindiv').get_text()

这将获取在maindiv元素中找到的所有文本数据,以及在somenamediv 元素中找到的文本数据。

我想使用的逻辑更多的是: textdata = soup.find('div', class_='maindiv').get_text(recursive=False)这将省略在somename元素中找到的任何文本数据。

我知道在recursive=False使用 BeautifulSoup 搜索 DOM 结构时,该参数仅适用于定位父级元素,但不能与该.get_text()方法一起使用。

我已经实现了查找所有文本,然后从somename元素中找到的字符串数据中减去元素中找到的字符串数据的方法maindiv,但我正在寻找更有效的方法。

html python beautifulsoup

4
推荐指数
1
解决办法
5315
查看次数

如何更新文件的修改时间?

我正在尝试更新文件的文件修改元数据。我可以访问Metadata

\n
use std::fs;\n\nfn main() -> std::io::Result<()> {\n    let metadata = fs::metadata("foo.txt")?;\n\n    if let Ok(time) = metadata.modified() {\n        println!("{:?}", time);\n    } else {\n        println!("Not supported on this platform");\n    }\n    Ok(())\n}\n
Run Code Online (Sandbox Code Playgroud)\n

但我不知道如何改变这个值。我的直觉是以附加模式打开现有文件并写入一个空字符串 \xe2\x80\x94 不起作用。

\n

对此的一般方法是什么样的?

\n

io file rust

4
推荐指数
1
解决办法
2058
查看次数