小编Vin*_*mel的帖子

如何基于stanford-nlp条件随机场模型训练法语NER?

我发现了stanford-NLP的工具,发现它非常有趣.我是法国数据管理员/数据科学家,喜欢文本分析,并且很乐意使用你的工具,但是法语中没有的NER对我来说非常令人费解.

我很想制作我自己的法国NER,如果它被认为是值得的话,甚至可以提供它作为包的贡献,那么......你能否向我简要介绍基于stanford coreNLP训练法国NER的CRF的要求?

谢谢.

stanford-nlp

6
推荐指数
1
解决办法
1753
查看次数

如果我删除 mongodb 数据库文件会发生什么?

这是我的问题,我正在使用我自己的测试 VM 使用 Talend & Mongodb 进行数据转换项目。不幸的是,我尝试大规模启动 Map/Reduce 操作,但磁盘上的可用空间显然太少了。它坠毁了。

(我从 2Go csv 文件中加载了单个集合数据,它创建了一个 9Go db,我认为这只是分配了空间,而我的下一个操作不会让它再次变大......然后将一些聚合到一个新的使用 Map/Reduce 脚本的集合。)

现在我无法打开 mongo shell,即使我由于显然损坏的数据库文件而强制删除锁定文件。并且由于磁盘空间不足(10Go数据库文件,需要相同的磁盘空间,只有2Go)导致mongodb启动时的修复命令失败。

我想完全摆脱 db 以重新开始采样数据,所以基本上我不想在无法使用 shell 的情况下删除 db ......我可以删除文件 dbname.1 到 dbname.8 吗?数据库名称.ns ? 好像有点暴力...

谢谢你的帮助!

编辑:解决了我的问题,使用 --nojournal 启动 mongod,但仍然对 mongodb 如何处理这些被删除的文件感兴趣

linux centos mongodb

4
推荐指数
1
解决办法
4552
查看次数

使用新的 azure.storage.blob 包解决文件上传超时错误

我必须升级一个使用旧版本的 microsoft azure python 包从 api 下载数据的 docker 容器,然后将 json 上传到 Azure Blob 存储。因此,由于不再允许使用以前的“azure”元包的 pip 安装,我必须使用新的独立包(azure-storage-blob==12.6.0)。

从旧“azure”包中集成的 blockblobservice 中的函数“create_blob_from_path”切换到新的独立包,BlobClient.upload() 在较大文件上失败,并出现超时错误,完全忽略函数的超时参数。

我收到 ServiceResponseError 消息“连接中止/写入操作超时”

有什么办法可以解决这个错误吗?

新函数感觉像是从 create_blob_from_path 向后退了一大步,缺少progress_callback 主要是令人遗憾的......

python azure-blob-storage

4
推荐指数
1
解决办法
2万
查看次数

我可以知道“更像这样”查询的选定术语吗

我正在尝试微调“更像这样”的查询,以使其适用于非常相似的文档(正式的公告,大部分文本都是“模板”,因此只有某些段落是重要的)。

所以我想知道,给定一个选定的文档,对于我的 "max_query_terms": 20,选择了哪些术语,使用解释的查询只显示哪些确实在检索到的文档中找到,而不是整个 20 个标记集。

我知道这组术语是先验地选择参考文档与索引的比较,以构建一个独特的“匹配”查询但是......

例如,如果我使用 ngrams,则 max_query_terms 适用于分析文本的标记?或者在分析之前使用术语,即取 20 个单词然后将我的过滤器(停用词、省略、ngrams 等...)应用于这个集合?

有没有办法通过rest或api来检索mlt算法生成的匹配查询?

elasticsearch morelikethis

2
推荐指数
1
解决办法
1122
查看次数