我发现了stanford-NLP的工具,发现它非常有趣.我是法国数据管理员/数据科学家,喜欢文本分析,并且很乐意使用你的工具,但是法语中没有的NER对我来说非常令人费解.
我很想制作我自己的法国NER,如果它被认为是值得的话,甚至可以提供它作为包的贡献,那么......你能否向我简要介绍基于stanford coreNLP训练法国NER的CRF的要求?
谢谢.
这是我的问题,我正在使用我自己的测试 VM 使用 Talend & Mongodb 进行数据转换项目。不幸的是,我尝试大规模启动 Map/Reduce 操作,但磁盘上的可用空间显然太少了。它坠毁了。
(我从 2Go csv 文件中加载了单个集合数据,它创建了一个 9Go db,我认为这只是分配了空间,而我的下一个操作不会让它再次变大......然后将一些聚合到一个新的使用 Map/Reduce 脚本的集合。)
现在我无法打开 mongo shell,即使我由于显然损坏的数据库文件而强制删除锁定文件。并且由于磁盘空间不足(10Go数据库文件,需要相同的磁盘空间,只有2Go)导致mongodb启动时的修复命令失败。
我想完全摆脱 db 以重新开始采样数据,所以基本上我不想在无法使用 shell 的情况下删除 db ......我可以删除文件 dbname.1 到 dbname.8 吗?数据库名称.ns ? 好像有点暴力...
谢谢你的帮助!
编辑:解决了我的问题,使用 --nojournal 启动 mongod,但仍然对 mongodb 如何处理这些被删除的文件感兴趣
我必须升级一个使用旧版本的 microsoft azure python 包从 api 下载数据的 docker 容器,然后将 json 上传到 Azure Blob 存储。因此,由于不再允许使用以前的“azure”元包的 pip 安装,我必须使用新的独立包(azure-storage-blob==12.6.0)。
从旧“azure”包中集成的 blockblobservice 中的函数“create_blob_from_path”切换到新的独立包,BlobClient.upload() 在较大文件上失败,并出现超时错误,完全忽略函数的超时参数。
我收到 ServiceResponseError 消息“连接中止/写入操作超时”
有什么办法可以解决这个错误吗?
新函数感觉像是从 create_blob_from_path 向后退了一大步,缺少progress_callback 主要是令人遗憾的......
我正在尝试微调“更像这样”的查询,以使其适用于非常相似的文档(正式的公告,大部分文本都是“模板”,因此只有某些段落是重要的)。
所以我想知道,给定一个选定的文档,对于我的 "max_query_terms": 20,选择了哪些术语,使用解释的查询只显示哪些确实在检索到的文档中找到,而不是整个 20 个标记集。
我知道这组术语是先验地选择参考文档与索引的比较,以构建一个独特的“匹配”查询但是......
例如,如果我使用 ngrams,则 max_query_terms 适用于分析文本的标记?或者在分析之前使用术语,即取 20 个单词然后将我的过滤器(停用词、省略、ngrams 等...)应用于这个集合?
有没有办法通过rest或api来检索mlt算法生成的匹配查询?