我想检查一个Python程序,如果一个单词在英语词典中.
我相信nltk wordnet界面可能是要走的路,但我不知道如何将它用于这么简单的任务.
def is_english_word(word):
pass # how to I implement is_english_word?
is_english_word(token.lower())
Run Code Online (Sandbox Code Playgroud)
在将来,我可能想检查一个单词的单数形式是否在字典中(例如,属性 - >属性 - >英语单词).我怎么做到这一点?
我遇到的情况是我正在阅读一串文本,我需要检测语言代码(en,de,fr,sp等).
在python中有一个简单的方法吗?
我正在使用Nltk和Scikit Learn进行一些文本处理.但是,在我的文件清单中,我有一些非英文文件.例如,以下可能是真的:
[ "this is some text written in English",
"this is some more text written in English",
"Ce n'est pas en anglais" ]
Run Code Online (Sandbox Code Playgroud)
出于我的分析目的,我希望将所有非英语句子作为预处理的一部分删除.但是,有一个很好的方法吗?我一直在谷歌搜索,但找不到任何具体的东西,让我能够识别字符串是否为英文.这是不是作为功能提供的东西Nltk或Scikit learn?编辑我见过两个这样的问题这个和这个,但都是个别单词...不是一个"文件".我是否必须遍历句子中的每个单词以检查整个句子是否是英文的?
我正在使用Python,所以Python中的库会更受欢迎,但我可以根据需要切换语言,只是认为Python是最好的.
我正在使用多处理池运行一段代码.代码在数据集上工作,在另一个上失败.显然问题是数据驱动 - 我说我不清楚从哪里开始故障排除,因为我收到的错误如下.任何关于起点的提示都将是最有帮助的.这两组数据都使用相同的代码编写 - 所以我不认为会有差异 - 但我在这里.
另请参阅Robert的评论 - 我们在os和python版本3.6(我有3.4,他有3.6)和完全不同的数据集上有所区别.然而,错误与python代码中的行完全相同.
我的怀疑:
在一段时间之后,该过程逐字地收集 - 发现过程没有结束并放弃.
线程Thread-9中的异常:
Traceback(最近一次调用最后一次):
文件"C:\ Program Files\Python\WinPython-64bit-3.4.4.4Qt5\python-3.4.4.amd64\lib\threading.py",第911行,在_bootstrap_inner self.run()中
文件"C:\ Program Files\Python\WinPython-64bit-3.4.4.4Qt5\python-3.4.4.amd64\lib\threading.py",第859行,运行self._target(*self._args,**self._kwargs)
文件"C:\ Program Files\Python\WinPython-64bit-3.4.4.4Qt5\python-3.4.4.amd64\lib\multiprocessing\pool.py",第429行,在_handle_results task = get()中
文件"C:\ Program Files\Python\WinPython-64bit-3.4.4.4Qt5\python-3.4.4.amd64\lib\multiprocessing\connection.py",第251行,在recv中返回ForkingPickler.loads(buf.getbuffer( ))
TypeError:init()缺少1个必需的位置参数:'message'
我在使用 TextBlob 库时遇到一些问题。我正在尝试运行一段非常简单的代码,如下所示:
from textblob import TextBlob
text = 'this is just a test'
blob = TextBlob(text)
blob.detect_language()
Run Code Online (Sandbox Code Playgroud)
它不断地给我这个错误:
/usr/lib/python3.7/urllib/request.py in http_error_default(self, req, fp, code, msg, hdrs)
647 class HTTPDefaultErrorHandler(BaseHandler):
648 def http_error_default(self, req, fp, code, msg, hdrs):
--> 649 raise HTTPError(req.full_url, code, msg, hdrs, fp)
650
651 class HTTPRedirectHandler(BaseHandler):
HTTPError: HTTP Error 404: Not Found
Run Code Online (Sandbox Code Playgroud)
问题是什么?我已经在多个设备上尝试过,但每次都会出现相同的错误。
我是python的初学者,正在玩多语言功能,将文本从一种语言转换为另一种语言,如西班牙语到英语.
我按照说明安装了Polyglot和所需的模块.
但是在运行命令"from polyglot.detect import Detector"时,我收到任何错误
回溯(最近一次调用最后一次):文件"",第1行,来自polyglot.detect导入检测器文件"C:\ Python34\lib\site-packages\polyglot-15.5.2-py3.4.egg\polyglot\detect__init__ .py",第1行,来自.base import Detector,语言文件"C:\ Python34\lib\site-packages\polyglot-15.5.2-py3.4.egg\polyglot\detect\base.py",line 11,来自icu import Locale ImportError:没有名为'icu'的模块
不知道我需要做什么.
有人可以帮忙吗?
python ×6
nltk ×2
detection ×1
http ×1
nlp ×1
polyglot ×1
python-3.4 ×1
python-3.x ×1
scikit-learn ×1
textblob ×1
unicode ×1
wordnet ×1