小编Koo*_*rra的帖子

在Python中使用nltk模块拆分单词

我正在尝试找到一种使用nltk模块在Python中拆分单词的方法。考虑到我拥有的原始数据(例如带符号词的列表),我不确定如何达到我的目标

['usingvariousmolecularbiology', 'techniques', 'toproduce', 'genotypes', 'following', 'standardoperatingprocedures', '.', 'Operateandmaintainautomatedequipment', '.', 'Updatesampletrackingsystemsandprocess', 'documentation', 'toallowaccurate', 'monitoring', 'andrapid', 'progression', 'ofcasework']
Run Code Online (Sandbox Code Playgroud)

如您所见,许多单词被粘在一起(即“ to”和“ produce”被粘在一个字符串“ toproduce”中)。这是从PDF文件中抓取数据的一种人工产物,我想找到一种使用python中的nltk模块将卡住的单词拆分(即,将“ toproduce”拆分为两个单词:“ to”和“ produce”的方法);将“ standardoperatingprocedures”分为三个词:“ standard”,“ operating”,“ procedures”)。

感谢您的帮助!

python text-processing text-analysis nltk python-textprocessing

1
推荐指数
1
解决办法
1293
查看次数

在中间分割相交的多边形

我正在处理一些生物成像样本,并尝试创建细胞形状的数字模型。为了简单起见,我想通过将它们建模为多边形来概括它们的形状。

我正在努力将两个重叠的多边形分割成在其交叉点处不共享重叠区域的多边形。相反,该区域分为两个形状。下面最能说明我的意图。

我使用 Python 和 OpenCV 包工作,但很乐意实现任何可以解决此问题的替代包。(numpythonic 方式是最好的 - 如果可能的话!)

在此输入图像描述

python geometry opencv polygon shapes

1
推荐指数
1
解决办法
561
查看次数