小编Wat*_*236的帖子

正则表达式没有在python中返回预期的输出

名单a = ['Aeroplane','Ramanujan','World-king','Pizza/Burger'] 我想替换的项目(有-,/与列表中)Pizza_BurgerWorld_king.无论符号是什么,都应该用下划线代替.

这是我的代码:

import re
def replaceStrings(arg):
    txt =arg
    res = re.search(r'(?i)\b([a-z][a-z0-9_]*)([/-]+)([a-z][a-z0-9_]*)\b', txt)
    if res:
        pp = reg.sub(r'\1_\2',txt)
        print(pp)
        return pp



for i in a:
    replaceStrings(i)
Run Code Online (Sandbox Code Playgroud)

但我没有得到所需的输出.我的正则表达式有什么问题.我是正则表达式的初学者.谢谢

python regex regex-greedy

1
推荐指数
1
解决办法
51
查看次数

如何将文档分为训练集和测试集?

我正在尝试建立分类模型。我在本地文件夹中有1000个文本文档。我想将它们分为训练集和测试集,拆分比例为70:30(70->训练和30->测试),有什么更好的方法呢?我正在使用python。

注意:-为了更好的理解,请提供为什么应遵循该方法的解释。

谢谢

更新:-在对这个问题进行了几次投票之后。尽管我得到了接近完美的答案,但我还是想简单地介绍一下问题。

我希望以编程方式将训练集和测试集分开。首先读取本地目录中的文件。其次,构建这些文件的列表并对其进行随机排序。第三,将它们分为训练集和测试集。

作为python的初学者和新手,我尝试了几种使用内置python关键字和函数的方法,但都失败了。最后,我有了接近它的想法。同样,交叉验证是构建建筑物一般分类模型时要考虑的一个很好的选择。感谢您的回答。

machine-learning scikit-learn text-classification

-1
推荐指数
1
解决办法
6978
查看次数