Jes*_*dge 17 python statistics wikipedia machine-learning summarization
我发现自己不得不一直学习新事物.我一直试图想办法加快学习新科目的过程.如果我能编写一个解析维基百科文章的程序并除去最有价值的信息之外的所有内容,我认为这可能很简洁.
我首先阅读维基百科关于PDF的文章并提取前100个句子.我根据我的想法给出了每个句子得分.我最终创建了一个遵循以下格式的文件:
<sentence>
<value>
<sentence>
<value>
etc.
Run Code Online (Sandbox Code Playgroud)
然后我解析了这个文件并试图找到各种函数,将每个句子与我给出的值相关联.我刚刚开始学习机器学习和统计学等等,所以我在这里做了很多摸索.这是我最近的尝试:https: //github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py.
我尝试了一堆似乎根本没有产生任何相关性的东西 - 平均字长,文章中的位置等等.几乎唯一产生任何有用关系的东西是字符串的长度(更具体地说,计算小写字母'e'的数量似乎效果最好).但这似乎有点蹩脚,因为很明显,较长的句子更有可能包含有用的信息.
有一次我以为我找到了一些有趣的功能,但是当我尝试删除异常值时(仅计算内部四分位数),结果却产生了更糟糕的结果,然后只为每个句子返回0.这让我想知道我可能做错了多少其他事情......我也想知道这是否是解决这个问题的好方法.
你觉得我走在正确的轨道上吗?或者这只是一个傻瓜的差事?链接代码中是否存在明显缺陷?有没有人知道更好的方法来解决总结维基百科文章的问题?我宁愿有一个快速而肮脏的解决方案而不是完美的东西需要很长时间才能组合在一起.任何一般性建议也将受到欢迎.
Col*_*inE 13
考虑到你的问题更多地涉及研究活动而不是编程问题,你应该看一下科学文献.在这里,您将找到许多算法的已发布详细信息,这些算法可以完全按照您的要求执 Google搜索"关键字摘要"会发现以下内容:
如果您阅读上述内容,然后按照其中包含的参考资料,您将找到大量丰富的信息.当然足以构建一个功能性的应用程序.
归档时间: |
|
查看次数: |
2210 次 |
最近记录: |