小编Joh*_*ook的帖子

使用Python从HTML文件中提取文本

我想使用Python从HTML文件中提取文本.如果我从浏览器复制文本并将其粘贴到记事本中,我想要的输出基本相同.

我想要比使用可能在格式不正确的HTML上失败的正则表达式更强大的东西.我见过很多人推荐Beautiful Soup,但是我使用它时遇到了一些问题.首先,它选择了不需要的文本,例如JavaScript源代码.此外,它没有解释HTML实体.例如,我希望' 在HTML源代码中转换为文本中的撇号,就像我将浏览器内容粘贴到记事本中一样.

更新 html2text看起来很有希 它正确处理HTML实体并忽略JavaScript.但是,它并不完全产生纯文本; 它会产生降价,然后必须将其转换为纯文本.它没有示例或文档,但代码看起来很干净.


相关问题:

html python text html-content-extraction

222
推荐指数
12
解决办法
32万
查看次数

在LaTeX中排版音乐

我很感激任何帮助排版LaTeX音乐.我试过使用MusiXTeX,但一直非常沮丧.

据我了解,MusiXTeX符号有一个陡峭的学习曲线,但我很好; 这种符号似乎有很好的记录.最难的部分是安装并获得一个简单的"hello world"示例.

我并不致力于MusiXTeX; 我会尝试任何适用于LaTeX的东西.但我尝试了其他替代方案并同样对它们感到沮丧.

latex

37
推荐指数
3
解决办法
2万
查看次数

平等和等同之间有什么区别?

我读过几个使用等价符号的数学和计算机科学实例?(基本上是一个带有三行的'='),对我来说,读这个就好像是平等一样.这两个概念有什么区别?

math computer-science symbols

31
推荐指数
5
解决办法
3万
查看次数

你如何在动态语言中进行不同的编程?

那些真正懂得如何利用动态编程语言的人如何以不同于使用静态语言工作的人来编程?

我对静态与动态类型的整个争论很熟悉,但这不是我所得到的.我想讨论在动态语言中实用但在静态语言中不实用的问题解决技术.

我在动态编程语言中编写的大多数代码与用静态编程语言编写的代码差别不大.俗话说,你可以用任何语言写FORTRAN,很多人都这样做.但有些人使用动态编程语言以一种不易转换为C++的方式解决问题.他们的一些技术是什么?

讨论如何使用动态编程语言的一些好资源是什么?不是关于语言语法或API参考的书籍,而是关于利用动态语言功能的问题解决方法的资源.

编辑(2009年1月5日):我很欣赏下面的答案,但它们似乎并没有说明动态语言倡导者说他们所经历的生产力的巨大提升.

dynamic-languages

30
推荐指数
2
解决办法
1935
查看次数

Emacs如何确定要撤消的工作单元

输入命令时C-/,Emacs会将最近更改的某些部分撤消到缓冲区.当你C-/再次进入时,它会撤消另一部分工作.

我已经阅读了关于撤销Emacs手册条目,但它确切地说它是如何工作的模糊不清.手册说"连续字符插入命令通常组合在一起成为一个撤销记录",但它没有解释它如何决定构成一个组的字符插入命令的数量.它放在一个组中的字符数似乎是随机的.

任何人都可以解释Emacs用于将字符分组为撤消记录的算法吗?

emacs

29
推荐指数
1
解决办法
816
查看次数

emacs:交互式搜索开放缓冲区

有没有办法搜索特定模式的所有打开缓冲区?

Cs以交互方式搜索当前缓冲区.同样,是否有搜索所有开放缓冲区的东西?

我知道我可以使用"发生",但"发生"会带来一个新的缓冲区并改变/混乱缓冲组织.

emacs

21
推荐指数
4
解决办法
5779
查看次数

Emacs组织模式文件/查看器关联

在Emacs组织模式文件中,当我单击PDF时,文件将在PDF查看器中打开.同样,当我点击一个URL时,它会在Web浏览器中打开.但是,当我单击图像文件的路径时,字节流将在编辑器中以文本形式打开.如何配置Emacs/org-mode以使用指定的应用程序(例如图像编辑器或浏览器)打开图像?

emacs org-mode

21
推荐指数
1
解决办法
5594
查看次数

如何自然淡出音量?

我已经在大约半秒钟的时间内尝试了sigmoid和对数淡出音量,以缓冲暂停和停止并防止我的音乐应用中出现爆音.

然而,这些声音都不是"自然的".我的意思是,他们听起来很拙劣.就像一位业余工程师负责声音甲板.

我知道在音量方面,耳朵是对数的,或者至少两倍的功率并不意味着音量的两倍.体积衰减是否有神奇的公式?谢谢.

math audio

17
推荐指数
2
解决办法
4001
查看次数

用于矢量数学的开源C++库

我需要在应用程序中使用一些基本的矢量数学结构.点产品,交叉产品.寻找线的交叉点,那种东西.

我可以自己做(事实上,已经有),但是没有"标准"使用这样的错误和可能的优化不会在我身上?

Boost没有它.就我所见,他们的数学部分是关于统计函数的.

附录:

提升1.37确实似乎有这个.他们还优雅地在现场引入了许多其他解决方案,以及为什么他们仍然去做自己的.我喜欢.

c++ math

16
推荐指数
3
解决办法
2万
查看次数

如何在IronPython中创建.NET程序集并从C#调用它?

我想使用IronPython创建一个程序集,可以从C#中调用它.这是我问的两件事.

  1. 我不是问如何从IronPython中调用C#.最容易找到的文档描述了如何从IronPython中调用C#.(例如,IronPython附带的教程.)我想反过来,从C#调用IronPython.

  2. 我不是问如何嵌入IronPython解释器.我已经找到了几个有用的参考资料(例如这里这里),介绍如何从C#调用IronPython解释器.这很有帮助,但我更感兴趣的是从IronPython创建一个已编译的程序集.也就是说,我想对IronPython程序集进行方法调用,而不是将源代码字符串传递给解释器.

一旦我创建了程序集,有什么关于调用它的技巧?一个博客帖子,我发现说:

...从C#调用Python程序集是非常重要的.该python程序集包含动态类型,这些类型不容易反映到有用的C#对象中.

你知道在IronPython和C#之间传递基本数据类型的任何备忘单吗?

更新:我现在最感兴趣的场景是将两个或三个double值传递给Python并double返回一个或两个值.如果我可以传入一个字符串并获得一个非常棒的字符串,但我的首要任务就是来回传递数字.

ironpython assemblies

16
推荐指数
1
解决办法
6079
查看次数