问题列表 - 第44473页

从BeautifulSoup中删除大文件中的html的速度更快/更少资源拆除的方法?或者,使用BeautifulSoup更好的方法?

目前我在键入这个时遇到了麻烦,因为根据top我的处理器是100%而我的内存是85.7%,所有这些都被python占用.

为什么?因为我让它通过一个250兆字节的文件来删除标记.250美元,就是这样!我一直在使用许多其他模块和东西在python中操作这些文件; BeautifulSoup是第一个给我带来如此小的问题的代码.如何使用近4个RAM来操作250megs的HTML?

我发现(在stackoverflow上)并且一直在使用的单行是这样的:

''.join(BeautifulSoup(corpus).findAll(text=True))
Run Code Online (Sandbox Code Playgroud)

此外,这似乎删除了所有BUT标记,这与我想要做的相反.我确信BeautifulSoup也能做到这一点,但速度问题仍然存在.

有没有什么可以做类似的事情(删除标记,可靠地保留文本)并且不需要Cray运行?

html python performance parsing beautifulsoup

5
推荐指数
1
解决办法
1153
查看次数

大O符号O(p ^ 2 log p)

请帮我描述和解决原因

Θ(p ^ 2 log p ^ 2)=Θ(p ^ 2 log p)

我真的很震惊.

big-o

2
推荐指数
1
解决办法
283
查看次数

序列化和PHP中的utf-8

大家好
我正在尝试序列化包含一些utf-8代码的数组:

....["value"]=>  string(13) "??????1"....
Run Code Online (Sandbox Code Playgroud)

但序列化数组后,它看起来像这样:

value";s:13:"??????
Run Code Online (Sandbox Code Playgroud)

我认为我得到的错误:

Message: unserialize() [function.unserialize]: Error at offset 685 of 701 bytes
Run Code Online (Sandbox Code Playgroud)

与utf-8代码的错误序列化有关
那么如何序列化包含utf-8代码的数组?
谢谢

php serialization

4
推荐指数
1
解决办法
1682
查看次数

如何在C++中将字符串转换为datetime

我有一个基于时间的结果集(来自函数).但是日期时间值是字符串格式(例如"21:5 Jan 23,11").我想将"21:5 Jan 23,11"转换为datetime.我怎么能用C++做到这一点?我只想过滤今天的记录.所以我需要从"21月1日23日,11日"检索当前日期.

编辑:

我可以使用SYSTEMTIME st获取当前日期和时间; GetSystemTime(ST);

有没有办法转换上述格式的"21:5 Jan 23,11"?

c++

5
推荐指数
2
解决办法
2万
查看次数

我想在Android中显示滚动文本

我想在Android中显示滚动文本,就像HTML中的选框标记功能一样.我怎么能这样显示.

android

2
推荐指数
1
解决办法
605
查看次数

从网页获取信息(标题,图片,头等)

在Facebook中,当您向墙壁添加链接时,它会获得标题,图片和部分文本.我在其他可以添加链接的网站上看到过这种行为,它是如何工作的?它有名字吗?有没有实现它的javascript/jQuery扩展?

怎么可能facebook去另一个网站并获取html,据说,禁止进行跨站点ajax调用?

谢谢.

javascript jquery facebook

4
推荐指数
1
解决办法
4694
查看次数

Razor View Engine:复杂的循环和HTML

在我当前的项目中,我有很多复杂的HTML报告,我们在那里使用rowpans和colspans对TR和TD进行大量的条件渲染.

它有时看起来像这样(这是非常简化的):

<tr>
@foreach (var ourItem in ourList) {
   if (ourItem != ourList.First()) {
      <tr>                
   }
   <td></td>
   </tr>
}
Run Code Online (Sandbox Code Playgroud)

然而,Razor声称:"foreach循环缺少关闭"}"字符".(在Visual Studio中)

我一直在努力,包裹<tr><text></text>这使得收盘}问题消失在运行时只发现这一点:"遇到结束标记'TR’没有匹配的开始标记是你的开始/结束标记适当的平衡".

在说服Razor根本不打扰HTML时,我将如何进行这种条件渲染,因为当所有循环完成时HTML都是平衡的.或者至少在使用ASP.NET视图引擎时就是这种情况.

asp.net-mvc razor asp.net-mvc-3

28
推荐指数
2
解决办法
2万
查看次数

在groovy中向对象动态添加属性或方法

是否可以在Groovy中动态地向对象添加属性或方法?这是我到目前为止所尝试的:

class Greet {
  def name
  Greet(who) { name = who[0].toUpperCase() + [1..-1] }
  def salute() { println "Hello $name!" }
}

g = new Greet('world')  // create object
g.salute()              // Output "Hello World!"

g.bye = { println "Goodbye, $name" }
g.bye()
Run Code Online (Sandbox Code Playgroud)

但我得到以下异常:

Hello World!
Caught: groovy.lang.MissingPropertyException: No such property: bye for class: Greet
Possible solutions: name
    at test.run(greet.groovy:11)
Run Code Online (Sandbox Code Playgroud)

groovy monkeypatching

36
推荐指数
1
解决办法
2万
查看次数

使Web应用程序开源

我在Web应用程序上工作了很长时间,使用jQuery在PHP/MySQL中开发了某种CMS和Intranet门户.
目前,存储库在SVN下,但我想我会在公开之前在GIT上迁移.我想知道你们中的一些人是否可能知道什么是最好的方法,或者只是给出一些建议,或者分享关于公开网络应用程序的事实的一些链接,并试图吸引开发人员参与项目.

我不知道我将使用哪个许可证(GPL,MIT?),也不知道我希望它托管的平台(Sourceforge,Github,Google代码).任何有关这方面的建议都会很棒.

谢谢你的帮助.

php git jquery licensing open-source

5
推荐指数
1
解决办法
281
查看次数

通过 LibTiff.Net 从 Stream 加载的 Tiff 没有字段值

我的应用程序必须处理存储在 MemoryStream 中的 TIFF 文件,但 LibTiff.Net 始终返回null字段值。

        MemoryStream ms = new MemoryStream();
        FileStream fs = new FileStream("testfile.tif", FileMode.Open);
        fs.CopyTo(ms);

        //It seems (memory) streams have to be opened in write mode, "r" always returns <null>
        Tiff tiff = Tiff.ClientOpen("someArbitraryName", "w", ms, new TiffStream());

        FieldValue[] imageHeight = tif.GetField(TiffTag.IMAGELENGTH);
Run Code Online (Sandbox Code Playgroud)

直接打开文件进行读取Tiff.Open效果很好。

这是 LibTiff.Net 库中的错误还是我遗漏了什么?

.net c# tiff memorystream libtiff.net

3
推荐指数
1
解决办法
2792
查看次数