问题列表 - 第10878页

创建伟大的解析器 - 从HTML /博客中提取相关文本

我正在尝试创建一个在Blog Posts上运行良好的通用HTML解析器.我想将我的解析器指向特定的entrie的URL并获取帖子本身的干净文本.我的基本方法(来自python)一直使用BeautifulSoup/Urllib2的组合,这没关系,但它假设你知道博客条目的正确标签.有没有人有更好的想法?

以下是一些可能有人可以扩展的想法,我没有足够的知识/技术诀窍尚未实现.

  1. unix程序'lynx'似乎特别好地解析了博客文章 - 他们使用了什么解析器,或者如何利用它?

  2. 是否有任何服务/解析器可以自动删除垃圾广告等?

  3. 在这种情况下,我有一个模糊的概念,即博客帖子通常包含在某个带有class ="entry"或类似内容的定义标签中,这可能是一个好的假设.因此,有可能创建一个算法,找到它们之间最干净的文本的封闭标签 - 对此有何想法?

谢谢!

html parsing text-parsing html-content-extraction

22
推荐指数
1
解决办法
5663
查看次数

Scrum:一个很好的方法,只适用于"全程冲刺"开发人员的团队?

我们是一家软件开发公司.我们已经介绍了Scrum.
问题是开发人员不能像许多其他公司那样花时间在Scrum sprint上.在SCRUM项目任务中,他们必须做很多没有开发的事情!
我读过:Scrum不允许兼职开发人员

那么,您对此有何体验?
Scrum是一个很好的方法,只适用于那些只花时间专注于SCRUM sprint的开发任务的开发人员吗?

谢谢你的时间

scrum

17
推荐指数
2
解决办法
3440
查看次数

解释Java一元运算符

请检查此代码:

int result = 0;
result = result++;
System.out.println("Result 1 = " + result);
result++;
System.out.println("Result 2 = " + result);
Run Code Online (Sandbox Code Playgroud)

我期待的输出是:

Result 1 = 1
Result 2 = 2
Run Code Online (Sandbox Code Playgroud)

但我得到了输出:

Result 1 = 0
Result 2 = 1
Run Code Online (Sandbox Code Playgroud)

问题在于Line2.有人能解释一元算子吗?

java

1
推荐指数
1
解决办法
2601
查看次数

Ruby On Rails和"外部类"

我有Ruby的RSS阅读器类,我想在rails中使用它,rss_reader.rb在哪里?要"libs/rss_reader.rb"?

我试过,然后在控制器中要求它,但我得到错误:'MissingSourceFile(没有这样的文件加载 - lib/RssReader)'

ruby rss ruby-on-rails

1
推荐指数
1
解决办法
1209
查看次数

部署Beta软件更新和Sparkle

我的应用程序使用Cocoa Framework Sparkle来部署更新.我通常不会部署我的软件的测试版,但对于我的下一次更新,我觉得我需要.我的问题是使用Sparkle部署beta的最佳编号策略是什么.对于测试我的测试版的任何人,当我发布下一个正式版时,我希望更新是无缝的,但对于其他用户,我希望整个系统完全不可见.我目前使用像1.2.3这样的编号系统来进行更新.

beta cocoa frameworks

12
推荐指数
3
解决办法
2047
查看次数

Django Forms模板设计类

Django Forms框架非常出色,只需通过以下方式呈现整个表单.

{{ form.as_p }}
Run Code Online (Sandbox Code Playgroud)

对于注册表单,它将上面转换为:

<p><label for="id_username">Username:</label> <input id="id_username" type="text" name="username" maxlength="30" /> Required. 30 characters or fewer. Alphanumeric characters only (letters, digits and underscores).</p>
<p><label for="id_email">Email:</label> <input type="text" name="email" id="id_email" /></p>
<p><label for="id_firstname">Firstname:</label> <input type="text" name="firstname" id="id_firstname" /></p>
<p><label for="id_lastname">Lastname:</label> <input type="text" name="lastname" id="id_lastname" /></p>
<p><label for="id_password1">Password:</label> <input type="password" name="password1" id="id_password1" /></p>
<p><label for="id_password2">Password confirmation:</label> <input type="password" name="password2" id="id_password2" /></p>
Run Code Online (Sandbox Code Playgroud)

但是为了设计我想在表单中为每个元素添加类,如下所示:

<p><label for="id_email" class="field-title">Email:</label> <input type="text" name="email" id="id_email" /></p>
<p><label for="id_firstname" class="field-title">Firstname:</label> <input type="text" name="firstname" id="id_firstname" /></p>
<p><label …
Run Code Online (Sandbox Code Playgroud)

css forms django templates

4
推荐指数
2
解决办法
5521
查看次数

我可以同时使用多个线程在Lucene.Net中使用相同的IndexSearcher实例吗?

我希望能够在Lucene.Net中同时搜索多个客户端和索引

有可能和线程安全吗?

可以跨线程共享同一个IndexSearcher实例吗?

lucene lucene.net

4
推荐指数
1
解决办法
1548
查看次数

如何将Git托管项目中的所有本地更改还原到以前的状态?

我有一个项目,我跑了git init.几次提交之后,我做了git status哪些告诉我一切都是最新的,并且没有本地更改.

然后我做了几个连续的更改,并意识到我想把所有东西扔掉,然后回到原来的状态.这个命令会为我做吗?

git reset --hard HEAD
Run Code Online (Sandbox Code Playgroud)

git revert git-checkout

1830
推荐指数
16
解决办法
138万
查看次数

如何在Ruby中形成"模糊日期"?

如何从RFC 2822格式化(星期六,2009年7月18日10:57:43 +0300)时间戳形成"模糊"日期/时间?

模糊日期我的意思是:"5分钟前","2天,15分钟前".

ruby datetime

3
推荐指数
1
解决办法
1598
查看次数

如何向mscorelib添加方法

我想为mscorlib添加一些方法.例如:

string abc;

abc.IsNumeric()

我希望可以解释我的问题.

c# mscorlib

1
推荐指数
1
解决办法
175
查看次数