我有一个项目,我收集属于特定类别的所有维基百科文章,从维基百科中取出转储,并将其放入我们的数据库中.
所以我应该解析Wikipedia转储文件来完成这些工作.我们有一个有效的解析器来完成这项工作吗?我是一名python开发人员.所以我更喜欢python中的任何解析器.如果不建议一个,我将尝试在python中编写一个端口并将其贡献给Web,因此其他人可以使用它或者至少尝试一下.
所以我想要的是一个解析维基百科转储文件的python解析器.我开始编写一个手动解析器,它解析每个节点并完成所有工作.
假设我有两个大(文本)文件,据称它们是相同的,但我想确定一下。整个哈利波特系列的“成人”和“儿童”版本也许......
如果全文的字符串表示太大而无法立即保存在内存中,那么是否会更快:
或者
换句话说,比较两个小哈希值的便利性是否会被生成所述哈希值所花费的时间所抵消?
我期待一些“这取决于”的答案,所以如果你想要一些假设:
我是ASP.NET的新手,我正在创建一个通过ODBC从数据库获取数据的WebSite.
我在Web.Config中有连接字符串,我不喜欢它.如果有人获得Web.Config,他们可以访问数据库.
是否可以加密这些数据?
我目前正在写一个网站,我需要一些关于facebook集成的帮助.我需要一个函数(PHP或JS,两者都有帮助),可以检查给定用户是否共享我的网站,而我无法找到如何编写一个.你能指点我正确的方向吗?
有谁知道一个库(最好用C#.NET编写)来抓取VBulletin页面并为我获取主要信息?需要支持登录和搜索。
如果您不了解C#,也许是另一种语言,那么我可以将其转换为C#。
谢谢。
我有一个我在Eclipse的Mule IDE上开发(并检查过)的mule应用程序,其中一个组件是使用外部Microsoft JDBC SQL Server Driver类.一切都在Eclipse服务器上运行得很好但是当我尝试从命令行(Mule独立服务器/服务)部署和运行应用程序时 - 我classnotfound对同一个Microsoft JDBC驱动程序有一个例外.
如何在部署程序中包含该驱动程序,以便我可以在没有Eclipse的情况下运行?
我认为通过将外部jar添加到Eclipse项目,它会将该类加载到Mule部署(app)目录中.但是我错了.
关于这个还能做什么?
我设计了一个数据库来使用GUID作为数据库,UserID但是我将它UserId作为外键添加到许多其他表中,并且由于我打算有大量的数据库输入,因此必须对此进行精心设计。
我还使用ASP成员资格表(不仅概要分析成员资格,用户和角色)。
因此,目前我在每张其他表中都使用GUID作为PK和FK,这可能是错误的设计吗?我认为这可能更好,并且是我问题的出处,是否应该在Users表中添加UserId(int)主键,并将此字段用作其他表的外键,并且用户GUID UserId仅供参考aspnet_membership?
aspnet_membership{UserID(uniqueIdentifier)}
Users{
UserID_FK(uniqueIdentifier) // FK to aspnet_membership table
UserID(int) // primary key in this table --> Should I add this
...
}
In other tables user can create items in tables and I always must add UserId for example:
TableA{TableA_PK(int)..., CreatedBy(uniqueIdentifier)}
TableB{TableB_PK(int)..., CreatedBy(uniqueIdentifier)}
TableC{TableC_PK(int)..., CreatedBy(uniqueIdentifier)}
...
Run Code Online (Sandbox Code Playgroud) 我通常必须查询一个非常大的表,查找每个变量有多个条件的多个变量.通常,需要在多个范围内查询变量.例如,我可能需要VAR_1的所有记录,其中VAR_1在200-300,350-400,450-500之间.
通常我会写如下,但有人告诉我使用IN()而不是多个OR会更有效率.
SELECT * FROM table
WHERE VAR_1 BETWEEN '200' AND '300' OR
VAR_1 BETWEEN '350' AND '400' OR
VAR_1 BETWEEN '450' AND '500'
Run Code Online (Sandbox Code Playgroud)
有没有办法压缩这些信息,并OR通过嵌套LIKE或BETWEEN条款摆脱s IN()?有点像:
WHERE VAR_1 IN (BETWEEN '200' AND '300', BETWEEN '350' AND '400', BETWEEN '450' AND '500')
要么
WHERE VAR_1 IN ('[200-300]','[350-400]','[450-500]')
我尝试过这样的东西,但语法显然不正确.您可以指出我的任何想法或方向都很棒,对SQL来说仍然是新手.
我错过了不使用新的DateTime2数据类型的理由吗?
例如,迁移到另一个数据库系统或将其与其他技术集成时是否会导致问题?
我想知道何时以及为什么引用在C#中被破坏了?
以下代码示例突出显示了此:
StringBuilder a = null, b = null;
a = new StringBuilder("a");
b = a;
b.Append("b");
b = null;
Console.WriteLine(a != null? a.ToString() : "null");
Console.WriteLine(b != null ? b.ToString() : "null");
//Output:
ab
null
Run Code Online (Sandbox Code Playgroud)
为什么,在这个例子中,是b的参考a不会导致a要null呢?
c# ×3
.net ×1
.net-4.0 ×1
asp.net ×1
asp.net-4.0 ×1
between ×1
c#-4.0 ×1
database ×1
datetime2 ×1
esb ×1
facebook ×1
hash ×1
mule ×1
parsing ×1
performance ×1
python ×1
reference ×1
sql ×1
sql-server ×1
vbulletin ×1
web-config ×1
web-scraping ×1
wiki ×1
wikipedia ×1
xml ×1