问题列表 - 第18747页 | 那些遇到过的问题

获得大量(但不是全部)维基百科页面

对于我的NLP项目,我想从维基百科随机下载大量页面(比如10000).没有下载整个XML转储,这是我能想到的:

打开维基百科页面
以广度优先搜索方式解析链接的HTML并打开每个页面
在2中获得的页面上递归打开链接

在第2步和第3步中,如果我达到了我想要的页数,我将退出.

你会怎么做？请提出您能想到的更好的想法.

答案:这是我的Python代码:

# Get 10000 random pages from Wikipedia.
import urllib2
import os
import shutil
#Make the directory to store the HTML pages.
print "Deleting the old randompages directory"
shutil.rmtree('randompages')

print "Created the directory for storing the pages"
os.mkdir('randompages')

num_page = raw_input('Number of pages to retrieve:: ')

for i in range(0, int(num_page)):
    opener = urllib2.build_opener()
    opener.addheaders = [('User-agent', 'Mozilla/5.0')]
    infile = opener.open('http://en.wikipedia.org/wiki/Special:Random')

    page = infile.read()

    # Write it to a file.
    # TODO: …

Run Code Online (Sandbox Code Playgroud)

python algorithm wikipedia

作者

2010 01-15

4
推荐指数

2
解决办法

2219
查看次数

在DAL层中使用appsettings

我有一个winforms应用程序,其中一些数据存储在XML文件中.应存储这些XML文件的位置可由用户配置,并存储在AppSettings中.我的所有图层都是单独的组件.我可以从我的DAL程序集中访问我的设置,还是应该将其作为参数传递到我的所有图层？

当我尝试从DAL层读取设置时,我遇到了另一个问题

        Configuration config = ConfigurationManager.OpenExeConfiguration(
            System.Reflection.Assembly.GetEntryAssembly().Location);
        string dataStorageLocation = config.AppSettings["DataStorageLocation"];

Run Code Online (Sandbox Code Playgroud)

config.AppSettings ["DataStorageLocation"]给出编译错误:System.Configuration.ConfigurationElement.this [System.Configuration.ConfigurationProperty]由于其保护级别而无法访问.这是为什么？

有人能让我走上正轨吗？谢谢.

c# appsettings winforms

Pet*_*ter

lucky-day

5
推荐指数

1
解决办法

6062
查看次数

更快地按名称或类型进行比较？

执行对象比较时,按名称(字符串)或类型(指针)进行比较是否更快？

见下文:

if(sender is DataGridView) { .. }

Run Code Online (Sandbox Code Playgroud)

要么

if(sender.GetType().ToString() == "System.Forms.DataGridView") { .. }

Run Code Online (Sandbox Code Playgroud)

注:我可能没有语法完全正确的...这是一个C#示例,但在这里评论的答案在一个我的问题让我想一想.

c# c++-cli

作者

2017 05-23

2
推荐指数

1
解决办法

452
查看次数

使用Python创建FTP客户端

自从我开始使用互联网以来,我一直在考虑创建自己的ftp客户端.现在我正在学习Python,我正在考虑创建一个作为练习/个人项目.

我在想,

你们建议哪些图书馆？会ftplib满足吗？或者你会建议另一个图书馆(最好是一个有良好文档的图书馆)？
我正在考虑使用wxPython.这是个好主意吗？我应该先学习吗？
我来自Web开发背景.你们会给我什么提示/建议？

我很感激任何指导/帮助.提前致谢!:)

python ftp

aju*_*shi

2011 08-29

4
推荐指数

2
解决办法

7389
查看次数

而(1)在构造函数中还是使用线程？

是否建议使用while循环,它永远不会在构造函数中结束？或者我应该使用线程来获得相同的结果？构造函数永远不会终止时好吗？或者避免分段错误更安全吗？

希望你能理解我糟糕的英语..

c++ oop loops infinite-loop while-loop

作者

2014 02-08

2
推荐指数

2
解决办法

1331
查看次数

const char*连接

我需要连接两个这样的const字符:

const char *one = "Hello ";
const char *two = "World";

Run Code Online (Sandbox Code Playgroud)

我该怎么做呢？

我char*从带有C接口的第三方库中传递了这些,所以我不能简单地使用它std::string.

c c++ string-concatenation

Ant*_*ell

2010 01-04

108
推荐指数

9
解决办法

20万
查看次数

为什么我不能在Visual Studio之外运行我的OpenGL程序？

我有一个使用GLSL的OpenGL程序,我可以使用Visual Studio(2008)中的Play按钮运行 - 在标准的Release和Debug配置中都可以.

但是,当我尝试从资源管理器中运行可执行文件时,我得到的只是一个闪烁的cmd提示符,其中没有文本表示任何类型的加载失败.

我已经尝试将所需的DLL文件(glut32.dll,glew.dll等)复制到可执行文件所在的同一文件夹中,但这并没有什么区别.我也尝试将GLSL文件复制到同一个文件夹,但这也无济于事.

我需要做什么,让程序在没有Visual Studio的情况下运行？

c++ opengl crash glsl visual-studio

jum*_*oel

lucky-day

1
推荐指数

1
解决办法

615
查看次数

Hibernate Criteria使用FetchType.EAGER多次返回子项

我有Order一个列表的类,OrderTransactions我用一对多的Hibernate映射映射它,如下所示:

@OneToMany(targetEntity = OrderTransaction.class, cascade = CascadeType.ALL)
public List<OrderTransaction> getOrderTransactions() {
    return orderTransactions;
}

Run Code Online (Sandbox Code Playgroud)

这些Order还有一个字段orderStatus,用于使用以下条件进行过滤:

public List<Order> getOrderForProduct(OrderFilter orderFilter) {
    Criteria criteria = getHibernateSession()
            .createCriteria(Order.class)
            .add(Restrictions.in("orderStatus", orderFilter.getStatusesToShow()));
    return criteria.list();
}

Run Code Online (Sandbox Code Playgroud)

这有效,结果如预期.

现在这里是我的问题:为什么,当我明确地设置fetch类型时EAGER,Orders会在结果列表中多次出现？

@OneToMany(targetEntity = OrderTransaction.class, fetch = FetchType.EAGER, cascade = CascadeType.ALL)
public List<OrderTransaction> getOrderTransactions() {
    return orderTransactions;
}

Run Code Online (Sandbox Code Playgroud)

如何更改我的Criteria代码以使用新设置达到相同的结果？

java hibernate

rao*_*son

2016 12-12

113
推荐指数

4
解决办法

7万
查看次数

任何人都可以解释SQL Server 2005表的大小

我正在使用SQL Server 2005并有一个表:

int Code1,
int Code2, 
real Val1,
real Val2,
real Val3,

Run Code Online (Sandbox Code Playgroud)

Code1和Code2充当主键,是聚集索引的一部分(只有一个索引).每个参数占用4个字节(每行占用20个字节).

表中有2450万条记录,填充因子为100%,索引占2MB,页面大小为4k.

假设每个页面都填充了尽可能多的记录,那么每个页面应该包含204条记录,这些记录是4080字节(%99.6页填充)

所以,我希望磁盘上占用的磁盘大小约为500MB(20字节*24.5 M记录),但事实是该表占用773MB.

我尝试缩小和重新索引,但表格大小没有变化.

我不是SQL专家,有人可以帮忙吗？

sql sql-server sql-server-2005

Gil*_*lad

2010 01-03

4
推荐指数

1
解决办法

2342
查看次数

Python执行

python脚本是否可以在低运行级别执行？

编辑:为了澄清,python脚本是否有可能在后台运行,有点像守护进程.

python runlevel

pub*_*pub

2010 01-04

1
推荐指数

1
解决办法

510
查看次数

标签统计

c++ ×3

python ×3

c# ×2

algorithm ×1

appsettings ×1

c ×1

c++-cli ×1

crash ×1

ftp ×1

glsl ×1

hibernate ×1

infinite-loop ×1

java ×1

loops ×1

oop ×1

opengl ×1

runlevel ×1

sql ×1

sql-server ×1

sql-server-2005 ×1

string-concatenation ×1

visual-studio ×1

while-loop ×1

wikipedia ×1

winforms ×1

问题列表 - 第18747页

标签 统计

标签统计