小编Tur*_*uro的帖子

使用 Parquet 存储多个不同宽度的数据帧？

Parquet 是否支持在单个文件中存储不同宽度（列数）的各种数据框？例如，在 HDF5 中，可以存储多个此类数据帧并通过密钥访问它们。到目前为止，从我的阅读来看，Parquet 不支持它，因此替代方法是将多个 Parquet 文件存储到文件系统中。我有相当多（比如 10000 个）相对较小的帧 ~1-5MB 需要处理，所以我不确定这是否会成为一个问题？

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq

dfs = []
df1 = pd.DataFrame(data={"A": [1, 2, 3], "B": [4, 5, 6]},
                   columns=["A", "B"])
df2 = pd.DataFrame(data={"X": [1, 2], "Y": [3, 4], "Z": [5, 6]},
                   columns=["X", "Y", "Z"])
dfs.append(df1)
dfs.append(df2)

for i in range(2):
    table1 = pa.Table.from_pandas(dfs[i])
    pq.write_table(table1, "my_parq_" + str(i) + ".parquet")

Run Code Online (Sandbox Code Playgroud)

python pandas apache-spark parquet

Tur*_*uro

2018 05-22

7
推荐指数

1
解决办法

1934
查看次数

检查用于请求Python/Scrapy + ProxyMesh的IP地址

我开始在Scrapy中使用ProxyMesh.ProxyMesh应该在一个端口上提供IP地址池.下面的示例代码代码在循环中重复,中间件启用,总体而言这很好.我可以跟踪(如果是这样 - 如何？)每个特定请求使用哪个IP地址？

request = scrapy.Request(producturl, self.parse_product_info)
request.meta['proxy'] = 'http://uk.proxymesh.com:xxx'
yield request

Run Code Online (Sandbox Code Playgroud)

我在SOF上发现了类似的帖子,但没有解决这个具体问题.

python proxy request scrapy web-scraping

Tur*_*uro

2015 10-25

6
推荐指数

1
解决办法

3335
查看次数

Scrapy - 当项目字段之一未返回时处理异常

我正在尝试解析 Scrapy 项目，其中每个项目都有几个字段。碰巧由于网站上的信息不完整，某些字段无法正确捕获。如果只有一个字段无法返回，则提取项目的整个操作会因异常而中断（例如，对于下面的代码，我得到“Attribute:None can be split”）。然后解析器移动到下一个请求，而不捕获其他可用字段。

item['prodcode'] = response.xpath('//head/title').re_first(r'.....').split(" ")[1]
#throws: Attribute:None cannot be split . Does not parse other fields.

Run Code Online (Sandbox Code Playgroud)

Scrapy 处理此类异常的方法是什么？我想从所有可用字段中检索信息，而不可用字段返回空白或 N/A。我可以尝试...除了...在每个项目字段上，但这似乎不是最佳解决方案。文档提到了异常处理，但不知何故我找不到这种情况的方法。

python exception-handling scrapy web-scraping

Tur*_*uro

2015 10-26

4
推荐指数

1
解决办法

1624
查看次数

来自Scanner的Java输入日期在一行中

我正在尝试从用户读取日期以传递给GregorianCalendar变量.目前我有一个尴尬的设置,它逐行读取.你能帮助一个收集输入的解决方案吗？我发现了SimpleDateFormat类,但我找不到适合这个特定目的的类.

    Scanner time = new Scanner(System.in)

    System.out.println("Type year: ");int y =time.nextInt();
    System.out.println("Type month: ");int m =time.nextInt();
    System.out.println("Type day: ");int d = time.nextInt();
    System.out.println("Type hour: ");int h = time.nextInt();
    System.out.println("Type minute: ");int mm = time.nextInt();

    GregorianCalendar data = new GregorianCalendar(y,m,d,h,mm);

Run Code Online (Sandbox Code Playgroud)

java gregorian-calendar java.util.scanner

Tur*_*uro

2015 02-08

3
推荐指数

1
解决办法

2万
查看次数

选择新T()和在LINQ中选择新T之间是否存在差异

我今天一直在用LINQ和DataTable进行实验.

var query = from row1 in table1.AsEnumerable()
            from row2 in table2.AsEnumerable()
            where
            (row1.Field<string>("a") == row2.Field<string>("b"))

            select new Foo
               {
                   Property1 = row1.Field<string>("Hey")
                   Property2 = row2.Field<string>("Ho")
               };

Run Code Online (Sandbox Code Playgroud)

并得出奇怪的结论,无论我做什么select new Foo或select new Foo()查询工作完全相同.我真的希望与代表等进一步深入了解linq机制,以便清楚地理解这一点 - 但就目前而言,对于一个简单的人来说 - 是否存在差异,如果是这样,那会是什么？

编辑问题在SOF上已有一些类似的答案,但"对象初始化程序"并不是最重要的.它也非常具体地针对LINQ,其中90%的网络提示操作匿名类型(不知道为什么,我发现使用具体类型的一些好处,特别是Intellisense).如果任何材料确实在LINQ中指定具体类型实现示例,我只能找到new Foo没有括号.使用LINQ构建尤其适合初学者,可能很难找到那里初始化的内容(对象,委托,谓词等 - 至少对我来说是这样)所以希望至少有些人会发现问题和响应很有用.

c# linq datatable

Tur*_*uro

2015 12-31

3
推荐指数

2
解决办法

174
查看次数

Moq - 模拟工厂不会在每次迭代时生成新对象

我正在尝试moq并测试以下方法:

public List<SkuCountByRetailerVm> GetSkuCountsByRetailer()
{
    var viewModels = _factory.GetEmptyListOfSkuCountByRetailerVms();
    foreach (var retailer in _helper.GetAllRetailersInReading())
    {
        var vm = _factory.GetSkuCountsByRetailerVm();
        vm.Retailer = retailer;
        vm.SkuCount = _helper.GetSkuCountByRetailerInReading(retailer);
        viewModels.Add(vm);
    }
    return viewModels;
}

Run Code Online (Sandbox Code Playgroud)

SkuCountByRetailerVm类是非常基本的数据传输对象,它具有Retailer和SkuCount属性.

被测试的类取决于IFactory和IHelper,我在测试类中都在嘲笑它们.

看起来被测试的类的代码很好.模拟时的问题是我将3个相同的视图模型添加到列表中(所有类似于我希望作为最后一个添加的视图模型),而不是3个不同的视图模型.我认为我测试的问题是我设置工厂的moq的方式 mockFactory.Setup(m => m.GetSkuCountsByRetailerVm()).Returns(new SkuCountByRetailerVm());vm只指向同一个对象,所以我宁愿每次都要实例化一个新的vm？不确定这是否是正确的结论,如果是这样,如何以不同的方式与Moq.

如果需要,我会在下面粘贴测试类.

[TestInitialize]
public void Setup()
{
    Mock<IReadingHelper> mockHelper = new Mock<IReadingHelper>();
    Mock<IVmFactory> mockFactory = new Mock<IVmFactory>();
    mockFactory.Setup(m => m.GetEmptyListOfSkuCountByRetailerVms()).Returns(new List<SkuCountByRetailerVm>());

    mockFactory.Setup(m => m.GetSkuCountsByRetailerVm()).Returns(new SkuCountByRetailerVm());

    mockHelper.Setup(m => m.GetAllRetailersInReading()).Returns(
                new List<string> { "Fake1", "Fake2", "Fake3" });
    mockHelper.Setup(m => m.GetSkuCountByRetailerInReading("Fake1")).Returns(5);
    mockHelper.Setup(m => m.GetSkuCountByRetailerInReading("Fake2")).Returns(10);
    mockHelper.Setup(m => …

Run Code Online (Sandbox Code Playgroud)

c# unit-testing mstest moq

Tur*_*uro

2016 04-17

2
推荐指数

1
解决办法

2083
查看次数

从 SQL Server 检索列名称和类型到 DataTable C#

基于 SQL Server 中现有表构建空 DataTable 的最佳方法是什么？我当前的尝试是这个，它只是手动重新输入，所以它不是很好，特别是对于大型数据集。

private DataTable createEmptyReadingDataTableReadyToSaveToDb()
{
    dtbl.Columns.Add("ProductId", typeof(string));
    dtbl.Columns.Add("Price", typeof(float));
    dtbl.Columns.Add("Revenue", typeof(float));
    dtbl.Columns.Add("URL", typeof(string));
    //  etc ....
    return dtbl;
}

Run Code Online (Sandbox Code Playgroud)

我今天读到了有关模式的内容，这对于这项任务来说似乎很自然。这让我比我想象的更加困惑。无论如何，下面的这种方法返回一个数据表，返回有关数据集的广泛信息，但我没有找到访问器来获取有关有趣的数据表的信息（如下）。也许我做错了什么。

private static DataTable getReadingTableFromSchema()
{
    using (SqlConnection conn = new SqlConnection(ConfigurationManager.ConnectionStrings["LocalDbConnnectionString"].ConnectionString))
    {
        string sql = "SELECT * FROM [Readings]";
        conn.Open();
        SqlCommand cmd = new SqlCommand(sql, conn);
        SqlDataReader reader = cmd.ExecuteReader();
        DataTable dtbl = reader.GetSchemaTable();
        return dtbl;
    }
}

Run Code Online (Sandbox Code Playgroud)

我也可以尝试使用 DataAdapter 读取数据，然后填充数据（基本上是复制 DataTable），然后删除所有行以使表为空的方法 - 但这肯定会影响性能。什么是正确的解决方案？

c# datatable ado.net

Tur*_*uro

2015 12-30

1
推荐指数

1
解决办法

4311
查看次数

new [] {string}语法是什么意思？

我正在学习一本ASP.NET MVC中有会员主题的书,我找到了语法,我无法追踪(并且未在书中解释),这是:

new[] {"string"}

Run Code Online (Sandbox Code Playgroud)

像:

Roles.AddUsersToRoles(new[] {userName}, new[] {roleName});

Run Code Online (Sandbox Code Playgroud)

每个MDSN库我看到Roles.AddUsersToRoles方法将两个字符串数组作为参数,所以这可能是一个简写,还是会有一些额外的功能？

.net c#

Tur*_*uro

2015 05-05

0
推荐指数

1
解决办法

115
查看次数

标签统计

c# ×4

python ×3

datatable ×2

scrapy ×2

web-scraping ×2

.net ×1

ado.net ×1

apache-spark ×1

exception-handling ×1

gregorian-calendar ×1

java ×1

java.util.scanner ×1

linq ×1

moq ×1

mstest ×1

pandas ×1

parquet ×1

proxy ×1

request ×1

unit-testing ×1

标签 统计

小编Tur_uro的帖子

标签统计