标签: dataset

DataTable 在 Parallel.ForEach 中引发异常

当我使用DataTablewith时Parallel.ForEach，我得到：

指数超出范围。必须为非负数且小于集合的大小。

请帮我解决它。

static void Main(string[] args)
{
    DataTable dt = CreateTable();
    dt.Columns.Add("C");
    //Parallel.ForEach(Partitioner.Create(0, dt.Rows.Count), range =>
    //{
    //    for (int j = range.Item1; j < range.Item2; j++)
    //    {
    //         dt.Rows[j]["C"] = dt.Rows[j]["A"] + "-" + dt.Rows[j]["B"];
    //    }
    //});

    Parallel.ForEach(dt.AsEnumerable(), row =>
    {
        row["C"] = row["A"] + "-" + row["B"];                
    });
}

private static DataTable CreateTable()
{
    DataTable dataTable = new DataTable();
    dataTable.Columns.Add("A");
    dataTable.Columns.Add("B");
    for (int i = 0; i < 100000; i++)
    { …

Run Code Online (Sandbox Code Playgroud)

c# dataset task-parallel-library

作者

2014 02-28

1
推荐指数

1
解决办法

948
查看次数

JSON 格式的公共数据集

在哪里可以找到 Json 格式的公共数据集？我正在寻找 10-20GB 范围内的一款。目前我得到的大数据集是 XML 格式

json public dataset bigdata

use*_*025

2016 01-17

1
推荐指数

1
解决办法

2976
查看次数

如何读取 pandas 上的下载 sql 查询

我应该探索下载的数据集，我没有 sql 凭据，我正在使用 jupyter lab，并且 sql 文件与 jupyter 笔记本位于同一文件夹中。

import pandas as pd
pd.read_sql_table('DATA_SPPT.sql')

Run Code Online (Sandbox Code Playgroud)

错误信息

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-3-4a4c42554a20> in <module>()
----> 1 pd.read_sql_table('DATA_SPPT_OP_BERSAMA.sql')

TypeError: read_sql_table() missing 1 required positional argument: 'con'

Run Code Online (Sandbox Code Playgroud)

这是sql格式的下载，所以我想我不需要描述连接，那么我该怎么办？

python sql database dataset pandas

Nab*_*zir

lucky-day

1
推荐指数

1
解决办法

4567
查看次数

如何在 Visual Basic 中使用数据集 TableAdapter 查询和选择记录

更新：

所以我能够取得一些进展，我让这段代码可以工作......我在评估 FOUND 条件时遇到了困难，所以将它包装在 For 循环中，你们都觉得怎么样？

Dim ControlRow = NewBenefitsDataSet.Tables("FO_HealthcateHighways_Control").Select("NGID = 'HCHRXMEDTIP'")

    For Each Row As DataRow In ControlRow
        Do
            'Check if Already Processed, if so skip to next record
            If Row("NGID") = "HCHRXMEDTIP" Then
                MessageBox.Show("FOUND: " + Row("NGID"))
                Exit Do
            Else
                MessageBox.Show("GROUP NOT FOUND: " + Row("NGID"))
                Return False
            End If
        Loop
    Next

Run Code Online (Sandbox Code Playgroud)

首先，我喜欢这个社区，并且在从 Visual Foxpro 过渡到 VB 的过程中，我一直在努力尝试获得正确的语法。无论我进行多少搜索，我都会看到十几种不同的变体和示例，但发现很难找到适合我正在做的事情的神奇组合。

非常简单，我的数据集和适配器已经在我的 Form.XSD 中设置，并在我的 Code.VB 中设置，我想查询记录，但不确定如何正确编码......

我在这里做错了什么？再次提前致谢。

    Dim dtControl As NewBenefitsDataSet.FO_HealthcateHighways_ControlDataTable
    Dim drControl As NewBenefitsDataSet.FO_HealthcateHighways_ControlRow
    Dim daControlTableAdapter As New NewBenefitsDataSetTableAdapters.FO_HealthcateHighways_ControlTableAdapter

    'Fill …

Run Code Online (Sandbox Code Playgroud)

vb.net select dataset

Jef*_*rke

2020 01-25

1
推荐指数

1
解决办法

1万
查看次数

如何将自定义数据集加载到 keras 而不是 cifar10 中？

我正在研究 python 中的神经网络和图像识别并遵循本指南。他们使用：from keras.datasets import cifar10获取用于测试的图像。所以我的问题是：

如何使用我自己的本地图像导入自定义数据集？
我将如何构建文件以使其正确加载？

提前致谢！

python dataset keras tensorflow tf.keras

作者

2021 12-03

1
推荐指数

1
解决办法

5398
查看次数

如何从 SQLite 数据库读取所有表并将其存储为 R 中的数据集/变量？

我有一个包含许多表的大型 SQLite 数据库。我已使用 RSQLite 和 DBI 包在 RStudio 中建立了与此数据库的连接。（我已命名该数据库db）

library(RSQLite)
library(DBI)

Run Code Online (Sandbox Code Playgroud)

目前我必须读入所有表并手动为它们分配名称。例如：

country <- dbReadTable(db, "country")
date <- dbReadTable(db, "date")
#...and so on

Run Code Online (Sandbox Code Playgroud)

您会发现，如果您有很多表，这可能是一个非常耗时的过程。

所以我想知道是否可以创建一个新函数或使用现有函数（例如lapply()？）来更有效地完成此操作并从本质上加快此过程？

非常感谢任何建议:)

sql database sqlite r dataset

kiw*_*iwi

lucky-day

1
推荐指数

1
解决办法

1442
查看次数

系列描述函数 pandas 绘图

我有问题想问你。哪个图最适合显示系列熊猫中的描述结果

filter = genderage['Customer_Gender'] == "F"
genderage[filter]
genderage[filter].describe()

    Customer_Age
count   54724.000000
mean    36.168993
std 10.910622
min 17.000000
25% 28.000000
50% 35.000000
75% 43.000000
max 87.000000

Run Code Online (Sandbox Code Playgroud)

python statistics plot dataset pandas

Prz*_*bek

2021 01-09

1
推荐指数

1
解决办法

2302
查看次数

为 YOLOv3 分割基于图像的数据集

我有一个关于分割 20k 图像及其标签的数据集的问题，该数据集的格式有YOLOv3一个图像文件和一个.txt与图像同名的文件，文本文件内部有标签。

我想将数据集分割成训练/测试分割，有没有办法随机选择图像及其标签 .txt 文件并将其存储在单独的文件夹中Python？

我希望能够随机分割数据集。例如，也选择 16k 文件和标签文件，并将它们单独存储在 train 文件夹中，其余 4k 应存储在 test 文件夹中。

这可以在文件资源管理器中手动完成，方法是选择前 16k 个文件并将它们移动到不同的文件夹，但分割不会是随机的，因为我计划对同一数据集一遍又一遍地执行此操作。

这是数据的图像和标签屏幕截图

python dataset conv-neural-network yolo

Mua*_*hid

2021 02-17

1
推荐指数

1
解决办法

2148
查看次数

如何在 PySpark 中仅将数据集的第一个字母大写？（简单大写/句子大小写）

我需要清理几个字段：物种/描述通常是简单的大写，其中第一个字母大写。PySpark 只有 upper、lower 和 initcap（每个单词都大写），这不是我想要的。https://spark.apache.org/docs/2.0.1/api/python/_modules/pyspark/sql/functions.html

Python 有一个原生的 Capitalize() 函数，我一直在尝试使用它，但总是收到对列的错误调用。

fields_to_cap = ['species', 'description']

for col_name in fields_to_cap:
    df = df.withColumn(col_name, df[col_name].captilize())

Run Code Online (Sandbox Code Playgroud)

有没有办法轻松地利用这些字段？

需要明确的是，我正在尝试将字段中的数据大写。这是一个例子：

当前：“这是一个描述。”

预期：“这是一个描述。”

python field dataset capitalize pyspark

Ano*_*ous

lucky-day

1
推荐指数

2
解决办法

1万
查看次数

C#，读取类似 XML 的模式并将其写入类似的数据格式

我有这个数据集，其结构与 XML 数据类似，只是它不使用 <> 或 </> 来分隔数据，而是使用 ()、制表符和换行符。但数据的工作方式相同，有模式定义和子/父节点。

C# 中是否有一种方法可以使用类似于 XPathSelectElements() 的方法来读取/写入此数据？

这是我需要解析的数据示例：

WARNING: Do Not Modify This File!
Check 24.1.6 Data File
CONTROL 1 (
  code = CEZ_90_1_2016
  compliance mode = UA
  version = 24.1.6 )
LOCATION 1 (
  state = Texas
  city =  USA )
BUILDING 1 (
  project type = NEW_CONSTRUCTION
  bldg use type = WHOLE_BLDG
  feet bldg height = 0.000
  number of stories = 1
  is nonresidential conditioning = TRUE
  is residential conditioning = FALSE
  is …

Run Code Online (Sandbox Code Playgroud)

c# xml format schema dataset

wee*_*hee

2022 07-21

1
推荐指数

2
解决办法

194
查看次数