标签: dataset

DataTable 在 Parallel.ForEach 中引发异常

当我使用DataTablewith时Parallel.ForEach,我得到:

指数超出范围。必须为非负数且小于集合的大小。

请帮我解决它。

static void Main(string[] args)
{
    DataTable dt = CreateTable();
    dt.Columns.Add("C");
    //Parallel.ForEach(Partitioner.Create(0, dt.Rows.Count), range =>
    //{
    //    for (int j = range.Item1; j < range.Item2; j++)
    //    {
    //         dt.Rows[j]["C"] = dt.Rows[j]["A"] + "-" + dt.Rows[j]["B"];
    //    }
    //});

    Parallel.ForEach(dt.AsEnumerable(), row =>
    {
        row["C"] = row["A"] + "-" + row["B"];                
    });
}

private static DataTable CreateTable()
{
    DataTable dataTable = new DataTable();
    dataTable.Columns.Add("A");
    dataTable.Columns.Add("B");
    for (int i = 0; i < 100000; i++)
    { …
Run Code Online (Sandbox Code Playgroud)

c# dataset task-parallel-library

1
推荐指数
1
解决办法
948
查看次数

JSON 格式的公共数据集

在哪里可以找到 Json 格式的公共数据集?我正在寻找 10-20GB 范围内的一款。目前我得到的大数据集是 XML 格式

json public dataset bigdata

1
推荐指数
1
解决办法
2976
查看次数

如何读取 pandas 上的下载 sql 查询

我应该探索下载的数据集,我没有 sql 凭据,我正在使用 jupyter lab,并且 sql 文件与 jupyter 笔记本位于同一文件夹中。

import pandas as pd
pd.read_sql_table('DATA_SPPT.sql')
Run Code Online (Sandbox Code Playgroud)

错误信息

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-3-4a4c42554a20> in <module>()
----> 1 pd.read_sql_table('DATA_SPPT_OP_BERSAMA.sql')

TypeError: read_sql_table() missing 1 required positional argument: 'con'
Run Code Online (Sandbox Code Playgroud)

这是sql格式的下载,所以我想我不需要描述连接,那么我该怎么办?

python sql database dataset pandas

1
推荐指数
1
解决办法
4567
查看次数

如何在 Visual Basic 中使用数据集 TableAdapter 查询和选择记录

更新:

所以我能够取得一些进展,我让这段代码可以工作......我在评估 FOUND 条件时遇到了困难,所以将它包装在 For 循环中,你们都觉得怎么样?

Dim ControlRow = NewBenefitsDataSet.Tables("FO_HealthcateHighways_Control").Select("NGID = 'HCHRXMEDTIP'")

    For Each Row As DataRow In ControlRow
        Do
            'Check if Already Processed, if so skip to next record
            If Row("NGID") = "HCHRXMEDTIP" Then
                MessageBox.Show("FOUND: " + Row("NGID"))
                Exit Do
            Else
                MessageBox.Show("GROUP NOT FOUND: " + Row("NGID"))
                Return False
            End If
        Loop
    Next
Run Code Online (Sandbox Code Playgroud)

首先,我喜欢这个社区,并且在从 Visual Foxpro 过渡到 VB 的过程中,我一直在努力尝试获得正确的语法。无论我进行多少搜索,我都会看到十几种不同的变体和示例,但发现很难找到适合我正在做的事情的神奇组合。

非常简单,我的数据集和适配器已经在我的 Form.XSD 中设置,并在我的 Code.VB 中设置,我想查询记录,但不确定如何正确编码......

我在这里做错了什么?再次提前致谢。

    Dim dtControl As NewBenefitsDataSet.FO_HealthcateHighways_ControlDataTable
    Dim drControl As NewBenefitsDataSet.FO_HealthcateHighways_ControlRow
    Dim daControlTableAdapter As New NewBenefitsDataSetTableAdapters.FO_HealthcateHighways_ControlTableAdapter

    'Fill …
Run Code Online (Sandbox Code Playgroud)

vb.net select dataset

1
推荐指数
1
解决办法
1万
查看次数

如何将自定义数据集加载到 keras 而不是 cifar10 中?

我正在研究 python 中的神经网络和图像识别并遵循本指南。他们使用:from keras.datasets import cifar10获取用于测试的图像。所以我的问题是:

  • 如何使用我自己的本地图像导入自定义数据集?
  • 我将如何构建文件以使其正确加载?

提前致谢!

python dataset keras tensorflow tf.keras

1
推荐指数
1
解决办法
5398
查看次数

如何从 SQLite 数据库读取所有表并将其存储为 R 中的数据集/变量?

我有一个包含许多表的大型 SQLite 数据库。我已使用 RSQLite 和 DBI 包在 RStudio 中建立了与此数据库的连接。(我已命名该数据库db

library(RSQLite)
library(DBI)
Run Code Online (Sandbox Code Playgroud)

目前我必须读入所有表并手动为它们分配名称。例如:

country <- dbReadTable(db, "country")
date <- dbReadTable(db, "date")
#...and so on
Run Code Online (Sandbox Code Playgroud)

您会发现,如果您有很多表,这可能是一个非常耗时的过程。

所以我想知道是否可以创建一个新函数或使用现有函数(例如lapply()?)来更有效地完成此操作并从本质上加快此过程?

非常感谢任何建议:)

sql database sqlite r dataset

1
推荐指数
1
解决办法
1442
查看次数

系列描述函数 pandas 绘图

我有问题想问你。哪个图最适合显示系列熊猫中的描述结果

filter = genderage['Customer_Gender'] == "F"
genderage[filter]
genderage[filter].describe()

    Customer_Age
count   54724.000000
mean    36.168993
std 10.910622
min 17.000000
25% 28.000000
50% 35.000000
75% 43.000000
max 87.000000
Run Code Online (Sandbox Code Playgroud)

python statistics plot dataset pandas

1
推荐指数
1
解决办法
2302
查看次数

为 YOLOv3 分割基于图像的数据集

我有一个关于分割 20k 图像及其标签的数据集的问题,该数据集的格式有YOLOv3一个图像文件和一个.txt与图像同名的文件,文本文件内部有标签。

我想将数据集分割成训练/测试分割,有没有办法随机选择图像及其标签 .txt 文件并将其存储在单独的文件夹中Python

我希望能够随机分割数据集。例如,也选择 16k 文件和标签文件,并将它们单独存储在 train 文件夹中,其余 4k 应存储在 test 文件夹中。

这可以在文件资源管理器中手动完成,方法是选择前 16k 个文件并将它们移动到不同的文件夹,但分割不会是随机的,因为我计划对同一数据集一遍又一遍地执行此操作。

这是数据的 图像和标签屏幕截图

python dataset conv-neural-network yolo

1
推荐指数
1
解决办法
2148
查看次数

如何在 PySpark 中仅将数据集的第一个字母大写?(简单大写/句子大小写)

我需要清理几个字段:物种/描述通常是简单的大写,其中第一个字母大写。PySpark 只有 upper、lower 和 initcap(每个单词都大写),这不是我想要的。https://spark.apache.org/docs/2.0.1/api/python/_modules/pyspark/sql/functions.html

Python 有一个原生的 Capitalize() 函数,我一直在尝试使用它,但总是收到对列的错误调用。

fields_to_cap = ['species', 'description']

for col_name in fields_to_cap:
    df = df.withColumn(col_name, df[col_name].captilize())
Run Code Online (Sandbox Code Playgroud)

有没有办法轻松地利用这些字段?

需要明确的是,我正在尝试将字段中的数据大写。这是一个例子:

当前:“这是一个描述。”

预期:“这是一个描述。”

python field dataset capitalize pyspark

1
推荐指数
2
解决办法
1万
查看次数

C#,读取类似 XML 的模式并将其写入类似的数据格式

我有这个数据集,其结构与 XML 数据类似,只是它不使用 <> 或 </> 来分隔数据,而是使用 ()、制表符和换行符。但数据的工作方式相同,有模式定义和子/父节点。

C# 中是否有一种方法可以使用类似于 XPathSelectElements() 的方法来读取/写入此数据?

这是我需要解析的数据示例:

WARNING: Do Not Modify This File!
Check 24.1.6 Data File
CONTROL 1 (
  code = CEZ_90_1_2016
  compliance mode = UA
  version = 24.1.6 )
LOCATION 1 (
  state = Texas
  city =  USA )
BUILDING 1 (
  project type = NEW_CONSTRUCTION
  bldg use type = WHOLE_BLDG
  feet bldg height = 0.000
  number of stories = 1
  is nonresidential conditioning = TRUE
  is residential conditioning = FALSE
  is …
Run Code Online (Sandbox Code Playgroud)

c# xml format schema dataset

1
推荐指数
2
解决办法
194
查看次数