标签: data-import

用于基于Web的数据导入和ETL的模块或工具？

我将在Web应用程序中添加一项功能,允许用户导入数据.我不想重新发明轮子,所以我正在寻找可以整合的任何模块来处理这个问题.

界面应类似于将文件导入Excel或Access以及ETL软件中常见的一些更复杂的映射和类型转换函数.

一般流程:

上传文件(CVS,Excel等)
预览文件中的数据 - 使用第一行作为列名,然后显示前N个记录,以便用户可以验证文件是否已正确解析
显示映射界面以选择源列与目标的匹配方式
处理导入并验证数据
提供导入失败的数据报告,并提供下载仅失败行的文件的选项

etl web-applications data-import

cop*_*360

lucky-day

5
推荐指数

1
解决办法

1444
查看次数

使用导入向导将数据库从 SQL server 2005 复制到 SQL server 2008 时出错

当我尝试复制数据库时出现以下错误，此时它已停止。

错误 0xc0047008：数据流任务 46：包包含两个对象，其名称为“输出列“错误代码”(720)”和“输出列“错误代码”(737)”。

警告 0x80019002：数据流任务 46：SSIS 警告代码 DTS_W_MAXIMUMERRORCOUNTREACHED。Execution 方法成功，但引发的错误数 (1) 达到了允许的最大值 (1)；导致失败。当错误数量达到 MaximumErrorCount 中指定的数量时，就会发生这种情况。更改 MaximumErrorCount 或修复错误。（SQL Server 导入和导出向导）

sql-server sql-server-2005 data-import sql-server-2008

Pin*_*inu

lucky-day

5
推荐指数

1
解决办法

2093
查看次数

如何在SOLR中编制.html文件索引

我想要做索引的文件存储在服务器上(我不需要抓取)./ path/to/files /示例HTML文件是

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<meta name="product_id" content="11"/>
<meta name="assetid" content="10001"/>
<meta name="title" content="title of the article"/>
<meta name="type" content="0xyzb"/>
<meta name="category" content="article category"/>
<meta name="first" content="details of the article"/>

<h4>title of the article</h4>
<p class="link"><a href="#link">How cite the Article</a></p>
<p class="list">
  <span class="listterm">Length: </span>13 to 15 feet<br>
  <span class="listterm">Height to Top of Head: </span>up to 18 feet<br>
  <span class="listterm">Weight: </span>1,200 to 4,300 pounds<br>
  <span class="listterm">Diet: </span>leaves and branches of trees<br>
  <span class="listterm">Number of Young: </span>1<br>
  <span class="listterm">Home: …

Run Code Online (Sandbox Code Playgroud)

solr data-import full-text-indexing dataimporthandler solr4

Ana*_*tri

lucky-day

5
推荐指数

2
解决办法

9952
查看次数

尝试将 NetCDF 导入 R 时出错

我正在努力在 R 中打开 NetCDF 文件。当我尝试使用以下命令打开它时

library(ncdf)
# read in NetCDF file
maize.nc<-open.ncdf("C:/Users/Jo/Desktop/pft_harvest_maize.nc")

Run Code Online (Sandbox Code Playgroud)

我收到以下错误消息：

 Error in R_nc_open: NetCDF: Unknown file format
 Error in open.ncdf("C:/Users/Jo/Desktop/pft_harvest_maize.nc") : 
   Error in open.ncdf trying to open file C:/Users/Jo/Desktop/pft_harvest_maize.nc

Run Code Online (Sandbox Code Playgroud)

奇怪的是，另一个带有径流数据的 NetCDF 文件来自完全相同的模拟，具有完全相同的数据类型，打开时没有任何问题。

文件大小的差异是径流：56.1 MB（58,870,472 字节）和收获：149 MB（156,968,508 字节）。所以文件实际上并没有太大而无法打开。有人知道我如何追踪导致此问题的错误吗？

使用该RNetCDF包我遇到了同样的问题（Error: NetCDF: Unknown file format）

从 ncdump 我得到：

netcdf pft_harvest_maize {
dimensions:
        time = 199 ;
        npft = 32 ;
        latitude = 78 ;
        longitude = 79 ;
variables:
        string NamePFT(npft) ;
        int time(time) ;
                time:units …

Run Code Online (Sandbox Code Playgroud)

r data-import netcdf

Joh*_*nes

2013 05-08

5
推荐指数

1
解决办法

2万
查看次数

App Engine BadValueError批量数据上传 - TextProperty被解释为StringProperty

bulkoader.yaml:

transformers: 
    - kind: ExampleModel 
      connector: csv 
      property_map: 
        - property: __key__ 
          external_name: key 
          export_transform: transform.key_id_or_name_as_string 
        - property: data 
          external_name: data 
        - property: type 
          external_name: type

Run Code Online (Sandbox Code Playgroud)

model.py:

class ExampleModel(db.Model): 
        data = db.TextProperty(required=True) 
        type = db.StringProperty(required=True)

Run Code Online (Sandbox Code Playgroud)

一切似乎都很好,但是当我上传时我得到了这个错误: BadValueError: Property data is 24788 bytes long; it must be 500 or less. Consider Text instead, which can store strings of any length.

出于某种原因,它认为数据是字符串属性.

任何人都知道如何解决这个问题？

google-app-engine bigtable data-import google-cloud-datastore

Mat*_*w H

2016 09-26

4
推荐指数

1
解决办法

1000
查看次数

Rails 3.1中的数据导入文件的正确位置(自定义rake任务)

我正在尝试运行此自定义rake任务以将数据导入我的Rails 3.1应用程序:

desc "Import users." 
    task :import_users => :environment do
        File.open("users.txt", "r").each do |line|
            name, email, age = line.strip.split("\t")
            u = User.new(:name => name, :email => email, :age => age)
            u.save
        end
    end

Run Code Online (Sandbox Code Playgroud)

我将文件保存为import_users.rake并将其放在我的应用程序的lib/tasks目录中.

但是,当我尝试rake import_users在命令行中运行时,我收到此错误:

No such file or directory - users.txt

我将users.txt放在与.rake文件(lib/tasks目录)相同的目录中,这是正确的位置吗？

rake ruby-on-rails data-import ruby-on-rails-3.1

And*_*nov

2012 01-23

4
推荐指数

1
解决办法

1778
查看次数

从命令行将数据从csv文件加载到oracle表

我试着用SQL loader.The的是表必须为空的数据loading.Is有什么办法可以做到数据上传不截断table.The CSV数据需要在table.i要追加正在使用Oracle 11g.

oracle data-import oracle11g sql-loader

jas*_*sim

2014 01-22

4
推荐指数

1
解决办法

2万
查看次数

在R中导入txt文件忽略前几行

下载的数据来自MET办公室关于苏格兰的降雨量.

前几行:

Scotland Rainfall (mm)
Areal series, starting from 1910
Allowances have been made for topographic, coastal and urban effects where relationships are found to exist.
Seasons: Winter=Dec-Feb, Spring=Mar-May, Summer=June-Aug, Autumn=Sept-Nov. (Winter: Year refers to Jan/Feb).
Values are ranked and displayed to 1 dp. Where values are equal, rankings are based in order of year descending.
Data are provisional from February 2015 & Winter 2015. Last updated 26/11/2015

     JAN  Year     FEB  Year     MAR  Year     APR  Year     MAY  Year     JUN  Year …

Run Code Online (Sandbox Code Playgroud)

r data-import read.table

She*_*ery

2015 11-30

4
推荐指数

1
解决办法

1799
查看次数

如何在pandas.read_csv上的标题之前跳过未知数量的空行？

我想从csv文件中读取数据帧,其中标题不在第一行.例如:

In [1]: import pandas as pd

In [2]: import io

In [3]: temp=u"""#Comment 1
   ...: #Comment 2
   ...: 
   ...: #The previous line is empty
   ...: Header1|Header2|Header3
   ...: 1|2|3
   ...: 4|5|6
   ...: 7|8|9"""

In [4]: df = pd.read_csv(io.StringIO(temp), sep="|", comment="#", 
   ...:                  skiprows=4).dropna()

In [5]: df
Out[5]: 
   Header1  Header2  Header3
0        1        2        3
1        4        5        6
2        7        8        9

[3 rows x 3 columns]

Run Code Online (Sandbox Code Playgroud)

上面代码的问题是我现在没有在标题之前存在多少行,因此,我不能skiprows=4像我在这里那样使用.

我知道我可以遍历文件,就像从非修复头开始从csv读取pandas数据帧一样.

我正在寻找的是一个更简单的解决方案,比如pandas.read_csv忽略任何空行并将第一个非空行作为标题.

python csv file-io data-import pandas

bme*_*llo

2016 09-03

4
推荐指数

1
解决办法

6581
查看次数

Power Bi PostgreSQL 数据导入错误 - 根据验证程序，远程证书无效。'"

我正在尝试将 PostgreSQL 数据库连接到 Power Bi。数据库托管在 Heroku 上。我收到以下错误 -

An error happened while reading data from the provider: 
'The remote certificate is invalid according to the validation procedure.

Run Code Online (Sandbox Code Playgroud)

我想我收到这个错误是因为它需要“ sslmode=require ”。但我不知道如何继续。

有人可以帮我解决这个问题。

提前致谢。

database postgresql data-import powerbi

shu*_*m.a

2020 02-07

3
推荐指数

2
解决办法

6533
查看次数

标签统计

data-import ×10

r ×2

bigtable ×1

csv ×1

database ×1

dataimporthandler ×1

etl ×1

file-io ×1

full-text-indexing ×1

google-app-engine ×1

google-cloud-datastore ×1

netcdf ×1

oracle ×1

oracle11g ×1

pandas ×1

postgresql ×1

powerbi ×1

python ×1

rake ×1

read.table ×1

ruby-on-rails ×1

ruby-on-rails-3.1 ×1

solr ×1

solr4 ×1

sql-loader ×1

sql-server ×1

sql-server-2005 ×1

sql-server-2008 ×1

web-applications ×1

标签 统计

标签统计