标签: data-import

用于基于Web的数据导入和ETL的模块或工具?

我将在Web应用程序中添加一项功能,允许用户导入数据.我不想重新发明轮子,所以我正在寻找可以整合的任何模块来处理这个问题.

界面应类似于将文件导入Excel或Access以及ETL软件中常见的一些更复杂的映射和类型转换函数.

一般流程:

  1. 上传文件(CVS,Excel等)
  2. 预览文件中的数据 - 使用第一行作为列名,然后显示前N个记录,以便用户可以验证文件是否已正确解析
  3. 显示映射界面以选择源列与目标的匹配方式
  4. 处理导入并验证数据
  5. 提供导入失败的数据报告,并提供下载仅失败行的文件的选项

etl web-applications data-import

5
推荐指数
1
解决办法
1444
查看次数

使用导入向导将数据库从 SQL server 2005 复制到 SQL server 2008 时出错

当我尝试复制数据库时出现以下错误,此时它已停止。

错误 0xc0047008:数据流任务 46:包包含两个对象,其名称为“输出列“错误代码”(720)”和“输出列“错误代码”(737)”。

警告 0x80019002:数据流任务 46:SSIS 警告代码 DTS_W_MAXIMUMERRORCOUNTREACHED。Execution 方法成功,但引发的错误数 (1) 达到了允许的最大值 (1);导致失败。当错误数量达到 MaximumErrorCount 中指定的数量时,就会发生这种情况。更改 MaximumErrorCount 或修复错误。(SQL Server 导入和导出向导)

sql-server sql-server-2005 data-import sql-server-2008

5
推荐指数
1
解决办法
2093
查看次数

如何在SOLR中编制.html文件索引

我想要做索引的文件存储在服务器上(我不需要抓取)./ path/to/files /示例HTML文件是

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<meta name="product_id" content="11"/>
<meta name="assetid" content="10001"/>
<meta name="title" content="title of the article"/>
<meta name="type" content="0xyzb"/>
<meta name="category" content="article category"/>
<meta name="first" content="details of the article"/>

<h4>title of the article</h4>
<p class="link"><a href="#link">How cite the Article</a></p>
<p class="list">
  <span class="listterm">Length: </span>13 to 15 feet<br>
  <span class="listterm">Height to Top of Head: </span>up to 18 feet<br>
  <span class="listterm">Weight: </span>1,200 to 4,300 pounds<br>
  <span class="listterm">Diet: </span>leaves and branches of trees<br>
  <span class="listterm">Number of Young: </span>1<br>
  <span class="listterm">Home: …
Run Code Online (Sandbox Code Playgroud)

solr data-import full-text-indexing dataimporthandler solr4

5
推荐指数
2
解决办法
9952
查看次数

尝试将 NetCDF 导入 R 时出错

我正在努力在 R 中打开 NetCDF 文件。当我尝试使用以下命令打开它时

library(ncdf)
# read in NetCDF file
maize.nc<-open.ncdf("C:/Users/Jo/Desktop/pft_harvest_maize.nc")
Run Code Online (Sandbox Code Playgroud)

我收到以下错误消息:

 Error in R_nc_open: NetCDF: Unknown file format
 Error in open.ncdf("C:/Users/Jo/Desktop/pft_harvest_maize.nc") : 
   Error in open.ncdf trying to open file C:/Users/Jo/Desktop/pft_harvest_maize.nc
Run Code Online (Sandbox Code Playgroud)

奇怪的是,另一个带有径流数据的 NetCDF 文件来自完全相同的模拟,具有完全相同的数据类型,打开时没有任何问题。

文件大小的差异是径流:56.1 MB(58,870,472 字节)和收获:149 MB(156,968,508 字节)。所以文件实际上并没有太大而无法打开。有人知道我如何追踪导致此问题的错误吗?

使用该RNetCDF包我遇到了同样的问题(Error: NetCDF: Unknown file format

从 ncdump 我得到:

netcdf pft_harvest_maize {
dimensions:
        time = 199 ;
        npft = 32 ;
        latitude = 78 ;
        longitude = 79 ;
variables:
        string NamePFT(npft) ;
        int time(time) ;
                time:units …
Run Code Online (Sandbox Code Playgroud)

r data-import netcdf

5
推荐指数
1
解决办法
2万
查看次数

App Engine BadValueError批量数据上传 - TextProperty被解释为StringProperty

bulkoader.yaml:

transformers: 
    - kind: ExampleModel 
      connector: csv 
      property_map: 
        - property: __key__ 
          external_name: key 
          export_transform: transform.key_id_or_name_as_string 
        - property: data 
          external_name: data 
        - property: type 
          external_name: type 
Run Code Online (Sandbox Code Playgroud)

model.py:

class ExampleModel(db.Model): 
        data = db.TextProperty(required=True) 
        type = db.StringProperty(required=True) 
Run Code Online (Sandbox Code Playgroud)

一切似乎都很好,但是当我上传时我得到了这个错误: BadValueError: Property data is 24788 bytes long; it must be 500 or less. Consider Text instead, which can store strings of any length.

出于某种原因,它认为数据是字符串属性.

任何人都知道如何解决这个问题?

google-app-engine bigtable data-import google-cloud-datastore

4
推荐指数
1
解决办法
1000
查看次数

Rails 3.1中的数据导入文件的正确位置(自定义rake任务)

我正在尝试运行此自定义rake任务以将数据导入我的Rails 3.1应用程序:

desc "Import users." 
    task :import_users => :environment do
        File.open("users.txt", "r").each do |line|
            name, email, age = line.strip.split("\t")
            u = User.new(:name => name, :email => email, :age => age)
            u.save
        end
    end
Run Code Online (Sandbox Code Playgroud)

我将文件保存为import_users.rake并将其放在我的应用程序的lib/tasks目录中.

但是,当我尝试rake import_users在命令行中运行时,我收到此错误:

No such file or directory - users.txt

我将users.txt放在与.rake文件(lib/tasks目录)相同的目录中,这是正确的位置吗?

rake ruby-on-rails data-import ruby-on-rails-3.1

4
推荐指数
1
解决办法
1778
查看次数

从命令行将数据从csv文件加载到oracle表

我试着用SQL loader.The的是表必须为空的数据loading.Is有什么办法可以做到数据上传不截断table.The CSV数据需要在table.i要追加正在使用Oracle 11g.

oracle data-import oracle11g sql-loader

4
推荐指数
1
解决办法
2万
查看次数

在R中导入txt文件忽略前几行

下载的数据来自MET办公室关于苏格兰的降雨量.

前几行:

Scotland Rainfall (mm)
Areal series, starting from 1910
Allowances have been made for topographic, coastal and urban effects where relationships are found to exist.
Seasons: Winter=Dec-Feb, Spring=Mar-May, Summer=June-Aug, Autumn=Sept-Nov. (Winter: Year refers to Jan/Feb).
Values are ranked and displayed to 1 dp. Where values are equal, rankings are based in order of year descending.
Data are provisional from February 2015 & Winter 2015. Last updated 26/11/2015

     JAN  Year     FEB  Year     MAR  Year     APR  Year     MAY  Year     JUN  Year …
Run Code Online (Sandbox Code Playgroud)

r data-import read.table

4
推荐指数
1
解决办法
1799
查看次数

如何在pandas.read_csv上的标题之前跳过未知数量的空行?

我想从csv文件中读取数据帧,其中标题不在第一行.例如:

In [1]: import pandas as pd

In [2]: import io

In [3]: temp=u"""#Comment 1
   ...: #Comment 2
   ...: 
   ...: #The previous line is empty
   ...: Header1|Header2|Header3
   ...: 1|2|3
   ...: 4|5|6
   ...: 7|8|9"""

In [4]: df = pd.read_csv(io.StringIO(temp), sep="|", comment="#", 
   ...:                  skiprows=4).dropna()

In [5]: df
Out[5]: 
   Header1  Header2  Header3
0        1        2        3
1        4        5        6
2        7        8        9

[3 rows x 3 columns]
Run Code Online (Sandbox Code Playgroud)

上面代码的问题是我现在没有在标题之前存在多少行,因此,我不能skiprows=4像我在这里那样使用.

我知道我可以遍历文件,就像从非修复头开始从csv读取pandas数据帧一样.

我正在寻找的是一个更简单的解决方案,比如pandas.read_csv忽略任何空行并将第一个非空行作为标题.

python csv file-io data-import pandas

4
推荐指数
1
解决办法
6581
查看次数

Power Bi PostgreSQL 数据导入错误 - 根据验证程序,远程证书无效。'"

我正在尝试将 PostgreSQL 数据库连接到 Power Bi。数据库托管在 Heroku 上。我收到以下错误 -

An error happened while reading data from the provider: 
'The remote certificate is invalid according to the validation procedure.
Run Code Online (Sandbox Code Playgroud)

我想我收到这个错误是因为它需要“ sslmode=require ”。但我不知道如何继续。

有人可以帮我解决这个问题。

提前致谢。

database postgresql data-import powerbi

3
推荐指数
2
解决办法
6533
查看次数