我正在尝试编写一个parquet文件来Amazon S3使用Spark 1.6.1.parquet我正在生成的小部分~2GB曾经被写过,所以数据并不多.我试图证明Spark我可以使用的平台.
基本上,我什么都正在建立一个star schema与dataframes,那么我会写这些表出来拼花地板.数据来自供应商提供的csv文件,我使用Spark作为ETL平台.我现在有一个3节点集群中的ec2(r3.2xlarge)那么120GB的存储器上执行程序和16个内核总.
输入文件总共大约22GB,我现在提取大约2GB的数据.最后,当我开始加载完整数据集时,这将是几TB.
这是我的火花/斯卡拉pseudocode:
def loadStage(): Unit = {
sc.hadoopConfiguration.set("fs.s3a.buffer.dir", "/tmp/tempData")
sc.hadoopConfiguration.set("spark.sql.parquet.output.committer.class","org.apache.spark.sql.parquet.DirectParquetOutputCommitter")
sc.hadoopConfiguration.set("spark.sql.hive.convertMetastoreParquet","false")
var sqlCtx = new SQLContext(sc)
val DataFile = sc.textFile("s3a://my-bucket/archive/*/file*.gz")
//Setup header table/df
val header_rec = DataFile.map(_.split("\\|")).filter(x=> x(0) == "1")
val headerSchemaDef = "market_no,rel_date,field1, field2, field3....."
val headerSchema = StructType(headerSchemaDef.split(",").map(fieldName => StructField(fieldName, StringType,false)))
val headerRecords = header_rec.map(p => Row(p(3), p(8), p(1), …Run Code Online (Sandbox Code Playgroud) 我正试图在Windows XP下的IIS Express上设置一个经典的ASP站点.我能够设置和运行iis以及设置网站,但是当我尝试浏览到asp页面时,我得到的是:
IP÷Pèö,le" _/index.asp18
有没有人遇到IISExpress这个问题?我认为这是一个权限的事情,但我不确定我需要设置什么和用户.
任何帮助表示赞赏,谢谢.
好吧,这让我疯了.我一直在尝试从预定义的wsdl构建服务实现代码,并且它一直在服务契约/接口上返回一条消息:
// CODEGEN: Generating message contract since the wrapper name (GetMetricsRequest) of message GetMetricsRequest does not match the default value (GetMetrics)
[System.ServiceModel.OperationContractAttribute(Action="GetMetrics", ReplyAction="*")]
[System.ServiceModel.XmlSerializerFormatAttribute(SupportFaults=true)]
GetMetricsResponse GetMetrics(GetMetricsRequest request);
Run Code Online (Sandbox Code Playgroud)
我尝试使用svcutil.exe和WSCF的Generate Service代码向导执行此操作,并且都返回相同的结果.
下面是我正在使用的WSDL.我在这里添加了类型,我确实把它们分成了一个单独的xsd,只是不想发布它们.使用此wsdl(嵌入了所有类型)也会产生相同的问题.
我已经回顾了这篇博客文章(http://pzf.fremantle.org/2007/05/handlign.html),这是我能找到的关于这个问题的全部内容.我想我已经完成了它要做的一切,但我仍然遇到问题.
还有其他人遇到过这个吗?这真是令人生气,也许我错过了一些明显的东西.任何帮助将不胜感激.
<wsdl:definitions
xmlns:soapenc="http://schemas.xmlsoap.org/soap/encoding/"
xmlns:wsdl="http://schemas.xmlsoap.org/wsdl/"
xmlns:xs="http://www.w3.org/2001/XMLSchema"
xmlns:xsd="http://www.w3.org/2001/XMLSchema"
xmlns:tns="urn:MyNameSpace:V1_0"
targetNamespace="urn:MyNameSpace:V1_0">
<wsdl:types>
<xs:schema targetNamespace="urn:MyNameSpace:V1_0">
<xs:element name="GetMetricsRequest">
<xs:complexType>
<xs:sequence>
<xs:element nillable="true" name="GetMetricRequestElement" type="tns:GetMetricRequestType"/>
</xs:sequence>
</xs:complexType>
</xs:element>
<xs:element name="GetMetricResponse">
<xs:complexType>
<xs:sequence>
<xs:element nillable="true" maxOccurs="unbounded" name="GetMetricResponseElement" type="tns:GetMetricResponseType"/>
</xs:sequence>
</xs:complexType>
</xs:element>
<xs:complexType name="GetMetricResponseType">
<xs:sequence>
<xs:element nillable="true" name="Metrics" type="tns:MetricsType"/>
</xs:sequence>
</xs:complexType>
<xs:complexType name="GetMetricRequestType">
<xs:sequence>
<xs:element …Run Code Online (Sandbox Code Playgroud) amazon-s3 ×1
apache-spark ×1
asp-classic ×1
c# ×1
iis-express ×1
parquet ×1
scala ×1
svcutil.exe ×1
wcf ×1
wscf ×1
wsdl ×1