小编Fis*_*ane的帖子

多个ggplot2图与情节

我想使用ggplot2和grid.arrange一起用plotly生成多个图.有点像这样:

library(ggplot2)
library(gridExtra)
library(plotly)


g1<-ggplot(mpg, aes(displ, hwy, color=factor(year)))+geom_point()

g2<-ggplot(mpg, aes(cyl, hwy, color=factor(year)))+geom_point()

g<-grid.arrange(g1,g2,ncol=2)

ggplotly(g)

Run Code Online (Sandbox Code Playgroud)

但是,我得到了"gg2list中的错误(p):剧情中没有图层"

有什么建议

r ggplot2 plotly

Fis*_*ane

2015 10-06

13
推荐指数

2
解决办法

5345
查看次数

Pandas数据帧到Spark数据帧"无法合并类型错误"

我有csv数据并使用read_csv创建Pandas数据帧并将所有列强制为字符串.然后,当我尝试从Pandas数据帧创建Spark数据帧时,我收到以下错误消息.

from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *
z=pd.read_csv("mydata.csv", dtype=str)
z.info()

Run Code Online (Sandbox Code Playgroud)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 74044003 entries, 0 to 74044002
Data columns (total 12 columns):
primaryid       object
event_dt        object
age             object
age_cod         object
age_grp         object
sex             object
occr_country    object
drug_seq        object
drugname        object
route           object
outc_cod        object
pt              object

Run Code Online (Sandbox Code Playgroud)

q= sqlContext.createDataFrame(z)

Run Code Online (Sandbox Code Playgroud)

File "<stdin>", line 1, in <module>
File "/usr/hdp/2.4.2.0-258/spark/python/pyspark/sql/context.py", line 425, in createDataFrame
rdd, schema = self._createFromLocal(data, schema)
 File "/usr/hdp/2.4.2.0-258/spark/python/pyspark/sql/context.py", line 341, in _createFromLocal
struct = …

Run Code Online (Sandbox Code Playgroud)

dataframe pandas apache-spark apache-spark-sql pyspark

Fis*_*ane

2019 01-12

13
推荐指数

1
解决办法

2万
查看次数

R没有在jupyter中产生一个数字(IPython笔记本)

我很高兴一起使用python和R并尝试在Jupyter(ipython notebbok)中使用R,但是,我无法在R内核中生成数字.

当我尝试绘制图形时,会显示以下错误消息.我非常感谢你的帮助.

我正在使用Anaconda和Windows 8.

x<-1:10
plot(x)

Run Code Online (Sandbox Code Playgroud)

png错误(tf,宽度,高度,"in",pointsize,bg,res,type ="cairo",:无法加载winCairo.dll:它是否已构建？

jpeg中的错误(tf,width,height,"in",pointsize,quality,bg,res,type ="cairo",:无法加载winCairo.dll:它是否已构建？

Anaconda命令提示符中显示以下内容:

无法加载'C:/Users/aa/Anaconda/R/library/grDevices/libs/x64/winCairo.dll'

r windows-8 ipython-notebook anaconda jupyter

Fis*_*ane

2015 05-24

9
推荐指数

1
解决办法

2260
查看次数

Julia:读取工作目录中的许多文件

我刚开始学习Julia,我想在我的目录中阅读许多csv文件.我怎样才能做到这一点？

我的目录包含以下文件,我想读取trip_data_1到trip_data_12的所有文件.

"trip_data_1.csv""trip_data_10.csv""trip_data_11.csv""trip_data_12.csv""trip_data_2.csv""trip_data_3.csv""trip_data_4.csv""trip_data_5.csv""trip_data_6.csv""trip_data_7.csv" "trip_data_8.csv""trip_data_9.csv""trip_fare_1.csv""trip_fare_10.csv""trip_fare_11.csv""trip_fare_12.csv""trip_fare_2.csv""trip_fare_3.csv""trip_fare_4.csv""trip_fare_5.csv" "trip_fare_6.csv""trip_fare_7.csv""trip_fare_8.csv""trip_fare_9.csv"

这是我尝试过的:

using DataFrames
df = readtable(filter!(r"^trip_data", readdir()))

Run Code Online (Sandbox Code Playgroud)

但我得到MethodError:没有匹配readtable的方法(:: Array {String,1})

julia

Fis*_*ane

lucky-day

6
推荐指数

2
解决办法

1035
查看次数

在ggplot2中使符号加粗

我想在 ggplot2 geom_point 中使用 pch=3 并且我想让它加粗。我可以增加大小，但不能让它加粗。有什么建议？

 libray(ggplot2)
 z=data.frame(x=1:12,y=c(3,5,1,6,2,9,7,10,11,4,12,8))
 ggplot(z,aes(x=x,y=y))+geom_point(pch=3,size=5)

Run Code Online (Sandbox Code Playgroud)

r ggplot2

Fis*_*ane

lucky-day

5
推荐指数

1
解决办法

2420
查看次数

在 R 传单中使用菱形、三角形和星形形状

我有不同类型的观察结果，我想使用不同的形状和颜色将它们显示在传单上。R中的传单可以使用菱形、三角形、星形等形状吗？

我提供了虚拟数据并创建了不同颜色的圆形标记。

library(leaflet)

 lat1= 36+runif(n=5,min=-1,max=1)
 lon1 =-115+runif(n=5,min=-1,max=1)

 lat2= 35+runif(n=5,min=-0.5,max=0.5)
 lon2 =-110+runif(n=5,min=-0.5,max=0.5)

 lat3= 34+runif(n=5,min=-0.5,max=0.5)
 lon3 =-112+runif(n=5,min=-0.5,max=0.5)

 data_all=rbind(data.frame(Longitude=lon1,Latitude=lat1,Group=1),
           data.frame(Longitude=lon2,Latitude=lat2,Group=2),
           data.frame(Longitude=lon3,Latitude=lat3,Group=3))

 pal <- colorFactor(c("red","blue","purple"), domain = c(1,2,3))


 leaflet(data_all) %>% addTiles() %>%
   addCircleMarkers(~Longitude, ~Latitude,popup=~paste0("Group=  ",data_all$Group),
     radius = 10,
    color = ~pal(Group),
    stroke = FALSE, fillOpacity = 1
     )

Run Code Online (Sandbox Code Playgroud)

r leaflet

Fis*_*ane

lucky-day

5
推荐指数

1
解决办法

5269
查看次数

与 RDD 和 DataFrame 不同的浮点精度

我将 RDD 更改为 DataFrame 并将结果与我使用 read.csv 导入的另一个 DataFrame 进行比较，但两种方法的浮点精度不同。我感谢您的帮助。

我使用的数据来自这里。

from pyspark.sql import Row
from pyspark.sql.types import *

Run Code Online (Sandbox Code Playgroud)

RDD方式

orders = sc.textFile("retail_db/orders")
order_items = sc.textFile('retail_db/order_items')
orders_comp = orders.filter(lambda line: ((line.split(',')[-1] == 'CLOSED') or  (line.split(',')[-1] == 'COMPLETE')))
orders_compMap = orders_comp.map(lambda line: (int(line.split(',')[0]), line.split(',')[1]))

order_itemsMap = order_items.map(lambda line: (int(line.split(',')[1]), 
                                           (int(line.split(',')[2]), float(line.split(',')[4])) ))

 joined = orders_compMap.join(order_itemsMap)
 joined2 = joined.map(lambda line: ((line[1][0], line[1][1][0]), line[1][1][1]))

joined3 = joined2.reduceByKey(lambda a, b : a +b).sortByKey()

df1 = joined3.map(lambda x:Row(date = x[0][0], product_id = x[0][1], total …

Run Code Online (Sandbox Code Playgroud)

apache-spark rdd pyspark spark-dataframe

Fis*_*ane

lucky-day

5
推荐指数

1
解决办法

3506
查看次数

截断后的 MD5 的 ECDF 图

在该L的油墨，它说，截断MD5是均匀分布的。我想使用 PySpark 检查它，我首先在 Python 中创建了 1,000,000 个 UUID，如下所示。然后截断 MD5 的前三个字符。但是我得到的图与均匀分布的累积分布函数并不相似。我尝试使用 UUID1 和 UUID4，结果相似。符合截断 MD5 均匀分布的正确方法是什么？

import uuid
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.distributions.empirical_distribution import ECDF
import pandas as pd
import pyspark.sql.functions as f
%matplotlib inline

### Generate 1,000,000 UUID1 

uuid1 = [str(uuid.uuid1()) for i in range(1000000)]  # make a UUID based on the host ID and current time
uuid1_df = pd.DataFrame({'uuid1':uuid1})
uuid1_spark_df =  spark.createDataFrame(uuid1_df)
uuid1_spark_df = uuid1_spark_df.withColumn('hash', f.md5(f.col('uuid1')))\
               .withColumn('truncated_hash3', f.substring(f.col('hash'), 1, 3))

count_by_truncated_hash3_uuid1 = …

Run Code Online (Sandbox Code Playgroud)

python md5 pyspark uniform-distribution

Fis*_*ane

2019 02-19

5
推荐指数

1
解决办法

390
查看次数

在 Shiny 中上传许多文件

我正在开发一个应用程序，可帮助按主题/主题组织和可视化许多 PDF 文档。我可以上传和阅读单个 PDF，但我无法阅读多个 PDF 文档。

对于单个 PDF 文档：

用户界面

  ---
  fileInput('file1', 'Choose PDF File', accept=c('.pdf'))

 ---

Run Code Online (Sandbox Code Playgroud)

服务器

   --------

   library(pdftools)

   -------


 mypdf<-reactive({

   inFile <- input$file1

   if (is.null(inFile)){
  return(NULL)
  }else{
  pdf_text(inFile$datapath)

   }

  })

Run Code Online (Sandbox Code Playgroud)

要上传多个 PDF 文件，我必须在代码的 ui.R 部分使用 multiple = TRUE，但如何读取所有上传的文件？

pdf visualization r text-mining shiny

Fis*_*ane

2016 04-26

4
推荐指数

2
解决办法

7740
查看次数

闪亮的数据表：在新窗口中弹出有关选定行的数据

我有一个闪亮的数据表。当用户选择某一行时，我想在新窗口中显示基于所选行的其他一些数据。我尝试使用 ShinyBS 包，但没有操作按钮我无法使用它，我不想包含操作按钮。我希望在选择一行时显示弹出窗口。有任何想法吗？

mymtcars = head(mtcars)
for_pop_up = 1:6

app <- shinyApp(
  ui = fluidPage(

  DT::dataTableOutput("mydatatable")
   ),


 server =  shinyServer(function(input, output, session) {

   mycars = head(mtcars)
   output$mydatatable = DT::renderDataTable(mycars, selection = 'single',  
                              rownames = FALSE, options = list(dom = 't'))

output$popup = renderPrint({
  for_pop_up[input$mydatatable_rows_selected]
  })


 })
)

runApp(app)

Run Code Online (Sandbox Code Playgroud)

r datatables shiny dt

Fis*_*ane

2018 01-27

4
推荐指数

1
解决办法

2911
查看次数