我想使用Python pandas将所有csv文件附加(合并)到一个文件夹中.
例如:Say文件夹有两个csv文件test1.csv,test2.csv如下所示:
A_Id P_Id CN1 CN2 CN3
AAA 111 702 709 740
BBB 222 1727 1734 1778
Run Code Online (Sandbox Code Playgroud)
和
A_Id P_Id CN1 CN2 CN3
CCC 333 710 750 750
DDD 444 180 734 778
Run Code Online (Sandbox Code Playgroud)
所以我写的python脚本如下:
#!/usr/bin/python
import pandas as pd
import glob
all_data = pd.DataFrame()
for f in glob.glob("testfolder/*.csv"):
df = pd.read_csv(f)
all_data = all_data.append(df)
all_data.to_csv('testfolder/combined.csv')
Run Code Online (Sandbox Code Playgroud)
虽然combined.csv似乎有所有附加的行,但它看起来如下:
CN1 CN2 CN3 A_Id P_Id
0 710 750 750 CCC 333
1 180 734 778 DDD 444 …Run Code Online (Sandbox Code Playgroud) 我有一个数据帧如下:
Name_ID | URL | Count | Rating
------------------------------------------------
ABC | www.example.com/ABC | 10 | 5
123 | www.example.com/123 | 9 | 4
XYZ | www.example.com/XYZ | 5 | 2
ABC111 | www.example.com/ABC111 | 5 | 2
ABC121 | www.example.com/ABC121 | 5 | 2
222 | www.example.com/222 | 5 | 3
abc222 | www.example.com/abc222 | 4 | 2
ABCaaa | www.example.com/ABCaaa | 4 | 2
Run Code Online (Sandbox Code Playgroud)
我正在尝试创建一个JSON,如下所示:
{
"name": "sampledata",
"children": [
{
"name": 9,
"children": [
{
"name": 4,
"children": …Run Code Online (Sandbox Code Playgroud) 我有粘贴在这里的d3.js代码.
我试图在同一页面中显示多个图表.虽然d3.js代码是相同的.从data1.json中说一个,从data2.json中说另一个.以下是困扰我的片段.
<svg width="960" height="960"></svg>
<script src="https://d3js.org/d3.v4.min.js"></script>
<script>
var svg2 = d3.select("svg"),
margin = 20,
diameter = +svg2.attr("width"),
g = svg2.append("g").attr("transform", "translate(" + diameter / 2 + "," + diameter / 2 + ")");
Run Code Online (Sandbox Code Playgroud)
按照在SO不同的答案在这里,这里,这里,这里和这里的解决方案似乎是下列之一:
使用此处描述的方法.
var chart1 = d3.select("#area1")
.append("svg")
Run Code Online (Sandbox Code Playgroud)方法二对我不起作用,因为它显示空白页面.
如何解决这个问题.我确信我没有正确地获得语法.
我有一个pandas数据框如下:
date | Item | count
------------------------------------
2016-12-06 10:45:08 | Item1 | 60
2016-12-06 10:45:08 | Item2 | 145
2016-12-06 09:45:00 | Item1 | 60
2016-12-06 09:44:54 | Item3 | 600
2016-12-06 09:44:48 | Item4 | 15
2016-12-06 11:45:08 | Item1 | 60
2016-12-06 10:45:08 | Item2 | 14
2016-11-06 09:45:00 | Item1 | 62
2016-11-06 09:44:54 | Item3 | 6
2016-11-06 09:44:48 | Item4 | 15
Run Code Online (Sandbox Code Playgroud)
我试图通过让我们说一天中的小时(或稍后的一天)知道以下统计数据来组合项目:每天销售的项目列表,例如:
2016-12-06,09:00:00到10:00:00,Item1,Item3和Item4被出售; 等等.2016-12-06 …我在ddata.csv中的数据如下:
col1,col2,col3,col4
A,10,a;b;c, 20
B,30,d;a;b,40
C,50,g;h;a,60
Run Code Online (Sandbox Code Playgroud)
我想将col3分成多个列,但要基于它们的值。在其他方面,我希望最终数据看起来像
col1, col2, name_a, name_b, name_c, name_d, name_g, name_h, col4
A, 10, a, b, c, NULL, NULL, NULL, 20
B, 30, a, b, NULL, d, NULL, NULL, 40
C, 50, a, NULL, NULL, NULL, g, h, 60
Run Code Online (Sandbox Code Playgroud)
从此答案中获取参考的当前代码不完整:
import pandas as pd
import string
L = list(string.ascii_lowercase)
names = dict(zip(range(len(L)), ['name_' + x for x in L]))
df = pd.read_csv('ddata.csv')
df2 = df['col3'].str.split(';', expand=True).rename(columns=names)
Run Code Online (Sandbox Code Playgroud)
列名'a','b','c'...是随机抽取的,与实际数据a,b,c不相关。
现在,我的代码可以将“ col3”分为三列,如下所示:
name_a name_b name_c
a b …Run Code Online (Sandbox Code Playgroud) 我的脚本中的函数返回一个字典,John如下所示:
{ "Apple": 10, "Mango": 20, "Banana":30}
Run Code Online (Sandbox Code Playgroud)
每次调用该函数时,键和值不一定相同。例如,它还可以生成一个字典,Jen例如
{ "Apple": 10, "Banana":30, "Watermelon": 5}
Run Code Online (Sandbox Code Playgroud)
我想将值更新为 csv(或 pandas 数据框,然后更新为 csv)以存储以供以后分析。所需的 csv 输出是:
Name | Apple | Banana | Mango | Watermelon |
------------------------------------------
John | 10 | 30 | 20 |
Jen | 10 | 30 | | 5
Run Code Online (Sandbox Code Playgroud)
所以,puedo代码如下:
if dictionary-keys == csv_or_df_header:
add value to corresponding columns by matching keys with column headers
else:
add the new key as a column header
add value to …Run Code Online (Sandbox Code Playgroud) No files/directories in /tmp/*当我尝试在我的 Ubuntu 18.04.2 LTS/Python 3.6.8/Python 2.7.15+ 机器上安装任何软件包时出现错误。
例如,
pip install pyx
Collecting pyx
Using cached https://files.pythonhosted.org/packages/f7/25/59c136568c1b61ee087155c874fcd9f7196a943a6a5ee3429efeb30ea2a8/PyX-0.15.tar.gz
No files/directories in /tmp/pip-build-nRurCC/pyx/pip-egg-info (from PKG-INFO)
Run Code Online (Sandbox Code Playgroud)
我尝试安装的每个软件包都会发生这种情况。
sudo 没有帮助。 --no-cache-dir option,无济于事。使用vvv选项运行 pip install 命令的输出提供以下输出。
No files/directories in /tmp/pip-build-VU1cex/pyx/pip-egg-info (from PKG-INFO)
Exception information:
Traceback (most recent call last):
File "/usr/lib/python2.7/dist-packages/pip/basecommand.py", line 215, in main
status = self.run(options, args)
File "/usr/lib/python2.7/dist-packages/pip/commands/install.py", line 342, in run
requirement_set.prepare_files(finder)
File "/usr/lib/python2.7/dist-packages/pip/req/req_set.py", line 380, in prepare_files
ignore_dependencies=self.ignore_dependencies))
File "/usr/lib/python2.7/dist-packages/pip/req/req_set.py", line …Run Code Online (Sandbox Code Playgroud)