小编cs9*_*s95的帖子

使用 pandas 将 JSON 转换为 CSV

我有一个 JSON 文件，其中包含超过 46k 条英语和其他语言的推文，我想将其保存为 csv 文件。以下是 json 文件的一部分。

\n\n

    [{"user_id": 938118866135343104, "date_time": "03/20/2018 18:38:35", "tweet_content": "RT @PTISPOfficial: \xd9\xbe\xd8\xa7\xda\xa9\xd8\xb3\xd8\xaa\xd8\xa7\xd9\x86 \xd8\xaa\xd8\xad\xd8\xb1\xdb\x8c\xda\xa9 \xd8\xa7\xd9\x86\xd8\xb5\xd8\xa7\xd9\x81 \xda\xa9\xdb\x92 \xd9\x88\xd8\xa7\xd8\xa6\xd8\xb3 \xda\x86\xdb\x8c\xd8\xa6\xd8\xb1\xd9\x85\xdb\x8c\xd9\x86 \xd8\xb4\xd8\xa7\xdb\x81 \xd9\x85\xd8\xad\xd9\x85\xd9\x88\xd8\xaf \xd9\x82\xd8\xb1\xdb\x8c\xd8\xb4\xdb\x8c  \xd8\xa8\xd8\xba\xdb\x8c\xd8\xb1 \xda\xa9\xd8\xb3\xdb\x8c \xd9\xbe\xd8\xb1\xd9\x88\xd9\xb9\xd9\x88\xda\xa9\xd9\x88\xd9\x84 \xda\xa9\xdb\x92 \xd9\xbe\xd8\xa7\xda\xa9\xd8\xb3\xd8\xaa\xd8\xa7\xd9\x86 \xd8\xb3\xd9\xbe\xd8\xb1 \xd9\x84\xdb\x8c\xda\xaf \xda\xa9\xd8\xa7 \xd9\x85\xdb\x8c\xda\x86 \xd8\xaf\xdb\x8c\xda\xa9\xda\xbe\xd9\x86\xdb\x92 \xda\xa9\xdb\x92 \xd9\x84\xd8\xa6\xdb\x92 \xd8\xa7\xd8\xb3\xd9\xb9\xdb\x8c\xda\x88\xdb\x8c\xd9\x85 \xd9\x85\xe2\x80\xa6", "tweet_id": 976166125502427136}\n{"user_id": 959235642, "date_time": "03/20/2018 18:38:35", "tweet_content": "At last, Pakistan Have Witnessed The Most Thrilling Match Of Cricket In Pakistan, The Home. \\n\\n#PZvQG \\n#ABC", "tweet_id": 976166125535973378}\n{"user_id": 395163528, "date_time": "03/20/2018 18:38:35", "tweet_content": "RT @thePSLt20: SIX! 19.4 Liam Dawson to Anwar …

Run Code Online (Sandbox Code Playgroud)

python csv json python-3.x pandas

far*_*een

2018 05-28

0
推荐指数

1
解决办法

3万
查看次数

尝试使用ast.literal_eval或json.loads解析列表的字符串表示形式不起作用

我有一个字符串格式的列表列表:

arg = '[[ABC, DEF], 10.10.10.10, 12345]'

Run Code Online (Sandbox Code Playgroud)

我喜欢将它转换为字符串对象列表: ['[ABC, DEF]', '10.10.10.10', '12345']

我尝试使用ast.literal_eval(arg)和转换为列表类型的python对象,json.loads(arg)但这两种方法都会抛出错误,因为我的"arg"由无法计算的字符串组成.

有没有更简单的方法来实现这一目标？

python string python-2.7

PYN*_*PYN

2019 01-13

0
推荐指数

1
解决办法

135
查看次数

熊猫DataFrame列中特定值的连续行的累积计数

我有此数据框，并希望添加另一列累加直到不等于星形符号*，然后在星形符号再次出现时从1重新开始。

    Star
0   *
1   *
2   *
3   *
4   s
5   s
6   *
7   *

Run Code Online (Sandbox Code Playgroud)

预期输出：

    Star  Number
0   *     1
1   *     2
2   *     3
3   *     4
4   s     NaN
5   s     NaN
6   *     1
7   *     2

Run Code Online (Sandbox Code Playgroud)

python group-by dataframe pandas pandas-groupby

Chi*_*afy

2018 12-07

0
推荐指数

1
解决办法

437
查看次数

使用 pandas str.replace 执行全字子字符串替换

我有一个示例数据框文本列，其中包含包含单词 'eng' 和单词 'engine' 的字符串。

ID  Text
1   eng is here
2   engine needs washing
3   eng is overheating

Run Code Online (Sandbox Code Playgroud)

我想用“引擎”这个词代替“eng”这个词。我使用下面的代码：

df['Text'] = df['Text'].str.replace('eng', 'engine')

Run Code Online (Sandbox Code Playgroud)

但这弄乱了我第二行的文字。第二行变成

ID  Text
2   engineine needs washing

Run Code Online (Sandbox Code Playgroud)

有没有办法做这个词替换，以便它只在整个词说“eng”时才替换？

python string replace pandas

Pin*_*ts0

2019 01-03

0
推荐指数

2
解决办法

1798
查看次数

python中的Max和Min方法,返回不正确的值

我刚刚从编程语言中开始使用Python,我正在编写一个从文件中读取以检索值的程序.目前我有问题的程序从文件中读取并将某些值放入元组中,但是,我现在面临的问题是从python中的元组列表返回最小值和最大值,值列表我在元组列表中有:

tuple = ('44.0', '34.0', '17.0', '6.0','15.0')

Run Code Online (Sandbox Code Playgroud)

然而,当我max打电话给max(tuple)我时6.0,我的结果而不是正确答案44.0.同样,如果我尝试使用返回最小值min(tuple).相反,我得到的是价值,15.0而不是正确的价值6.0.

拜托,您能告诉我如何解决这个问题,以便我能够返回正确的值吗？

python max min string-comparison

ash*_*d23

2019 01-03

0
推荐指数

1
解决办法

639
查看次数

ScrapyDeprecationWarning:模块`scrapy.conf`已弃用,请改用`crawler.settings`属性

我正在使用scrapy 1.5并且我正在以编程方式尝试通过python脚本运行scrapy爬虫程序.作为其中的一部分,我需要导入爬虫设置并覆盖其一些参数.

我发现这个import语句可以满足我的需求:

from scrapy.conf import settings

Run Code Online (Sandbox Code Playgroud)

问题是,这有效,但也会产生以下弃用警告:

ScrapyDeprecationWarning: Module `scrapy.conf` is deprecated, use `crawler.settings` attribute instead

Run Code Online (Sandbox Code Playgroud)

所以我猜这是一些旧版本.警告之后,我试图访问scrapy.crawler.settings,但这不存在(或者,经过一些搜索我找不到它).

我该如何解决此警告？

python scrapy web-scraping python-3.x

cs9*_*s95

2019 05-30

0
推荐指数

1
解决办法

632
查看次数

Pandas 对每对行应用操作

在计算 langitude 和 longitude 之间的距离时，数据帧列中重复相同的值。我创建了一个动态列来查找每个源到目的地之间的距离，但每列的所有值都是重复的。

for a,b,x in zip(df.Longitude,df.Latitude,df.index):
    for c,d in zip(df.Longitude,df.Latitude):
        df['distance_'+str(x)]=haversine(a,b,c,d)

Run Code Online (Sandbox Code Playgroud)

假设这是数据框

  index   name   lat     long

    0      a     74.299104  31.481188

    1      b     74.351619  39.481188

    2      c     73.351619  39.481188

Run Code Online (Sandbox Code Playgroud)

现在我想要这样的预期结果

  index   name   lat          long     distanceA      distanceB     distanceC

    0      a     74.299104  31.481188      0             4.5          2.4

    1      b     74.351619  39.481188     5.7             0           5.8

    2      c     73.351619  39.481188     3.8            1.3           0

Run Code Online (Sandbox Code Playgroud)

python pandas

Tay*_*hra

2020 02-19

0
推荐指数

1
解决办法

849
查看次数

在python中没有尾随换行符的情况下读取文件？

所以我决定使用这段代码:

CaseList = []
f_Case = open("C:/Users/Luke Roberts/Desktop/Lists/CaseList.txt", "r")
for line in f_Case:
    CaseList.append(line)
print(CaseList)

Run Code Online (Sandbox Code Playgroud)

但是,当我打印列表时,它出现为:

['Case 1\n', 'Case 2\n', 'Case 3\n', 'Case 4\n', 'Case 5']

Run Code Online (Sandbox Code Playgroud)

有没有办法将它添加到列表中而没有'\n'？如果没有,有没有办法从每个字符串中删除'\n'？

任何和所有的帮助表示赞赏!干杯

python file-io file list

Luk*_*rts

2017 08-28

-1
推荐指数

1
解决办法

90
查看次数

从包含None元素的列表中获取最大值

我正在尝试使用以下代码从包含nonetype的列表对象中获取最大值:

import numpy as np

LIST = [1,2,3,4,5,None]
np.nanmax(LIST)

Run Code Online (Sandbox Code Playgroud)

但我收到此错误消息

'>=' not supported between instances of 'int' and 'NoneType'

Run Code Online (Sandbox Code Playgroud)

显然np.nanmax()不适用None.从包含None值的列表对象中获取最大值的替代方法是什么？

python arrays numpy list nonetype

Chr*_* T.

2018 05-30

-1
推荐指数

3
解决办法

3366
查看次数

使用嵌套列表列出清单

想在Python中提出与嵌套列表相关的问题.

我有一个嵌套列表

list_1 = [[1,3,0,1], [1,1,0,2,3,0,4,], [2,1,2,2,3,4]]

Run Code Online (Sandbox Code Playgroud)

我想在嵌套列表上执行舍入和分离操作,但保持它现在分组(为了使其更清楚我需要压缩列表执行操作并在同一组中再次展开它).

例如,除以2后列表'list_1'的结果为

list_2 = [[0.5,1.5,0,0.5],[0.5,0.5,0,1,1.5,0,2],[1,0.5,1,1,1.5,2]]

Run Code Online (Sandbox Code Playgroud)

我用来为signle列表执行此操作的代码如下:

list_2 = [round(b,2) for b in [a / 2 for a in list_1]]

Run Code Online (Sandbox Code Playgroud)

你能否建议解决这个问题的方法.目前我收到错误

"unsupported operand type(s) for /: 'list' and 'float'"

Run Code Online (Sandbox Code Playgroud)

谢谢.

python list-comprehension list

作者

2018 03-18

-1
推荐指数

1
解决办法

103
查看次数

标签统计

python ×10

pandas ×4

list ×3

python-3.x ×2

string ×2

arrays ×1

csv ×1

dataframe ×1

file ×1

file-io ×1

group-by ×1

json ×1

list-comprehension ×1

max ×1

min ×1

nonetype ×1

numpy ×1

pandas-groupby ×1

python-2.7 ×1

replace ×1

scrapy ×1

string-comparison ×1

web-scraping ×1

标签 统计

小编cs9_s95的帖子

标签统计