我们定期使用a计算我们的站点地图cron job并将结果存储在中s3.
我们可以301将https://oursite.com/sitemap.xml重定向到托管在的sitemap.xml s3吗?
我知道站点地图规范要求站点地图位于同一个域(http://www.sitemaps.org/protocol.html#location).不过,如果一个301一个off-domain URL通过各大搜索服务提供商被视为是在同一个域或关闭呢?
我试图#从推文文本中过滤掉所有关键字.我str.extractall()用来提取关键字的所有#关键字.这是我第一次使用pandas从tweetText过滤关键字.输入,代码,预期输出和错误如下.
输入:
userID,tweetText
01, home #sweet home
01, #happy #life
02, #world peace
03, #all are one
04, world tour
Run Code Online (Sandbox Code Playgroud)
等等...总数据文件采用GB大小的推文推文和其他几列.但我只对两个栏目感兴趣.
码:
import re
import pandas as pd
data = pd.read_csv('Text.csv', index_col=0, header=None, names=['userID', 'tweetText'])
fout = data['tweetText'].str.extractall('#')
print fout
Run Code Online (Sandbox Code Playgroud)
预期产出:
userID,tweetText
01,#sweet
01,#happy
01,#life
02,#world
03,#all
Run Code Online (Sandbox Code Playgroud)
错误:
Traceback (most recent call last):
File "keyword_split.py", line 7, in <module>
fout = data['tweetText'].str.extractall('#')
File "/usr/local/lib/python2.7/dist-packages/pandas/core/strings.py", line 1621, in extractall
return str_extractall(self._orig, pat, flags=flags)
File "/usr/local/lib/python2.7/dist-packages/pandas/core/strings.py", …Run Code Online (Sandbox Code Playgroud) 我正在尝试计算大型数据集中每小时每小时的一些实例。下面的代码在python 2.7上似乎可以正常工作,但是我必须将它更新为Anaconda上所有更新包的python 3.x最新版本。当我尝试执行程序时,出现以下str错误
码:
import pandas as pd
from datetime import datetime,time
import numpy as np
fn = r'00_input.csv'
cols = ['UserId', 'UserMAC', 'HotspotID', 'StartTime', 'StopTime']
df = pd.read_csv(fn, header=None, names=cols)
df['m'] = df.StopTime + df.StartTime
df['d'] = df.StopTime - df.StartTime
# 'start' and 'end' for the reporting DF: `r`
# which will contain equal intervals (1 hour in this case)
start = pd.to_datetime(df.StartTime.min(), unit='s').date()
end = pd.to_datetime(df.StopTime.max(), unit='s').date() + pd.Timedelta(days=1)
# building reporting DF: `r`
freq = …Run Code Online (Sandbox Code Playgroud) 我试图在数据帧的列中找到中值.我得到的中值是浮点数,但我需要整数格式.
c_med = round(df['count'].median().astype(int))
c_med = round(df['count'].median()).astype(int)
Run Code Online (Sandbox Code Playgroud)
以上两种类型都给我这个错误.如果astype(int)删除,那么答案是正确的.
错误
Traceback (most recent call last):
File "all_median.py", line 16, in <module>
c_med = round(df['count'].median()).astype(int)
AttributeError: 'float' object has no attribute 'astype'
Run Code Online (Sandbox Code Playgroud) 我有一个包含x行和y列数的大型数据集.其中一列作为单词和一些不需要的数据.不需要的数据没有特定的模式,因此我发现很难从数据帧中删除它.
nonhashtag
['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates']
['Just', 'posted', 'photo', 'Rasim', 'Villa']
['Dhabi', 'International', 'Airport', '(AUH)', '\xd9\x85\xd8\xb7\xd8\xa7\xd8\xb1', '\xd8\xa3\xd8\xa8\xd9\x88', '\xd8\xb8\xd8\xa8\xd9\x8a', '\xd8\xa7\xd9\x84\xd8\xaf\xd9\x88\xd9\x84\xd9\x8a', 'Dhabi']
['just', 'shrug', 'off!', 'Dubai', 'Mall', 'Burj', 'Khalifa']
['out!', 'Cowboy', 'steppin', 'Notorious', 'going', 'sleep!', 'Make', 'happen']
['Buona', 'notte', '\xd1\x81\xd0\xbf\xd0\xbe\xd0\xba\xd0\xbe\xd0\xb9\xd0\xbd\xd0\xbe\xd0\xb9', '\xd0\xbd\xd0\xbe\xd1\x87\xd0\xb8', '\xd9\x84\xd9\x8a\xd9\x84\xd8\xa9', '\xd8\xb3\xd8\xb9\xd9\x8a\xd8\xaf\xd8\xa9!', '\xd8\xa3\xd8\xa8\xd9\x88', '\xd8\xb8\xd8\xa8\xd9\x8a', 'Viceroy', 'Hotel,', 'Yas\xe2\x80\xa6']
Run Code Online (Sandbox Code Playgroud)
每个不是单词的字符都将被删除,这只是大数据集中的一列.列名是nonhashtag
清洁色谱柱的简单方法是什么?直接将它们取下或更换NAN
预期产出
nonhashtag
['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates']
['Just', 'posted', 'photo', 'Rasim', 'Villa']
['Dhabi', 'International', 'Airport', '(AUH)', 'Dhabi']
['just', 'shrug', 'off!', 'Dubai', 'Mall', 'Burj', 'Khalifa']
['out!', …Run Code Online (Sandbox Code Playgroud) 我有一组原始数据,我必须确定该数据的分布.绘制概率分布函数的最简单方法是什么?我试过在正态分布中拟合它.
但是我更好奇地知道数据本身带有哪些分布?
我没有代码来显示我的进度,因为我没有在python中找到任何允许我测试数据集分布的函数.我不想切片数据并强制它适合可能正常或偏斜分布.
有没有办法确定数据集的分布?任何建议表示赞赏.
这是正确的方法吗?示例
这是我正在寻找的东西,但它再次使数据符合正态分布.例
编辑:
输入有数百万行,下面给出了简短的样本
Hashtag,Frequency
#Car,45
#photo,4
#movie,6
#life,1
Run Code Online (Sandbox Code Playgroud)
从频率范围1来20,000算,我试图找出关键字的频率分布.我尝试绘制一个简单的直方图,但我将输出作为单个条形图.
码:
import pandas
import matplotlib.pyplot as plt
df = pandas.read_csv('Paris_random_hash.csv', sep=',')
plt.hist(df['Frequency'])
plt.show()
Run Code Online (Sandbox Code Playgroud)