小编Sit*_*ogz的帖子

如果你指向一个站点地图托管在不同的域上会不会影响搜索引擎优化？

我们定期使用a计算我们的站点地图cron job并将结果存储在中s3.

我们可以301将https://oursite.com/sitemap.xml重定向到托管在的sitemap.xml s3吗？

我知道站点地图规范要求站点地图位于同一个域(http://www.sitemaps.org/protocol.html#location).不过,如果一个301一个off-domain URL通过各大搜索服务提供商被视为是在同一个域或关闭呢？

sitemap seo

Jak*_*ake

2015 07-09

4
推荐指数

1
解决办法

1112
查看次数

Pandas从str.extractall('#')给出错误

我试图#从推文文本中过滤掉所有关键字.我str.extractall()用来提取关键字的所有#关键字.这是我第一次使用pandas从tweetText过滤关键字.输入,代码,预期输出和错误如下.

输入:

userID,tweetText 
01, home #sweet home
01, #happy #life 
02, #world peace
03, #all are one
04, world tour

Run Code Online (Sandbox Code Playgroud)

等等...总数据文件采用GB大小的推文推文和其他几列.但我只对两个栏目感兴趣.

码:

import re
import pandas as pd

data = pd.read_csv('Text.csv', index_col=0, header=None, names=['userID', 'tweetText'])

fout = data['tweetText'].str.extractall('#')

print fout

Run Code Online (Sandbox Code Playgroud)

预期产出:

userID,tweetText 
01,#sweet
01,#happy 
01,#life 
02,#world
03,#all

Run Code Online (Sandbox Code Playgroud)

错误:

Traceback (most recent call last):
  File "keyword_split.py", line 7, in <module>
    fout = data['tweetText'].str.extractall('#')
  File "/usr/local/lib/python2.7/dist-packages/pandas/core/strings.py", line 1621, in extractall
    return str_extractall(self._orig, pat, flags=flags)
  File "/usr/local/lib/python2.7/dist-packages/pandas/core/strings.py", …

Run Code Online (Sandbox Code Playgroud)

python pandas

Sit*_*ogz

2016 07-25

4
推荐指数

2
解决办法

5913
查看次数

TypeError：python 3.x Anaconda中-：'str'和'str'的不支持的操作数类型

我正在尝试计算大型数据集中每小时每小时的一些实例。下面的代码在python 2.7上似乎可以正常工作，但是我必须将它更新为Anaconda上所有更新包的python 3.x最新版本。当我尝试执行程序时，出现以下str错误

码：

import pandas as pd
from datetime import datetime,time
import numpy as np

fn = r'00_input.csv'
cols = ['UserId', 'UserMAC', 'HotspotID', 'StartTime', 'StopTime']
df = pd.read_csv(fn, header=None, names=cols)

df['m'] = df.StopTime + df.StartTime
df['d'] = df.StopTime - df.StartTime

# 'start' and 'end' for the reporting DF: `r`
# which will contain equal intervals (1 hour in this case)
start = pd.to_datetime(df.StartTime.min(), unit='s').date()
end = pd.to_datetime(df.StopTime.max(), unit='s').date() + pd.Timedelta(days=1)

# building reporting DF: `r`
freq = …

Run Code Online (Sandbox Code Playgroud)

python pandas anaconda

Sit*_*ogz

lucky-day

3
推荐指数

1
解决办法

9135
查看次数

'float'对象没有属性'astype'

我试图在数据帧的列中找到中值.我得到的中值是浮点数,但我需要整数格式.

c_med = round(df['count'].median().astype(int))

c_med = round(df['count'].median()).astype(int)

Run Code Online (Sandbox Code Playgroud)

以上两种类型都给我这个错误.如果astype(int)删除,那么答案是正确的.

错误

Traceback (most recent call last):
  File "all_median.py", line 16, in <module>
    c_med = round(df['count'].median()).astype(int)
AttributeError: 'float' object has no attribute 'astype'

Run Code Online (Sandbox Code Playgroud)

python median pandas

Sit*_*ogz

2016 07-28

1
推荐指数

1
解决办法

2万
查看次数

从数据框中删除特殊字符和字母数字的简单方法

我有一个包含x行和y列数的大型数据集.其中一列作为单词和一些不需要的数据.不需要的数据没有特定的模式,因此我发现很难从数据帧中删除它.

nonhashtag
['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates']
['Just', 'posted', 'photo', 'Rasim', 'Villa']
['Dhabi', 'International', 'Airport', '(AUH)', '\xd9\x85\xd8\xb7\xd8\xa7\xd8\xb1', '\xd8\xa3\xd8\xa8\xd9\x88', '\xd8\xb8\xd8\xa8\xd9\x8a', '\xd8\xa7\xd9\x84\xd8\xaf\xd9\x88\xd9\x84\xd9\x8a', 'Dhabi']
['just', 'shrug', 'off!', 'Dubai', 'Mall', 'Burj', 'Khalifa']
['out!', 'Cowboy', 'steppin', 'Notorious', 'going', 'sleep!', 'Make', 'happen']
['Buona', 'notte', '\xd1\x81\xd0\xbf\xd0\xbe\xd0\xba\xd0\xbe\xd0\xb9\xd0\xbd\xd0\xbe\xd0\xb9', '\xd0\xbd\xd0\xbe\xd1\x87\xd0\xb8', '\xd9\x84\xd9\x8a\xd9\x84\xd8\xa9', '\xd8\xb3\xd8\xb9\xd9\x8a\xd8\xaf\xd8\xa9!', '\xd8\xa3\xd8\xa8\xd9\x88', '\xd8\xb8\xd8\xa8\xd9\x8a', 'Viceroy', 'Hotel,', 'Yas\xe2\x80\xa6']

Run Code Online (Sandbox Code Playgroud)

每个不是单词的字符都将被删除,这只是大数据集中的一列.列名是nonhashtag

清洁色谱柱的简单方法是什么？直接将它们取下或更换NAN

预期产出

nonhashtag
    ['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates']
    ['Just', 'posted', 'photo', 'Rasim', 'Villa']
    ['Dhabi', 'International', 'Airport', '(AUH)', 'Dhabi']
    ['just', 'shrug', 'off!', 'Dubai', 'Mall', 'Burj', 'Khalifa']
    ['out!', …

Run Code Online (Sandbox Code Playgroud)

python regex dataframe pandas data-cleaning

Sit*_*ogz

2017 05-17

1
推荐指数

2
解决办法

7989
查看次数

概率分布函数Python

我有一组原始数据,我必须确定该数据的分布.绘制概率分布函数的最简单方法是什么？我试过在正态分布中拟合它.

但是我更好奇地知道数据本身带有哪些分布？

我没有代码来显示我的进度,因为我没有在python中找到任何允许我测试数据集分布的函数.我不想切片数据并强制它适合可能正常或偏斜分布.

有没有办法确定数据集的分布？任何建议表示赞赏.

这是正确的方法吗？示例
这是我正在寻找的东西,但它再次使数据符合正态分布.例

编辑:

输入有数百万行,下面给出了简短的样本

Hashtag,Frequency
#Car,45
#photo,4
#movie,6
#life,1

Run Code Online (Sandbox Code Playgroud)

从频率范围1来20,000算,我试图找出关键字的频率分布.我尝试绘制一个简单的直方图,但我将输出作为单个条形图.

码:

import pandas
import matplotlib.pyplot as plt


df = pandas.read_csv('Paris_random_hash.csv', sep=',')
plt.hist(df['Frequency'])
plt.show()

Run Code Online (Sandbox Code Playgroud)

产量

python visualization numpy matplotlib pandas

Sit*_*ogz

2017 05-23

-4
推荐指数

1
解决办法

1万
查看次数

标签统计

pandas ×5

python ×5

anaconda ×1

data-cleaning ×1

dataframe ×1

matplotlib ×1

median ×1

numpy ×1

regex ×1

seo ×1

sitemap ×1

visualization ×1

如果你指向一个站点地图托管在不同的域上会不会影响搜索引擎优化？

Pandas从str.extractall('#')给出错误

TypeError：python 3.x Anaconda中-：'str'和'str'的不支持的操作数类型

'float'对象没有属性'astype'

从数据框中删除特殊字符和字母数字的简单方法

概率分布函数Python

标签 统计

小编Sit_ogz的帖子

标签统计