小编Sit*_*ogz的帖子

通过推文位置和用户位置来抓取推文

我试图使用tweepy使用推文位置下载推文而不是用户位置.目前,我可以使用用户位置下载推文,但即使geo_enabled返回True 也无法获取推文位置.

例如,假设user_a来自纽约,但他来自加利福尼亚的推文.我想要用户位置,纽约和推文位置,加利福尼亚州.

码:

import tweepy
from tweepy import Stream
from tweepy import OAuthHandler
from tweepy.streaming import StreamListener
import pandas as pd
import json
import csv
import sys
reload(sys)
sys.setdefaultencoding('utf8')

ckey = 'key'
csecret = 'secret'
atoken = 'token'
asecret = 'secret'
#csvfile = open('StreamSearch.csv','a')
#csvwriter = csv.writer(csvfile, delimiter = ',')

class StdOutListener(StreamListener):
    def __init__(self, api=None):
        super(StdOutListener, self).__init__()
        self.num_tweets = 0

    def on_data(self, data):
        self.num_tweets += 1
        if self.num_tweets < 5: #Remove the limit of no. …

Run Code Online (Sandbox Code Playgroud)

python twitter geolocation tweepy

Sit*_*ogz

2015 12-14

11
推荐指数

1
解决办法

6766
查看次数

Pandas Column数学运算无错误无答案

我试图对文件执行一些简单的数学运算.

下面的列file_1.csv本质上是动态的,列数会不时增加.所以我们不能修复last_column

master_ids.csv :在进行任何预处理之前

Ids,ref0 #the columns increase dynamically
1234,1000
8435,5243
2341,563
7352,345

Run Code Online (Sandbox Code Playgroud)

master_count.csv :任何处理之前

Ids,Name,lat,lon,ref1
1234,London,40.4,10.1,500
8435,Paris,50.5,20.2,400
2341,NewYork,60.6,30.3,700
7352,Japan,70.7,80.8,500
1234,Prague,40.4,10.1,100
8435,Berlin,50.5,20.2,200
2341,Austria,60.6,30.3,500
7352,China,70.7,80.8,300

Run Code Online (Sandbox Code Playgroud)

master_Ids.csv :经过一次预处理

Ids,ref,00:30:00
1234,1000,500
8435,5243,300
2341,563,400
7352,345,500

Run Code Online (Sandbox Code Playgroud)

master_count.csv:预期输出(追加/合并)

Ids,Name,lat,lon,ref1,00:30:00
1234,London,40.4,10.1,500,750
8435,Paris,50.5,20.2,400,550
2341,NewYork,60.6,30.3,700,900
7352,Japan,70.7,80.8,500,750
1234,Prague,40.4,10.1,100,350
8435,Berlin,50.5,20.2,200,350
2341,Austria,60.6,30.3,500,700
7352,China,70.7,80.8,300,750

Run Code Online (Sandbox Code Playgroud)

例如:Ids: 1234出现2这样的值乘以ids:1234在current time (00:30:00)是500这是通过计数被分割ids发生,然后从添加到相应的值ref1,并创建与当前时间的新列.

master_Ids.csv :经过另一次预处理

Ids,ref,00:30:00,00:45:00
1234,1000,500,100
8435,5243,300,200
2341,563,400,400
7352,345,500,600

Run Code Online (Sandbox Code Playgroud)

master_count.csv:另一次执行后的预期输出(合并/追加)

Ids,Name,lat,lon,ref1,00:30:00,00:45:00
1234,London,40.4,10.1,500,750,550
8435,Paris,50.5,20.2,400,550,500
2341,NewYork,60.6,30.3,700,900,900
7352,Japan,70.7,80.8,500,750,800
1234,Prague,40.4,10.1,100,350,150
8435,Berlin,50.5,20.2,200,350,300
2341,Austria,60.6,30.3,500,700,700 …

Run Code Online (Sandbox Code Playgroud)

python csv datetime multiple-columns pandas

Sit*_*ogz

2017 05-23

9
推荐指数

1
解决办法

331
查看次数

无法使用推文刮取地理坐标[Lat-Lon]

我试图使用Tweepy API下载推文但是我无法在输出中获得地理坐标.

我正在寻找在输出数据中包含纬度和经度的方法.

任何帮助表示赞赏..在此先感谢.代码在python 3.x中开发,输出打印屏幕附在代码下方.

我已经看到一些用户不共享位置详细信息,但我能够从该地理位置抓取数据,所以即使我能够通过程序在输出中包含lat-lon也会很棒.

码

import tweepy
from tweepy import Stream
from tweepy import OAuthHandler
from tweepy.streaming import StreamListener
import pandas as pd
import json
import csv
import sys
import time

#reload(sys)
#sys.setdefaultencoding('utf8')

ckey = 'XXXXX'
csecret = 'XXXXXXX'
atoken = 'XXXXXX'
asecret = 'XXXXXX'

def toDataFrame(tweets):
    # COnvert to data frame
    DataSet = pd.DataFrame()

    DataSet['tweetID'] = [tweet.id for tweet in tweets]
    DataSet['tweetText'] = [tweet.text.encode('utf-8') for tweet in tweets]
    DataSet['tweetRetweetCt'] = [tweet.retweet_count for tweet in tweets]
    DataSet['tweetFavoriteCt'] = …

Run Code Online (Sandbox Code Playgroud)

python csv twitter geolocation latitude-longitude

Sit*_*ogz

lucky-day

9
推荐指数

2
解决办法

1533
查看次数

从Twitter抓取用户位置

我试图从Twitter上获取用户名的用户经度和经度.用户名列表是一个csv文件,在一个输入文件中有超过50个名称.以下是我迄今为止所做的两项试验.他们似乎都没有工作.任何一个程序或全新方法的更正都是受欢迎的.

我有列表,User_names我正在尝试查找用户配置文件并geolocation从配置文件或时间线中提取.我无法在互联网上找到很多样本.

我正在寻找一种更好的方法来从Twitter获取用户的地理位置.我甚至找不到一个显示收集用户位置的示例,参考User_name或user_id.它甚至可能在第一位？

输入:输入文件的行数超过50k

AfsarTamannaah,6.80E+17,12/24/2015,#chennaifloods
DEEPU_S_GIRI,6.80E+17,12/24/2015,#chennaifloods
DEEPU_S_GIRI,6.80E+17,12/24/2015,#weneverletyoudownstr
ndtv,6.80E+17,12/24/2015,#chennaifloods
1andonlyharsha,6.79E+17,12/21/2015,#chennaifloods
Shashkya,6.79E+17,12/21/2015,#moneyonmobile
Shashkya,6.79E+17,12/21/2015,#chennaifloods
timesofindia,6.79E+17,12/20/2015,#chennaifloods
ANI_news,6.78E+17,12/20/2015,#chennaifloods
DrAnbumaniPMK,6.78E+17,12/19/2015,#chennaifloods
timesofindia,6.78E+17,12/18/2015,#chennaifloods
SRKCHENNAIFC,6.78E+17,12/18/2015,#dilwalefdfs
SRKCHENNAIFC,6.78E+17,12/18/2015,#chennaifloods
AmeriCares,6.77E+17,12/16/2015,#india
AmeriCares,6.77E+17,12/16/2015,#chennaifloods
ChennaiRainsH,6.77E+17,12/15/2015,#chennairainshelp
ChennaiRainsH,6.77E+17,12/15/2015,#chennaifloods
AkkiPritam,6.77E+17,12/15/2015,#chennaifloods

Run Code Online (Sandbox Code Playgroud)

码:

import tweepy
from tweepy import Stream
from tweepy.streaming import StreamListener
from tweepy import OAuthHandler
import pandas as pd
import json
import csv
import sys
import time

CONSUMER_KEY = 'XYZ'
CONSUMER_SECRET = 'XYZ'
ACCESS_KEY = 'XYZ'
ACCESS_SECRET = 'XYZ'

auth = OAuthHandler(CONSUMER_KEY,CONSUMER_SECRET)
api = tweepy.API(auth)
auth.set_access_token(ACCESS_KEY, ACCESS_SECRET)

data = pd.read_csv('user_keyword.csv')

df = ['user_name', 'user_id', …

Run Code Online (Sandbox Code Playgroud)

geolocation twython tweepy python-2.7 pandas

Sit*_*ogz

2016 07-22

7
推荐指数

1
解决办法

1227
查看次数

使用Selenium Python进行网页搜索[Twitter + Instagram]

我正在尝试基于地理定位来抓取Instagram和Twitter.我可以运行查询搜索但我在将网页重新加载到更多并将字段存储到数据框时遇到了挑战.

我确实找到了几个没有API密钥的网页抓取Twitter和Instagram的例子.但它们与#tags关键字有关.

我试图抓住地理位置和旧日期之间.到目前为止,我已经在python 3.X中编写代码以及anaconda中所有最新版本的软件包.

'''
    Instagram - Components
    "id": "1478232643287060472", 
     "dimensions": {"height": 1080, "width": 1080}, 
     "owner": {"id": "351633262"}, 
     "thumbnail_src": "https://instagram.fdel1-1.fna.fbcdn.net/t51.2885-15/s640x640/sh0.08/e35/17439262_973184322815940_668652714938335232_n.jpg", 
     "is_video": false, 
     "code": "BSDvMHOgw_4", 
     "date": 1490439084, 
     "taken-at=213385402"
     "display_src": "https://instagram.fdel1-1.fna.fbcdn.net/t51.2885-15/e35/17439262_973184322815940_668652714938335232_n.jpg", 
     "caption": "Hakuna jambo zuri kama kumpa Mungu shukrani kwa kila jambo.. \ud83d\ude4f\ud83c\udffe\nIts weekend\n#lifeistooshorttobeunhappy\n#Godisgood \n#happysoul \ud83d\ude00", 
     "comments": {"count": 42}, 
     "likes": {"count": 3813}}, 
'''


import selenium
from selenium import webdriver
#from selenium import selenium
from bs4 import BeautifulSoup
import pandas

#geotags = pd.read_csv("geocodes.csv")
#parmalink = 
query = geocode%3A35.68501%2C139.7514%2C30km%20since:2016-03-01%20until:2016-03-02&f=tweets

twitterURL = 'https://twitter.com/search?q=' + query …

Run Code Online (Sandbox Code Playgroud)

python twitter web-scraping pandas instagram

Sit*_*ogz

2017 04-08

7
推荐指数

1
解决办法

1738
查看次数

Tweepy错误代码400

我试图下载一些推文用于研究目的,代码工作得很好,直到几天前.

错误信息

> Traceback (most recent call last):
> 
>   File "<ipython-input-1-10547a7aea4c>", line 1, in <module>
>     runfile('F:/twitter_locations_n_scraper/02_twitterscrapping.py', wdir='F:/twitter_locations_n_scraper')
> 
>   File
> "C:\ProgramData\Anaconda3\lib\site-packages\spyder_kernels\customize\spydercustomize.py",
> line 668, in runfile
>     execfile(filename, namespace)
> 
>   File
> "C:\ProgramData\Anaconda3\lib\site-packages\spyder_kernels\customize\spydercustomize.py",
> line 108, in execfile
>     exec(compile(f.read(), filename, 'exec'), namespace)
> 
>   File "F:/twitter_locations_n_scraper/02_twitterscrapping.py", line
> 70, in <module>
>     for item in cursor.items(1000): # Remove the limit to 1000
> 
>   File "C:\ProgramData\Anaconda3\lib\site-packages\tweepy\cursor.py",
> line 49, in __next__
>     return self.next()
> …

Run Code Online (Sandbox Code Playgroud)

python tweepy anaconda

Sit*_*ogz

2018 08-28

7
推荐指数

1
解决办法

847
查看次数

如何使用python为文本添加标点符号？

我在玩IBM Watson Speech To Text Service API.对于那些不知道这项服务被用来转录音频的人.您将音频文件上载到服务并返回文本.到目前为止,该服务一直很好,但问题是返回的文本不包含标点符号.我试过解决这个问题nltk,但没有结果.

nltk我试过的一些代码.

#string is the text
string = """Hey guys today I'm gonna show you how to make bulletproof coffee so free guys and never heard a blooper coffee it's been around since like two thousand two been around for awhile but i think it's been a lot more popular now probably within the last maybe year two years so for me I recently just started doing bulletproof coffee …

Run Code Online (Sandbox Code Playgroud)

python nltk

jet*_*d13

2015 07-20

6
推荐指数

2
解决办法

2667
查看次数

是否可以将Python Seaborn与plotly集成

我正在寻找python seaborn中plot.ly的一些指导.是否有可能在plot.ly上有seaborn图？

有没有可用的示例或教程？请帮忙.提前致谢.

python plot data-visualization plotly seaborn

Sit*_*ogz

lucky-day

6
推荐指数

1
解决办法

2946
查看次数

从节点列表中提取边缘和社区

我有数据集,其节点超过50k,我试图从中提取可能的边和社区.我尝试使用一些图形工具,如gephi,cytoscape,socnet,nodexl等来可视化和识别边缘和社区,但节点列表对于那些工具来说太大了.因此我试图编写脚本以确定边缘和社区.其他列是具有GPS位置的连接开始日期时间和结束日期时间.

输入:Id,starttime,endtime,gps1,gps2

0022d9064bc,1073260801,1073260803,819251,440006
00022d9064bc,1073260803,1073260810,819213,439954
00904b4557d3,1073260803,1073261920,817526,439458
00022de73863,1073260804,1073265410,817558,439525
00904b14b494,1073260804,1073262625,817558,439525
00904b14b494,1073260804,1073265163,817558,439525
00904b14b494,1073260804,1073263786,817558,439525
00022d1406df,1073260807,1073260809,820428,438735
00022d1406df,1073260807,1073260878,820428,438735
00022d623dfe,1073260810,1073276346,819251,440006
00022d7317d7,1073260810,1073276155,819251,440006
00022d9064bc,1073260810,1073272525,819251,440006
00022d9064bc,1073260810,1073260999,819251,440006
00022d9064bc,1073260810,1073260857,819251,440006
0030650c9eda,1073260811,1073260813,820356,439224
00022d0e0cec,1073260813,1073262843,820187,439271
00022d176cf3,1073260813,1073260962,817721,439564
000c30d8d2e8,1073260813,1073260902,817721,439564
00904b243bc4,1073260813,1073260962,817721,439564
00904b2fc34d,1073260813,1073260962,817721,439564
00904b52b839,1073260813,1073260962,817721,439564
00904b9a5a51,1073260813,1073260962,817721,439564
00904ba8b682,1073260813,1073260962,817721,439564
00022d3be9cd,1073260815,1073261114,819269,439403
00022d80381f,1073260815,1073261114,819269,439403
00022dc1b09c,1073260815,1073261114,819269,439403
00022d36a6df,1073260817,1073260836,820761,438607
00022d36a6df,1073260817,1073260845,820761,438607
003065d2d8b6,1073260817,1073267560,817735,439757
00904b0c7856,1073260817,1073265149,817735,439757
00022de73863,1073260825,1073260879,817558,439525
00904b14b494,1073260825,1073260879,817558,439525
00904b312d9e,1073260825,1073260879,817558,439525
00022d15b1c7,1073260826,1073260966,820353,439280
00022dcbe817,1073260826,1073260966,820353,439280

Run Code Online (Sandbox Code Playgroud)

我正在尝试实现无向加权/未加权图.任何有关编码建议的帮助都非常感谢.

提前致谢

python nodes networkx pandas edge-list

Sit*_*ogz

2019 05-05

6
推荐指数

1
解决办法

823
查看次数