我有一个csv数据集文件,有超过300万条目.我想删除除第7个条目以外的所有条目(仅保留每第7行).如何在excel中使用text/csv功能中的"获取数据"时使用电源查询或定义函数?
我当时正在设计使用pandas,numpy和sklearn 的基本垃圾邮件分类程序(python 3),但出现此错误并且无法确定位置。我试图查看不同变量的数据类型,但是找不到位置。(火腿=不是垃圾邮件)。输入文件对此错误不做任何事情,因为它与python 2.7兼容,要么是程序包/模块兼容,要么是数据类型转换错误。
import os
import io
import numpy
from pandas import DataFrame
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
def readFiles(path):
for root, dirnames, filenames in os.walk(path):
for filename in filenames:
path = os.path.join(root, filename)
inBody = False
lines = []
f = io.open(path, 'r', encoding='latin1')
for line in f:
if inBody:
lines.append(line)
elif line == '\n':
inBody = True
f.close()
message = '\n'.join(lines)
yield path, message
def dataFrameFromDirectory(path, classification):
rows = []
index = …Run Code Online (Sandbox Code Playgroud)