标签: data-processing

正则表达式在一行中的每n个字符和完整单词之前插入"\ r"(基本上是一个wordwrap功能)

我是JavaScript和正则表达的新手.我正在尝试将文本文档自动格式化为每行特定数量的字符,或者在单词前加上"\ r".

这在功能上类似于许多文本编辑器中的Wordwrap.

例如.我想要每行10个字符

原文:我叫Davey Blue.

修改:我的名字\ ris Davey\rBlue.

看,如果第10个字符是单词,它会将整个单词放入一个新行.

我认为以下应该在某种程度上起作用/.{1,10}/(这应该找到任何10个字符对吗?)

不确定如何去休息.

请帮忙.

javascript regex data-processing

3
推荐指数
1
解决办法
9247
查看次数

检查Django request.POST中的内容

我通过request.POST接受数据,如下所示:

if request.method == 'POST': 
    l = Location() 
    data = l.getGeoPoints(request.POST) 
    appid = settings.GOOGLE_API_KEY 

    return render_to_response('map.html',  
                               {'data': data, 'appid': appid}, 
                               context_instance=RequestContext(request)) 
Run Code Online (Sandbox Code Playgroud)

它接受来自一堆名为form-0-location的文本输入框的数据,一直到form-5-location.

我要添加的是检查以确保request.POST包含任何这些输入字段中的数据.我认为我的问题是我不知道在Django中描述这个的正确术语.

我知道如何在PHP中做到这一点:查看$ _POST内部至少其中一个字段不为空,但我似乎无法通过搜索谷歌找到正确的答案.

如果我在这些输入字段中找不到任何数据,我想将用户重定向回主页面.

forms django data-processing

2
推荐指数
2
解决办法
2万
查看次数

如何使用perl在一行中多次出现的方括号之间提取数据?

我有一行包含方形括号数据的多个实例.

[data 1] junk [data 2] junk,junk [data 3] junk [data 4]
Run Code Online (Sandbox Code Playgroud)

有没有人有goo正则表达式?所以我可以使用

print $1,$2,$3,$4;
Run Code Online (Sandbox Code Playgroud)

谢谢!

regex perl data-processing

2
推荐指数
1
解决办法
2771
查看次数

(C)虚拟网络适配器

在linux中是否有任何方式以编程方式创建可以侦听的虚拟网络适配器,以便每当尝试通过适配器发送数据时,都会调用一个方法?

我试图将所有数据包转发到单个IP地址,然后将其原始位置包含在数据包中.

这样的事情:

void sendPacket(char to[], char data[])
Run Code Online (Sandbox Code Playgroud)

因此,如果我通过虚拟网络适配器ping google.com,则会像这样调用该方法 sendPacket("GooglesIp","Whatever data a ping sends")

c linux networking data-processing packet

2
推荐指数
1
解决办法
1491
查看次数

Excel:在"命令文本"中发送多个值

位于"数据>连接>属性>定义(选项卡)>命令文本"中,我有以下内容:

{Call SP_calculo_algo(?)}
Run Code Online (Sandbox Code Playgroud)

命令文本

目前,该函数只通过它具有的唯一参数只接收一个值,根据某人告诉我,它由问号(?)的字符表示.

我需要的是通过函数发送两(2)个值,因为我有SQL查询返回引用两个日期之间范围的数据.例如:开始日期(参数1)和结束日期(参数2).

你能帮助我吗?

sql excel data-processing

2
推荐指数
1
解决办法
2万
查看次数

熊猫数据框选择基数最小的组

我有一个问题,我需要从数据帧中获取一组行,其中一组中的项数超过一定数量(截止)。对于那些小组,我需要坐一些头排和尾排。

我正在使用下面的代码

train = train[train.groupby('id').id.transform(len) > headRows]
groups = pd.concat([train.groupby('id').head(headRows),train.groupby('id').tail(1)]).sort_index()
Run Code Online (Sandbox Code Playgroud)

这可行。但是第一行非常慢:(。30分钟或更长时间。

有什么方法可以使第一行更快?如果我不使用第一行,则第二行的结果中存在重复的索引,这使事情变得混乱。

在此先感谢

注意:我的火车数据框包含约70,000个组,这些组的大小各不相同,超过700,000行。实际上,它来自我的另一个问题,如此处所示:在Python Pandas Dataframe中动态添加列的数据处理。Jeff在此处给出了一个很好的答案,但是如果组大小小于或等于我在连接行时传递给head(parameter)的参数,则失败,如Jeffs的回答:在[31]中:groups = concat .....

python data-processing dataframe pandas

2
推荐指数
1
解决办法
1977
查看次数

如何在RNN TensorFlow中使用非常大的数据集?

我有一个非常大的数据集:7.9 GB的CSV文件。其中80%作为培训数据,其余20%作为测试数据。当我加载训练数据(6.2 GB)时,我MemoryError处于第80次迭代(第8​​0个文件)。这是我用于加载数据的脚本:

import pandas as pd
import os

col_names = ['duration', 'service', 'src_bytes', 'dest_bytes', 'count', 'same_srv_rate',
        'serror_rate', 'srv_serror_rate', 'dst_host_count', 'dst_host_srv_count',
        'dst_host_same_src_port_rate', 'dst_host_serror_rate', 'dst_host_srv_serror_rate',
        'flag', 'ids_detection', 'malware_detection', 'ashula_detection', 'label', 'src_ip_add',
        'src_port_num', 'dst_ip_add', 'dst_port_num', 'start_time', 'protocol']

# create a list to store the filenames
files = []

# create a dataframe to store the contents of CSV files
df = pd.DataFrame()

# get the filenames in the specified PATH
for (dirpath, dirnames, filenames) in os.walk(path):
    ''' Append to the …
Run Code Online (Sandbox Code Playgroud)

machine-learning dataset data-processing pandas tensorflow

2
推荐指数
2
解决办法
4391
查看次数

从R中的字符串中匹配提取国家名称

我一直在从网站上抓取评论数据,在此过程中,我能够获取包含用户名、评论数量、评论日期和国家/地区信息的字符串向量。它们看起来大致是这样的

raw <- c("Anna (1025) - North Carolina, USA - DEC 20, 2017", 
"James (10) - - MEXICO - NOV 22, 2017", 
"Susane (222) - Oulu, FINLAND - JUNE 1, 2016", 
"Alex (20000) - SOUTH KOREA- MAR 11, 2015")
Run Code Online (Sandbox Code Playgroud)

到目前为止,我可以提取名称、评论编号和日期,因为它们位于定义的位置或具有一致的格式。问题在于,国家/地区名称格式的位置不一致,并且每个字符串中的各个数据点没有一致地用逗号或破折号分隔。仅提取大写字符串就会遇到缺少国家或名称中有两个部分的国家的问题。

地图包包含国家/地区列表。有没有一种方法可以用来str_extract_allstringr国家/地区列表向量中查找匹配项并提取该匹配项?

r data-processing web-scraping stringr dplyr

2
推荐指数
1
解决办法
4344
查看次数

需要根据特定列上的某些规则在熊猫数据框中添加新列

我在Pandas中有一个数据框(使用Python 3.7),如下所示:

print("DATA FRAME DATA= \n",bin_data_df_sorted.head(5))
# OUTPUT:
# DATA FRAME DATA= 
#     actuals  probability
# 0      0.0     0.116375
# 1      0.0     0.239069
# 2      1.0     0.591988
# 3      0.0     0.273709
# 4      1.0     0.929855
Run Code Online (Sandbox Code Playgroud)

我需要添加名为“ bucket”的额外列,例如:

If probability value in between (0,0.1), then bucket=1
If probability value in between (0.1,0.2), then bucket=2
If probability value in between (0.2,0.3), then bucket=3
If probability value in between (0.3,0.4), then bucket=4
If probability value in between (0.4,0.5), then bucket=5
If probability value …
Run Code Online (Sandbox Code Playgroud)

python data-processing pandas

2
推荐指数
1
解决办法
50
查看次数

Apache NiFi:使用映射值将列添加到 csv

使用 GetFile 处理器将 csv 导入 NiFi 工作流程。我有一列由“id”组成。每个id代表一个特定的字符串。大约有3个id。例如,如果我的 csv 包含

name,age,id
John,10,Y
Jake,55,N
Finn,23,C
Run Code Online (Sandbox Code Playgroud)

我知道 Y 表示约克 (York),N 表示旧 (Old),C 表示猫 (Cat)。我想要一个新列,其标题名为“nick”,并且每个 id 都有相应的昵称。

name,age,id,nick
John,10,Y,York
Jake,55,N,Old
Finn,23,C,Cat
Run Code Online (Sandbox Code Playgroud)

最后,我想要一个带有额外列和每条记录的适当数据的 csv。使用 Apache NiFi 这怎么可能?请建议我必须使用的处理器以及必须更改的配置才能完成此任务。

data-processing apache-nifi

2
推荐指数
1
解决办法
4840
查看次数