标签: text-processing

如何根据另一列中的值对列中的值求和?

我有一个文本文件是:

ABC 50
DEF 70
XYZ 20
DEF 100
MNP 60
ABC 30
Run Code Online (Sandbox Code Playgroud)

我想要一个输出,它总结了各个值并将其显示为结果.例如,文件中所有ABC值的总和为(50 + 30 = 80),DEF为(100 + 70 = 170).所以输出应该总结所有唯一的第一列名称 -

ABC 80
DEF 170
XYZ 20
MNP 60
Run Code Online (Sandbox Code Playgroud)

任何帮助将不胜感激.

谢谢

scripting text-processing

14
推荐指数
3
解决办法
9981
查看次数

有没有办法在python中将Wikitext转换为Markdown?

是否有一个python库,它采用wikitext(在mediawiki中使用)输入并将其转换为markdown?

python markdown mediawiki text-processing

14
推荐指数
2
解决办法
6803
查看次数

BufferedReader:将多行读入单个字符串

我正在使用BufferedReader从txt文件中读取数字进行分析.我现在的方式是 - 使用.readline读取一行,使用.split将此字符串拆分为一个字符串数组

public InputFile () {
    fileIn = null;

    //stuff here

    fileIn = new FileReader((filename + ".txt"));
    buffIn = new BufferedReader(fileIn);


    return;
    //stuff here
}
Run Code Online (Sandbox Code Playgroud)
public String ReadBigStringIn() {
    String line = null;

    try { line = buffIn.readLine(); }
    catch(IOException e){};

    return line;
}
Run Code Online (Sandbox Code Playgroud)
public ProcessMain() {
    initComponents();
    String[] stringArray;
    String line;

    try {
        InputFile stringIn = new InputFile();
        line = stringIn.ReadBigStringIn();
        stringArray = line.split("[^0-9.+Ee-]+"); 
        // analysis etc.
    }
}
Run Code Online (Sandbox Code Playgroud)

这工作正常,但如果txt文件有多行文本怎么办?有没有办法输出一个长字符串,或者可能是另一种方法呢?也许用while(buffIn.readline != null) {}?不知道如何实现这一点.

感谢赞赏,谢谢.

java text-processing bufferedreader

14
推荐指数
2
解决办法
5万
查看次数

如何将多行文本转换为一行?

我正在尝试将生成的密钥生成一行的txt文件.例:

<----- key start ----->
lkdjasdjskdjaskdjasdkj
skdhfjlkdfjlkdsfjsdlfk
kldshfjlsdhjfksdhfksdj
jdhsfkjsdhfksdjfhskdfh
jhdfkjsdhfkjsdhfkjsdhf
<----- key stop ----->
Run Code Online (Sandbox Code Playgroud)

我希望它看起来像:

lkdjasdjskdjaskdjasdkjskdhfjlkdfjlkdsfjsdlfkkldshfjlsdhjfksdhfksdjjdhsfkjsdhfksdjfhskdfhjhdfkjsdhfkjsdhfkjsdhf
Run Code Online (Sandbox Code Playgroud)

注意我也想要行<----- key start -----><----- key stop ----->删除.我怎样才能做到这一点?这会完成sed吗?

bash text-processing sed

13
推荐指数
5
解决办法
3万
查看次数

跳过文件行直到找到匹配项,然后输出其余部分

我可以编写一个简单的脚本来执行此操作,但在我不断寻求使用unix获得更多熟悉的程序时,我想学习使用内置命令的有效方法.

我需要处理具有可变数量标题行的非常大的文件.最后一个标题行包含文本'LastHeaderLine'.我想在这一行之后输出所有内容.(我不担心误报.)

unix text-processing

12
推荐指数
3
解决办法
5586
查看次数

在PHP中输出带换行符的文本文件

我正在尝试打开一个文本文件,并使用下面的代码输出其内容.文本文件包含换行符,但是当我回显文件时,它没有格式化.我该如何解决?

谢谢.

<html>

<head>

</head>

<body>

        $fh = fopen("filename.txt", 'r');

        $pageText = fread($fh, 25000);

        echo $pageText;


</body>

</html>
Run Code Online (Sandbox Code Playgroud)

html php text-processing

12
推荐指数
3
解决办法
5万
查看次数

Perl或Python:将日期从dd/mm/yyyy转换为yyyy-mm-dd

我在CSV文件的列中有很多日期,我需要将其从dd/mm/yyyy转换为yyyy-mm-dd格式.例如,17/01/2010应转换为2010-01-17.

我怎么能用Perl或Python做到这一点?

python perl text-processing date

12
推荐指数
5
解决办法
1万
查看次数

如何配置'less'来显示格式化的markdown文件?

我想有一些格式的less显示*.md降价文件 - 比如我知道less可以,对于联机帮助页等.我正在运行Ubuntu 12.04.

我将用户定义的过滤器放入.lessfilter:

#!/bin/sh
case "$1" in
  *.md)
    fn=/tmp/$1.$$.html
    markdown "$1" | html2txt > $fn  ### LOSES FORMATTING
    cat $fn                         ### TO STDOUT???
    ;;
  *)
  # We don't handle this format
  exit 1
esac
# No further processing by lesspipe necessary
exit 0
Run Code Online (Sandbox Code Playgroud)

所以,主要问题是:

  • 我怎样才能传递一些基本的格式信息less,而不是丢失它html2txt
  • 将新内容打印到stdout是否正确?或者我可以只写入*.html文件磁盘并让它less在自己的题外话处理(看到html扩展并对其进行操作?)

linux shell markdown text-processing gnu

12
推荐指数
3
解决办法
4532
查看次数

Python:从字符串中删除重复字符的最佳方法

如何使用Python从字符串中删除重复的字符?例如,假设我有一个字符串:

foo = "SSYYNNOOPPSSIISS"
Run Code Online (Sandbox Code Playgroud)

我该如何制作字符串:

foo = SYNOPSIS
Run Code Online (Sandbox Code Playgroud)

我是python的新手,我已经厌倦了,而且它正在工作.我知道有聪明和最好的方法来做到这一点......只有经验可以证明这一点..

def RemoveDupliChar(Word):
        NewWord = " "
        index = 0
        for char in Word:
                if char != NewWord[index]:
                        NewWord += char
                        index += 1
        print(NewWord.strip()) 
Run Code Online (Sandbox Code Playgroud)

注意:顺序很重要,这个问题是不是类似于一个.

python string text-processing

12
推荐指数
1
解决办法
2万
查看次数

使用换行符粘贴文本/返回格式化文本

我想做一个格式化用于邮寄地址的列,我不能获取换行符/返回载体或<br/>在制作新列时工作.

name = c("John Smith", "Patty Smith", "Sam Smith")
address = c("111 Main St.", "222 Main St.", "555 C Street")
cityState = c("Portland, OR 97212", "Portland, OR 95212", "Portland, OR 99212")
df <- data.frame(name, address, cityState)
Run Code Online (Sandbox Code Playgroud)

我想创建一个格式化地址标签中数据的列:John Smith 111 Main st.波特兰,OR 97212

每个新列:每行后都会有一个返回:所以它总是3行.其他3列中的每一列都有一行.

# example of what I am trying to do... 
paste0(name, "return", address, "return", cityState).  Everything I have tried does not work for making a newline.
Run Code Online (Sandbox Code Playgroud)

text text-processing r

11
推荐指数
2
解决办法
2万
查看次数

标签 统计

text-processing ×10

python ×3

markdown ×2

bash ×1

bufferedreader ×1

date ×1

gnu ×1

html ×1

java ×1

linux ×1

mediawiki ×1

perl ×1

php ×1

r ×1

scripting ×1

sed ×1

shell ×1

string ×1

text ×1

unix ×1