标签: extract

public class SampleZipExtract {


    public static void main(String[] args) {

        List<String> tempString = new ArrayList<String>();
        StringBuffer sbf = new StringBuffer();

        File file = new File("C:\\Users\\xxx\\Desktop\\abc.zip");
        InputStream input;
        try {

          input = new FileInputStream(file);
          ZipInputStream zip = new ZipInputStream(input);
          ZipEntry entry = zip.getNextEntry();

          BodyContentHandler textHandler = new BodyContentHandler();
          Metadata metadata = new Metadata();

          Parser parser = new AutoDetectParser();

          while (entry!= null){

                if(entry.getName().endsWith(".txt") || 
                           entry.getName().endsWith(".pdf")||
                           entry.getName().endsWith(".docx")){
              System.out.println("entry=" + entry.getName() + " " + entry.getSize());
                     parser.parse(input, textHandler, …

Run Code Online (Sandbox Code Playgroud)

java zip extract apache-tika

S J*_*esh

lucky-day

62
推荐指数

3
解决办法

14万
查看次数

在python中从PDF中提取图像而不重新采样？

如何从原始分辨率和格式中提取pdf文档中的所有图像？(意思是提取tiff为tiff,jpeg为jpeg等,无需重新采样).布局是不重要的,我不在乎是源图像位于页面上.

我正在使用python 2.7,但如果需要可以使用3.x.

python pdf image extract pypdf

mat*_*kie

2015 12-12

61
推荐指数

13
解决办法

7万
查看次数

Java:在eclipse中导出到.jar文件

我正在尝试将Eclipse中的程序导出到jar文件中.

在我的项目中,我添加了一些图片和PDF:s.当我导出到jar文件时,似乎只有main已编译和导出.

如果可能的话,我的意思是将所有内容导出到jar文件,因为那时我想将它转换为可编辑的文件,如.exe-file.

但是怎么样？

java eclipse executable exe extract

Adi*_*dis

2017 04-27

56
推荐指数

3
解决办法

20万
查看次数

python pandas从datetime中提取年份--- df ['year'] = df ['date'].年份不起作用

对于这个似乎重复的问题我很抱歉 - 我希望答案会让我觉得自己像个傻瓜......但是我没有运气使用SO上类似问题的答案.

我正在导入数据read_csv,但由于某些我无法弄清楚的原因,我无法从数据帧系列中提取年份或月份df['date'].

date    Count
6/30/2010   525
7/30/2010   136
8/31/2010   125
9/30/2010   84
10/29/2010  4469

df = pd.read_csv('sample_data.csv',parse_dates=True)

df['date'] = pd.to_datetime(df['date'])

df['year'] = df['date'].year
df['month'] = df['date'].month

Run Code Online (Sandbox Code Playgroud)

但这回归:

AttributeError:'Series'对象没有属性'year'

提前致谢.

更新:

df = pd.read_csv('sample_data.csv',parse_dates=True)

df['date'] = pd.to_datetime(df['date'])

df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month

Run Code Online (Sandbox Code Playgroud)

这会生成相同的"AttributeError:'Series'对象没有属性'dt'"

跟进:

我使用Spyder 2.3.1和Python 3.4.1 64位,但无法将pandas更新到更新的版本(目前在0.14.1上).以下每个都会生成无效的语法错误:

conda update pandas

conda install pandas==0.15.2

conda install -f pandas

Run Code Online (Sandbox Code Playgroud)

有任何想法吗？

python datetime extract dataframe pandas

MJS*_*MJS

2015 05-26

56
推荐指数

4
解决办法

10万
查看次数

从EXE中提取MSI

我想提取EXE设置的MSI以通过网络发布.

例如,使用Universal Extractor,但它不适用于Java Runtime Environment.

installation windows-installer installshield wix extract

emd*_*ar2

2018 10-03

53
推荐指数

6
解决办法

22万
查看次数

通过机器学习从网页中提取信息

我想从 Python中的网页中提取特定类型的信息.让我们说邮政地址.它有数千种形式,但仍然可以辨认出来.由于存在大量表单,因此编写正则表达式甚至是语法之类的东西并使用解析器生成器来解析它可能非常困难.

所以我认为应该采用的方式是机器学习.如果我理解得很好,我应该能够制作一个数据样本,在那里我将指出应该是什么结果,然后我有一些东西可以从中学习如何自己识别结果.这就是我对机器学习的全部了解.也许我可以使用一些自然语言处理,但可能并不多,因为所有的图书馆都使用英语,我需要这个用于捷克语.

问题:

我可以通过机器学习轻松解决这个问题吗？这是一个好方法吗？
有没有简单的例子可以让我开始？我是机器学习菜鸟,我需要一些实用的东西; 更接近我的问题更好; 更简单更好.
有很多用于机器学习的Python库.哪一个最适合我的问题？
很多这样的libs都不是很容易使用的文档,因为它们来自科学环境.是否有任何好的资料来源(书籍,文章,快速入门)弥合差距,即专注于对机器学习完全不了解的新手？我打开的每个文档都以我不理解的术语开头,例如网络,分类,数据集等.

更新:

正如你们所提到的,我应该展示一些我想要脱离网络的数据,这里有一个例子.我对电影放映时间很感兴趣.它们看起来像这样(其中三个):

<div class="Datum" rel="d_0">27. ?ervna – st?eda, 20.00
</div><input class="Datum_cas" id="2012-06-27" readonly=""><a href="index.php?den=0" rel="0" class="Nazev">Zahájení letního kina 
</a><div style="display: block;" class="ajax_box d-0">
<span class="ajax_box Orig_nazev">zábava • hudba • film • letní bar
</span>
<span class="Tech_info">Sv?t podle Fagi
</span>
<span class="Popis">Facebooková  komiksová Fagi v podání …

Run Code Online (Sandbox Code Playgroud)

python extract machine-learning html-parsing web-scraping

Hon*_*rek

2012 11-12

50
推荐指数

4
解决办法

3万
查看次数

如何从URL中提取顶级域名(TLD)

如何从URL中提取域名,不包括任何子域名？

我最初的简单尝试是:

'.'.join(urlparse.urlparse(url).netloc.split('.')[-2:])

Run Code Online (Sandbox Code Playgroud)

这适用于http://www.foo.com,但不适用于http://www.foo.com.au.有没有办法在不使用有关有效TLD(顶级域名)或国家/地区代码(因为它们发生变化)的特殊知识的情况下正确执行此操作.

谢谢

python dns url parsing extract

hoj*_*oju

2015 01-22

49
推荐指数

4
解决办法

6万
查看次数

如何从.doc和.docx文件中提取纯文本？(UNIX)

任何人都知道他们可以推荐什么,以便从.doc或.docx中提取纯文本？

我发现这种最好的方法从Word文档中提取文本而不使用COM /自动化？ - 想知道是否还有其他建议？

速度并不重要,我们甚至可以使用具有一些API的网站上传和提取文件,但我一直无法找到.

谢谢

unix text-extraction doc extract docx

doc*_*act

2019 04-25

42
推荐指数

5
解决办法

6万
查看次数

标签统计

extract ×10

python ×4

datetime ×2

java ×2

apache-tika ×1

bash ×1

dataframe ×1

dns ×1

doc ×1

docx ×1

eclipse ×1

exe ×1

executable ×1

html-parsing ×1

image ×1

installation ×1

installshield ×1

machine-learning ×1

pandas ×1

parsing ×1

pdf ×1

pypdf ×1

sql ×1

sql-server-2008 ×1

string ×1

text-extraction ×1

unix ×1

url ×1

web-scraping ×1

windows-installer ×1

wix ×1

zip ×1

标签 统计

标签统计