我必须将PDF页面中的文本从缩进中提取到CSV文件中.
PDF教科书的索引页面:

我应该将文本拆分为类和子类型层次结构以及页码.例如,在图像中, Application server是类,Apache Tomcat是页码275中的子类
这是CSV的预期输出:

我使用Tika解析器来解析PDF,但是在解析的内容中没有正确维护缩进(不是唯一的),以便将文本拆分为类和子类.
这是解析文本的样子:

任何人都可以建议我这个要求的正确方法吗?
我在本地使用springBoot,java,jHipster,Angular等创建了一个项目,我想运行它。通常我使用mvnw运行该项目。现在我更换了计算机,因此在cmd中运行mvnw时,它说应用程序在https:// localhost:8080中运行,当我转到此链接时,我无权访问该应用程序。
这是消息:
This site can’t provide a secure connection
localhost sent an invalid response.
Try running Windows Network Diagnostics.
ERR_SSL_PROTOCOL_ERRORRun Code Online (Sandbox Code Playgroud)
也许我需要安装apache,以便可以访问localhost中的项目?我不记得是否可以在旧PC上安装apache来访问该应用程序。
我netstat -ano | findstr 8080在cmd中进行了操作,并在任务管理器中发现java.exe使用了端口8080。也许是港口问题?谢谢!
如果输入是路径列表,我如何解析输入?
file_in = input("Insert paths: ") # foo.jpg "C:\Program Files\bar.jpg"
print(file_in) # foo.jpg "C:\Program Files\bar.jpg"
Run Code Online (Sandbox Code Playgroud)
我正在寻找一种干净的方式来获取foo.jpg "C:\Program Files\bar.jpg"列表中的输入['foo.jpg', 'C:\Program Files\bar.jpg'](请注意第二个路径中的引号,因为其中有空格Program Files).
有什么像argparse但是对于input()s?
处理它的最佳方法是什么?
我想在评论的帮助下修改背景图像。
图像来自 tmdb API。所以我认为你必须创建一个背景图像组件并将其传递到 URL。
我知道CSS有background-image属性,但它适用于静态图像......
最好的方法是什么,我想让这个组件可重用。
假设我有以下数据结构
theValues = [
{ "id": "123", "name": "foo" },
{ "id": "321", "name": "bar" },
{ "id": "231", "name": "baz" }
]
Run Code Online (Sandbox Code Playgroud)
获取ID列表的最佳Python方法是[123,321,231]什么?
如果这是javascript,我可能只是使用匿名函数对列表中的每个元素使用过滤器,但我似乎无法找到Python等价物.我知道我可以做以下事情:
myList = []
for v in theValues: myList.append(v["id"])
Run Code Online (Sandbox Code Playgroud)
最后,我想将字典列表缩减为以逗号分隔的列表,我想我可以用连接来做...虽然这种语法对我来说仍然很奇怪.有没有更好的办法?
myListIds = ",".join( myList )
Run Code Online (Sandbox Code Playgroud)
这是最常见的做法吗?在PHP中,我可以做类似的事情:
$myListIds = implode(",", array_map( values, function( v ) { return v["ID"]; } ));
Run Code Online (Sandbox Code Playgroud) 我正在尝试计算序列在给定字符串中出现的次数。
def count_seqence(str, seq):
count = 0
if seq in str:
count += 1
return count
print(count_seqence("the quick brown fox jumps over the lazy dog","he"))
Run Code Online (Sandbox Code Playgroud)
但这仅运行一次并且不循环,我如何循环并计算出现的次数,因为我知道循环将针对每个字符而不是 seq,这让我感到困惑。