我正在尝试使用boilerpipe java库,从一组网站中提取新闻文章.它适用于英语文本,但对于带有特殊字符的文本,例如带有重音符号(história)的单词,此特殊字符无法正确提取.我认为这是一个编码问题.
在boilerpipe faq中,它说"如果你提取非英文文本,你可能需要更改一些参数",然后引用一篇论文.我在本文中找不到任何解决方案.
我的问题是,在使用套管管时我可以指定编码吗?有没有办法绕过并正确获取文本?
我如何使用该库:(基于URL的第一次尝试):
URL url = new URL(link);
String article = ArticleExtractor.INSTANCE.getText(url);
Run Code Online (Sandbox Code Playgroud)
(关于HTLM源代码的第二个)
String article = ArticleExtractor.INSTANCE.getText(html_page_as_string);
Run Code Online (Sandbox Code Playgroud) 对于某些错误代码,我正在尝试向 API 中的所有端点添加默认错误模型。
我通过阅读以下问题找到了部分解决方案:
这是我为该定制创建的 bean:
@Bean
public OpenApiCustomiser customOpenApiCustomiser() {
return openApi -> {
openApi.getPaths().values().forEach(pathItem -> pathItem.readOperations().forEach(operation -> {
Schema sharedErrorSchema = ModelConverters.getInstance()
.read(Error.class)
.getOrDefault("Error", new Schema());
MediaType sharedMediaType = new MediaType().schema(sharedErrorSchema);
Content sharedContent = new Content()
.addMediaType(APPLICATION_JSON_VALUE, sharedMediaType);
ApiResponses apiResponses = operation.getResponses();
ApiResponse response = new ApiResponse()
.description("Unhandled server error")
.content(sharedContent);
apiResponses.addApiResponse("500", response);
}));
};
}
Run Code Online (Sandbox Code Playgroud)
我的 Error 类看起来像:
public class Error {
private String message;
private List<ErrorItem> errorItems;
}
Run Code Online (Sandbox Code Playgroud)
问题是,当我在 swagger-ui 中打开端点定义之一时,出现以下错误:
Could …