是否可以使用Apache Spark读取pdf /音频/视频文件(非结构化数据)?例如,我有成千上万的pdf发票,我想从这些发票中读取数据并对其进行一些分析.我必须采取哪些步骤来处理非结构化数据?
我是新手,已经开始学习 Spark。我有一个关于推荐系统如何在生产环境中工作或者如何部署到生产环境的一般问题。
下面是一个电子商务网站系统的小例子。
我知道一旦系统建成,一开始我们就可以将数据提供给引擎(我们可以运行作业或运行引擎的程序/进程),它会给出结果,这些结果将存储回针对每个用户的数据库。下次用户登录时,网站可以获取数据,引擎先前从数据库中计算出的数据并显示为推荐项目。
我的困惑是“这些系统”如何根据用户活动动态生成输出。例如,如果我在 Youtube 上观看视频并刷新页面,Youtube 就会开始向我展示类似的视频。那么,我们是否让这些推荐引擎始终在后台运行,并根据用户的活动不断更新结果?怎么做的这么快这么快?