如何使用mahout计算k均值聚类中的成本函数值?
我正在上Coursera的机器学习课程。并且建议如果我们在k均值聚类期间进行聚类的随机初始化,要计算聚类,我们应该使用不同的初始聚类质心值多次执行。然后,我们应该检查成本函数的值,以查看其迭代成本最小。
您能否建议在Apache mahout的k-means集群实现中如何计算成本值?
我已经安装了 mahout 并且我已经将现有的 maven 项目 'apache-mahout-distribution-0.12.2' 导入到 Eclipse IDE for Java Developers 并且无法构建并且我无法解决这些问题。请分享您的知识!谢谢!
我有一个产品,让我们说一本书.现在我想检索与此产品类似的k产品.我怎么能和Mahout一起做这个?
产品存储在MySQL数据库中,因此我使用JDBCDataModel.为了计算相似性,我更喜欢LogLikelihoodTest.
但我应该选择哪个推荐人?似乎所有推荐人都是设计好的
任何人都可以在这里发布一个如何在Apache Mahout中使用MySQLJDBCDataModel的例子,包括实例化一个DataSource吗?我想使用DataModel生成Recommendations.使用user_id,task_id和rating已经存在的Databasetable(让我们称之为评级)我只需要知道如何在不创建我自己的DataModel实现的情况下访问这些信息.
提前致谢!
我有一个这样的CSV文件:
typeA,typeB typeA,typeC typeA,typeC typeA,typeB
这里,typeA,typeB和typeC是3种不同类型的实体.将类型B和C视为两种不同类型的项,并将类型A视为用户.
我可以通过将此CSV文件提供给Myrrix来构建模型.这个文件只有两种类型,B(以前的CSV文件中的"B"项目在这里作为用户)和D.现在,假设我有另一个这样的CSV文件:
typeB,typeD typeB,typeD typeB,typeD typeB,typeD
在这里,我想获得typeB for typeB的建议.我必须有一个单独的Myrrix实例吗?是否可以有两个型号并选择推荐哪个?使用Apache Mahout这样做很容易,但是我觉得我不能像Myrrix那样获得实时setPreference和模型刷新的乐趣吗?
我很感激任何想法来解决这个问题.
我正在使用朴素贝叶斯分类器.遵循本教程.对于训练好的数据,我使用308个问题并将它们分类为26个手动标记的类别.在发送数据之前,我正在执行NLP.在NLP我正在执行(标点符号删除,标记化,删除词和词干)这个过滤后的数据,用作mahout的输入.使用mahout NBC我训练这些数据并获得模型文件.现在,当我跑
mahout testnb
Run Code Online (Sandbox Code Playgroud)
命令我得到正确的分类实例为96%.
现在,对于我的测试数据,我使用了100个问题,我手动标记了这些问题.当我使用经过训练的模型和测试数据时,我得到的正确分类实例为1%.这让我感到沮丧.
任何人都可以告诉我我做错了什么或建议我一些方法来提高NBC的表现.
另外,理想情况下,我应该使用多少问题数据来训练和测试?
我希望能够使用java构建模型,我可以使用CLI进行以下操作:
./mahout trainlogistic --input Candy-Crush.twtr.csv \
--output ./model \
--target hd_click --categories 2 \
--predictors click_frequency country_code ctr device_price_range hd_conversion time_of_day num_clicks phone_type twitter is_weekend app_entertainment app_wallpaper app_widgets arcade books_and_reference brain business cards casual comics communication education entertainment finance game_wallpaper game_widgets health_and_fitness health_fitness libraries_and_demo libraries_demo lifestyle media_and_video media_video medical music_and_audio news_and_magazines news_magazines personalization photography productivity racing shopping social sports sports_apps sports_games tools transportation travel_and_local weather app_entertainment_percentage app_wallpaper_percentage app_widgets_percentage arcade_percentage books_and_reference_percentage brain_percentage business_percentage cards_percentage casual_percentage comics_percentage communication_percentage education_percentage entertainment_percentage finance_percentage game_wallpaper_percentage …Run Code Online (Sandbox Code Playgroud) Mahout是否提供了确定内容之间相似性的方法?
我想将基于内容的推荐作为Web应用程序的一部分.我知道Mahout善于利用用户评级矩阵并根据它们提出建议,但我对协作(基于评级)的建议不感兴趣.我想评分两段文本的匹配程度,然后推荐与我在用户个人资料中为用户存储的文本最匹配的项目...
我已经阅读了Mahout的文档,看起来它主要促进了协作(基于评级)的建议,但不是基于内容的建议......这是真的吗?
recommendation-engine mahout content-based-retrieval mahout-recommender
我计划为一个基于 NodeJS 的网站添加一个推荐引擎。它目前也有一个 MongoDB 数据库作为存储层。
理想情况下,我希望在 NodeJS 中有一个Apache Mahout客户端,能够公开框架的推荐 API,但我似乎找不到。
任何基于 Web 服务的推荐框架都是不错的选择。
有任何想法吗?
问候,
我正在玩mahout,我写了一个基本的java类,它导入了一些库.编译时我的类路径似乎是正确的,我根本没有任何错误或抱怨.
但是,当我运行编译的类时,我得到一个异常说...
Exception in thread "main" java.lang.NoClassDefFoundError: Test
Caused by: java.lang.ClassNotFoundException: Test
Run Code Online (Sandbox Code Playgroud)