标签: categorization

音乐指纹识别是如何工作的(对于像Shazam和Lala.com这样的网站)?

我的大型(120gb)音乐收藏包含许多重复的歌曲,我一直在试图指纹轨道,以期检测重复.既然我是CS专业,我很好奇在那里做了什么?我所做的一切几乎都没有Shazam或Lala.com这样的准确性.他们如何"哈希"曲目?我已经在我的所有文件(26,000个文件)上运行了标准的MD5哈希,并且我在不同的轨道上发现了数百个相等的哈希,所以这不起作用.

我对Lala.com更感兴趣,因为他们使用完整的文件,不像Shazam,但我假设两者都使用类似的技术.任何人都可以解释如何为音乐生成唯一标识符?

classification fingerprinting categorization

20
推荐指数
2
解决办法
7194
查看次数

使用mutate对数字变量进行分类

我想在我的data.frame对象中使用dplyr(并且不知道如何操作)对数值变量进行分类.

没有dplyr,我可能会这样做:

df <- data.frame(a = rnorm(1e3), b = rnorm(1e3))
df$a <- cut(df$a , breaks=quantile(df$a, probs = seq(0, 1, 0.2)))
Run Code Online (Sandbox Code Playgroud)

它会完成.但是,我更喜欢在我执行的其他操作的序列中使用某些dplyr函数(mutate我想).chaindata.frame

r categorization dplyr

19
推荐指数
2
解决办法
2万
查看次数

R代码将年龄分类为组/箱/休息

我想把年龄分成小组,所以不会连续.我有这个代码:

data$agegrp(data$age>=40 & data$age<=49) <- 3
data$agegrp(data$age>=30 & data$age<=39) <- 2
data$agegrp(data$age>=20 & data$age<=29) <- 1
Run Code Online (Sandbox Code Playgroud)

上面的代码在生存包中不起作用.它给了我:

invalid function in complex assignment
Run Code Online (Sandbox Code Playgroud)

你能指出我的错误在哪里吗?data是我正在使用的数据帧.

r histogram bins categorization binning

12
推荐指数
3
解决办法
6万
查看次数

使用pch = argument绘制不同形状

如果我使用R来绘图.如何根据具有分类数据的数据框中的列,将特定形状分配给属于一个类别的数据点(使用pch参数plot())?是否会使用as.factor()分组数据然后使用pch帮助?

r categorization

11
推荐指数
1
解决办法
3万
查看次数

从坐标列表中提取运动数据

我有一系列带时间戳坐标的CSV文件(X,Y和Z,单位为mm).从中提取运动数据的最简单方法是什么?

衡量标准

我想提取的信息包括以下内容:

  1. 方向变化的数量
  2. 第一次和最后一次运动的初始加速度
  3. ......以及这些运动的方位(角度)
  4. 非平稳时的平均速度

理想情况下,我最终希望能够对运动模式进行分类,因此任何能够提出这种方式的人都可以获得奖励积分.令我感到震惊的是,我能做到这一点的一种方法是从坐标生成动画的图片/视频,并要求人们对它们进行分类 - 关于我如何做到这一点的建议非常受欢迎.

噪声

一个复杂因素是读数受到噪音的污染.为了克服这个问题,每个记录都以至少20秒的静止为前提,这可以作为一种"噪声分布".我不知道如何实现这一点.

细节

如果它有帮助,则记录的动作是在简单的抓取任务期间的人手的动作.使用连接到手腕的磁性运动跟踪器生成数据.另外,我正在使用C#,但我猜数学与语言无关.

编辑

赏金

对于赏金,我真的很想看到一些(伪)代码示例.

c# language-agnostic coordinates motion categorization

8
推荐指数
1
解决办法
991
查看次数

集成测试是否是一个总称,如果是,它包括哪些类型的测试?

我发现"集成测试"的概念令人困惑.似乎有不少解释和范围:

  • 功能/验收测试(例如,使用Selenium测试用户界面)
  • 测试软件的不同类/模块的集成(简单地一起测试两个或更多类,而不用像db调用和东西那样做任何特殊的事情)
  • 独立测试系统配置功能/功能(数据库集成工作,正确注入依赖项,安全基类工作)
  • 整个系统测试(运行使用数据库,Web服务等的服务)
  • 等等

我开始将集成测试视为一个总括性术语(而不是在编程讲座中定义它,其中通常给出特定/严格的含义):

  • 集成测试包含:
    • 单元集成测试(在不调用外部库的情况下,在同一个包中测试不同类的集成)
    • 功能/验收测试(例如,通过Selenium测试软件的最终输出)
    • 系统测试(包括维基百科文章中列出的各种,更多技术和非功能相关的测试)

在Maven默认生命周期中,只有"测试"和"集成测试"阶段.这似乎将测试分为大致两类,并与这些假设一致.

一般来说,有许多现有的问题和答案正在寻找单元测试,功能测试,回归测试等之间的差异.但是,我正在寻找有关集成测试的更具体的答案:您如何对集成测试进行分类,以及您在其中包含哪些内容?另外,您是否将软件测试大致分为两类:单元测试(1个单元)与集成测试(2个单元)?

testing integration-testing unit-testing categorization

7
推荐指数
1
解决办法
852
查看次数

域名分类API

我需要将域分类为可以最好地使用域名的不同类别.就像将"gamez.com"归类为游戏门户一样.是否有任何提供像Sedo这样的域名分类的服务?

dns classification categorization

7
推荐指数
1
解决办法
2699
查看次数

文本分类分类器

有谁知道好的开源文本分类模型?我知道斯坦福分类器,Weka,Mallet等,但所有这些都需要培训.

我需要将新闻文章分类为体育/政治/健康/游戏/等.那里有训练有素的模特吗?

Alchemy,OpenCalais等不是选项.我需要开源工具(最好是Java).

java classification machine-learning categorization document-classification

6
推荐指数
1
解决办法
4986
查看次数

如何在没有循环的情况下将多个Pandas DF列更改为分类

我有一个DataFrame,我想将几​​个列从'object'类型更改为'category'.

我可以同时更改几列用于浮动,

dftest[['col3', 'col4', 'col5', 'col6']] = \
    dftest[['col3', 'col4', 'col5', 'col6']].astype(float)
Run Code Online (Sandbox Code Playgroud)

对于'类别'我不能这样做,我需要一个接一个地做(或像这里一样循环).

for col in ['col1', 'col2']:
    dftest[col] = dftest[col].astype('category')
Run Code Online (Sandbox Code Playgroud)

问题:是否有任何方法可以像"浮动"示例一样对所有想要的列进行更改?

如果我尝试同时做几个列,我有:

dftest[['col1','col2']] = dftest[['col1','col2']].astype('category')
## NotImplementedError: > 1 ndim Categorical are not supported at this time
Run Code Online (Sandbox Code Playgroud)

我目前的工作测试代码:

import numpy as np
import pandas as pd 

factors= np.array([
        ['a', 'xx'],
        ['a', 'xx'],
        ['ab', 'xx'],
        ['ab', 'xx'],
        ['ab', 'yy'],
        ['cc', 'yy'],
        ['cc', 'zz'],
        ['d', 'zz'],
        ['d', 'zz'],
        ['g', 'zz'] 
        ])

values = np.random.randn(10,4).round(2)

dftest = pd.DataFrame(np.hstack([factors,values]), 
                  columns = …
Run Code Online (Sandbox Code Playgroud)

python numpy categorization dataframe pandas

6
推荐指数
1
解决办法
3062
查看次数

计算IDF(反向文档频率)以进行文档分类

我对在文档分类中计算IDF(逆文档频率)有疑问.我有多个类别,包含多个培训文档.我使用以下公式计算文档中每个术语的IDF:

IDF(t,D)=log(Total Number documents/Number of Document matching term);
Run Code Online (Sandbox Code Playgroud)

我的问题是:

  1. "语料库中的文件总数"是什么意思?文档是从当前类别还是从所有可用类别计算?
  2. "文件匹配项数"是什么意思?匹配文档的术语是从当前类别还是从所有可用类别中计算的?

information-retrieval machine-learning tf-idf categorization document-classification

5
推荐指数
1
解决办法
5532
查看次数