小编Den*_*zov的帖子

弄清楚企业名称是否与另一个企业名称非常相似 - Python

我正在使用大型企业数据库.

我希望能够比较两个商业名称的相似性,看看它们是否可能是重复的.

下面是一个应该测试的企业名称列表,它们很可能是重复的,有什么好办法可以解决这个问题?

George Washington Middle Schl
George Washington School

Santa Fe East Inc
Santa Fe East

Chop't Creative Salad Co
Chop't Creative Salad Company

Manny and Olga's Pizza
Manny's & Olga's Pizza

Ray's Hell Burger Too
Ray's Hell Burgers

El Sol
El Sol de America

Olney Theatre Center for the Arts
Olney Theatre

21 M Lounge
21M Lounge

Holiday Inn Hotel Washington
Holiday Inn Washington-Georgetown

Residence Inn Washington,DC/Dupont Circle
Residence Inn Marriott Dupont Circle

Jimmy John's Gourmet Sandwiches
Jimmy …

python edit-distance similarity normalization matching

32
推荐指数
5
解决办法
1万
查看次数

通过常用词进行高效查找

我有一个分为单词的名称(字符串)列表.有800万个名字,每个名字最多包含20个单词(代币).唯一令牌的数量是220万.我需要一种有效的方法来查找包含查询中至少一个单词的所有名称(最多可包含20个单词,但通常只包含几个单词).

我目前的方法使用Python Pandas,看起来像这样(后面提到original):

>>> df = pd.DataFrame([['foo', 'bar', 'joe'], 
                       ['foo'], 
                       ['bar', 'joe'], 
                       ['zoo']], 
                      index=['id1', 'id2', 'id3', 'id4'])
>>> df.index.rename('id', inplace=True)  # btw, is there a way to include this into prev line?
>>> print df

       0     1     2
id                  
id1  foo   bar   joe
id2  foo  None  None
id3  bar   joe  None
id4  zoo  None  None

def filter_by_tokens(df, tokens):
    # search within each column and then concatenate and dedup results    
    results = [df.loc[lambda df: df[i].isin(tokens)] for i in range(df.shape[1])] …
Run Code Online (Sandbox Code Playgroud)

python lookup performance hashtable pandas

11
推荐指数
1
解决办法
364
查看次数

Django项目结构/信息流可视化是否有工具?

我希望能够查看我的Django项目的结构,即哪些URL指向哪些视图,哪些视图指向哪些模板,哪些css文件包含在哪些模板等中.

我知道伟大的模型可视化工具Django的命令扩展,但我需要不同的工具,能够可视化之间的联系:

  1. 网址和观点;
  2. 视图和模板;
  3. 模板和其他模板(通过{% extends %},{% include %}并自定义模板标签);
  4. 模板和静态文件(css,js,images).

有吗?

django visualization structure flow

8
推荐指数
1
解决办法
1261
查看次数

何时以及为什么我应该从功能性Selenium测试切换到Django Web应用程序中的单元测试?

我正在开发一个Django网站.我使用Selenium进行功能测试(从最终用户的角度来看)并进行TDD.我还对所有模型进行了基本的单元测试.

我通常会编写一个新的功能性Selenium测试(例如,用于提交表单并检查更新是否存在),然后编写了大量代码以使测试通过.我创建了一个视图,一些表单,模型方法,模板等.毕竟,测试通过,然后我继续下一个Selenium测试.

问题是这种方法感觉不完全正确.也许我应该写更多的单元测试,所以这里是问题:

  1. 如果功能测试似乎完成了,我为什么需要单元测试?请注意,我的Selenium测试完全自动化并通过Jenkins CI进行管理,因此管理许多功能测试并在每次提交后运行它们都没有问题.
  2. 应该对应用程序的哪些部分进行单元测试?

PS 由Harry Percival 撰写的伟大的书籍测试驱动开发(免费在线提供)表明您使用以下工作流程:

测试工作流程

testing django tdd selenium functional-testing

5
推荐指数
1
解决办法
3028
查看次数

在 Django 中取消注册第三方 ModelAdmin 会导致 NotRegistered 错误

我想在管理站点中完全隐藏来自第三方模块 ( otherapp) 的模型。

admin.site.unregister(ModelToHide)输入了我的一个应用程序的管理员 ( myapp),但它会导致NotRegistered每个页面上出现错误。问题是之前myapp.admin加载的。 otherapp.admin

我尝试更改顺序INSTALLED_APPS,使其otherapp出现在之前myapp,但没有帮助,Django 以相反的顺序加载它们。我在其中一篇评论中读到,根据 Django 的书,顺序INSTALLED_APPS并不重要。

实际上,我创建这个问题只是为了分享我让它为我工作的方式,因为我花了一些时间来找出解决方案。希望这对某人有帮助。

python django admin

5
推荐指数
1
解决办法
1087
查看次数