小编Noa_oam的帖子

face.com API的替代品

可悲的是,face.com API因Facebook收购而被关闭.

那里有没有合适的替代品？

我正在寻找一个给定的图像,如果它有一个面孔+人口统计学内容.

php image image-processing image-recognition

22
推荐指数

5
解决办法

2万
查看次数

如何获取维基百科类别及其子类别下的所有文章页面？

我想获得一个类别及其子类别下的所有文章名称.

我知道的选项:

使用Wikipedia API.它有这样的选择吗？
d/l转储.哪种格式对我的使用更好？
还有一个选项可以在Wikipedia中搜索类似的东西incategory:"music",但我没有看到在XML中查看它的选项.

请分享你的想法

sql nlp wikipedia web-services wikipedia-api

21
推荐指数

3
解决办法

1万
查看次数

php句子边界检测

我想用PHP将文本分成句子.我目前正在使用正则表达式,它带来了约95%的准确度,并希望通过使用更好的方法来改进.我已经看过在Perl,Java和C中使用NLP工具,但没有看到任何适合PHP的工具.你知道这样的工具吗？

php regex nlp text-segmentation

15
推荐指数

2
解决办法

7843
查看次数

像%query这样的mysql使用全文索引很慢

我正在使用这样一个简单的mysql LIKE查询:
SELECT * FROM myTable WHERE field LIKE 'aaa%' ORDER BY field2

我在"字段"上有一个全文索引,但它仍然很慢.我知道有一个选项可以使用匹配.有什么不同？怎么样？我使用的最佳方法是什么？请注意我使用"%"表示以"aaa"开头的所有内容

更新:我最终使用了这样的东西: SELECT *, MATCH (name) AGAINST ('a*' IN BOOLEAN MODE) AS SCORE FROM users WHERE MATCH (name) AGAINST ('a*' IN BOOLEAN MODE) ORDER BY SCORE, popularity DESC LIMIT 4

我想改变的一件事是,首先不是SCORE的顺序,而是我的现场流行度,而是通过一个简单的权重函数来命令,比如0.5*SCORE + 0.5*流行度.怎么样？

10
推荐指数

1
解决办法

9317
查看次数

删除后的mysql插入因"重复输入"而失败

我有一个包含两个mysql查询的代码.
DELETE FROM my_table WHERE user_id=some_number
INSERT INTO my_table (user_id, ... ) VALUES(some_number, ...)

字段user_id是唯一的.

在极少数情况下,插入失败声称发生了重复输入.我的第一直觉让我相信DELETE没有完成,现在插入尝试插入,我得到一个重复的条目.这可能吗？我怎么能避免这个？您可以想到有不同的解释吗？

更新:我删除的原因是因为我想要删除我第一次没有更新/插入的所有数据.此外,我认为重要的是要声明大多数数据保持不变.

10
推荐指数

1
解决办法

3378
查看次数

不同国家价格不同

我看到有些应用程序在不同的 iTunes 商店（根据位置）有不同的价格。他们是怎么做到的？我在 iTunes Connect 中没有看到任何地方可以实现这一点。

iphone app-store-connect

8
推荐指数

2
解决办法

8935
查看次数

将MySQL列值设置为NULL而不是0或''的磁盘空间含义

我正在尝试理解处理磁盘空间和索引性能方面几乎为空的列的最佳方法.放入所有空位置NULL与''(对于varchar/text)对比0(对于int)是否存在差异.

谢谢.

8
推荐指数

1
解决办法

3147
查看次数

MySQL在最后一次斜杠后选择文本

我有一个mysql列,其中包含一个如下所示的VARCHAR:
folder1/folder2/<Entity>
例如:

folder1/folder2/Apple
folder1/folder2/Microsoft
因为我想执行的实体领域的搜索,我想补充一点,只包含一列entity(和$ SEARCHTERM%的查询).如何/直接在MySQL中选择最后一个部分？我希望该列只是保持Apple并Microsoft从示例中获取.

8
推荐指数

1
解决办法

3063
查看次数

大型MySql表在服务器上加载太多负载

我有一个MySql表,其中包括:

〜2500万行(当前)
3个指标
每天,爬行器增加约300万行
我目前看起来并不太远,但db的最终估计可以是~CONST*e9行
目前9.5giga
innodb和插入时正在读取

数据本身由~100个字符的文本+几个字段组成,其中包含关于它的元数据.索引是唯一的id,writer名称和writer ID.

到目前为止,一切顺利,但现在服务器很难处理新数据的插入(每个插入约10个行,增加约3k行).我正试图找到克服这个问题的方法.我考虑的事情:

插入时执行索引需要付出努力.也许在插入时不会这样做,并且只有在X插入添加索引之后.
将数据分区到不同的表中.
爬进一个小的数据库,每X分钟/天,将数据移动到大数据库中.
移动到不同的数据库.我对NoSql不太熟悉,会帮我解决这些问题吗？使用它是一项很大的努力吗？

每个选项都有其子选项和困境,但我认为我应该首先关注方向.我应该走哪条路？为什么？我应该想到一条不同的道路吗？

顺便说一句 - 也有不把所有的数据,只有部分我真的显示一个选项,但是这将使它不可能做的过程中有数据显示之前经历了一些功能性改变.

mysql database indexing database-design nosql

7
推荐指数

1
解决办法

902
查看次数

MySQL进程和连接

我正在使用phpmyadmin内置监视器工具来评估我的MySQL数据库的使用情况.这幅图表引起了我的注意:

在此输入图像描述

我认为蓝色意味着连接和橙色过程.

我试图深入了解这个图形的实际含义,并采取相应的行动.

如果我理解正确,似乎我正在为每个脚本(进程)创建多个连接.什么情况会导致这样的行为(除了简单地多次调用mysql_connect),以及这会影响性能多少？

php mysql database optimization phpmyadmin

7
推荐指数

1
解决办法

1452
查看次数

标签统计

php ×3

nlp ×2

sql ×2

app-store-connect ×1

database-design ×1

image-processing ×1

image-recognition ×1

optimization ×1

text-segmentation ×1

web-services ×1

wikipedia-api ×1

«
1
2
»