小编Sim*_*ely的帖子

如何预处理机器学习数据?

我只是想要一些关于如何在将数据输入机器学习算法之前对其进行预处理的一般提示.我正在努力进一步理解为什么我们在预处理时做出不同的决定,如果有人可以通过我们在清理数据时需要考虑的所有不同的事情,删除多余的数据等等.我会发现它非常有用.我在网上搜索了一些规范的答案或经验法则,但似乎没有.

我在这里有.tsv文件中有一组数据.训练集总计7,000行,测试集为3,000行.如果100行不可读,我应该使用哪些不同的策略来处理格式错误的数据?500?1000?任何帮助我理解这一点的指导都将非常感激.

示例代码很好看,但如果您不喜欢它,则没有必要,我只想了解我应该做什么!:)

谢谢

python preprocessor artificial-intelligence machine-learning scikit-learn

7
推荐指数
1
解决办法
4727
查看次数

检查cookie是否已设置

我试图在用户屏幕顶部渲染工具栏,如果他们已登录,他们可以访问他们的帐户等.如果他们没有登录,它将显示一个允许他们登录的表单.我不是完全确定如何使用C#和Razor执行此操作并保持命中语法和编译错误.

我目前的表格如下:我有一个文件_siteLayout.cshtml.这会将工具栏存储在屏幕顶部.它根据外部数据库检查登录表单,如果经过身份验证,则create会为客户端提供cookie.我基本上想要的形式是

if(user logged in)
   render account management page
else{
   render login page
}
Run Code Online (Sandbox Code Playgroud)

很简单,但我遇到了很多问题.这是我的代码,删除批量,到目前为止:

<body>
    @using System.Text;
    @using System.Net.Sockets;
   @{
        if(Request.Cookies["mpUsername"] == null){
        //if user is not logged in  
            //some authentication is ran, if passed, isValid is set to true    
                if (isValid) {
                    //login is valid, set cookie
                    HttpCookie cookie = Request.Cookies.Get("mpUsername");
                if(cookie == null) {
                    cookie = new HttpCookie("mpUsername");
                    cookie.Value = username;
                    cookie.Expires = DateTime.Now.AddDays(3);
                    Response.Cookies.Add(cookie);
                }
                } else {
                    //login invalid, prompt for pass again
                <text>Password incorrect, …
Run Code Online (Sandbox Code Playgroud)

html c# asp.net session razor

6
推荐指数
0
解决办法
1万
查看次数

创建站点以查询表的数据库

我有一个小问题.我正在与一些未经过编程/数据库设计的手动测试人员合作.我们当前的流程意味着这些手动测试人员需要在特定时间将数据插入我们的数据库,同时我们构建GUI以便将来实现此目的.

在此期间,我想创建一个简单的网站.我想对网站做的只是简单地连接到我们的数据库,允许手动测试人员输入一些关键字,并返回表格中与所提供的关键字相近/相关的任何列.这将为我们的测试人员在我们(相当大的)数据库中搜索colums节省大量时间.

我怎么能创建这样的网站?我认为它可能对很多人有用,所以我决定在这里发布问题以收集StackOverflow的想法.

目前,我正在考虑一个带有文本框的简单PHP页面,它允许用户输入一些以逗号分隔的数据.基于逗号分解数据,将其保存在数组中.连接到我的数据库,然后使用信息架构视图来检索列信息. 我的主要问题是 - 使用信息架构视图检索与用户输入的关键字相关的列的最有效方法是什么?如何确保返回的列最合适

这里的任何输入将不胜感激.非常感谢.

Tl; dr是粗体部分,适合忙碌的人:)

php sql database sql-server information-schema

6
推荐指数
1
解决办法
3316
查看次数

语法问题SQL Server.结合Pivot,XML解析和JOIN

我在SQL表中有以下表格的列(varchar400):

Info
User ID=1123456,Item ID=6685642
Run Code Online (Sandbox Code Playgroud)

此列用于存储数据库中产品的属性,因此虽然我只关注用户ID和项ID,但此处可能存储了多余的信息,例如:

   Info
   Irrelevant ID=666,User ID=123124,AnotherIrrelevantID=1232342,Item ID=1213124
Run Code Online (Sandbox Code Playgroud)

所以我有一个SQL查询如下:

-- convert info column to xml type
; with cte as --imports a library of common table expressions
(
    select TOP 1000 cast('<info ' + REPLACE(REPLACE(REPLACE(REPLACE(OtherInformation,' ', ''),',', '" '),'=','="'),'.','') + '" />' as XML) info, --puts the OtherInformation column into well formed XML
    ROW_NUMBER() over (order by TableID) id --returns all rows??
    FROM Table
    WHERE TableEnum=51
) 
SELECT DISTINCT UserID from --selects unique user ids from our …
Run Code Online (Sandbox Code Playgroud)

sql database sql-server select sql-server-2005

6
推荐指数
1
解决办法
730
查看次数

在BeautifulSoup中用另一种标签替换一种标签

我有一组HTML文件.我希望逐个迭代它们,编辑特定类的标记.我想编辑的代码具有以下形式,使用以下类名:

<td class='thisIsMyClass' colspan=4>
  <a id='123' class='thisIsMyOtherClass' href='123'>Put me Elsewhere</a> 
Run Code Online (Sandbox Code Playgroud)

这可以在同一个文档中多次出现,使用不同的文本而不是"Put me Elsewhere",但总是使用相同的类.

我想将其更改为以下形式:

<font SIZE="3"  COLOR="#333333"  FACE="Verdana"  STYLE="background-color:#ffffff;font-weight: bold;">
  <h2>Put Me Elsewhere</h2>
</font>
Run Code Online (Sandbox Code Playgroud)
import os
for filename in os.listdir('dirname'):
 replace(filename)

def replace(filename):
 tags = soup.find_all(attrs={"thisIsMyClass"})
Run Code Online (Sandbox Code Playgroud)

不太确定在此之后去哪里或如何处理标签数组?任何帮助将非常感激.谢谢 :)

html python parsing beautifulsoup python-3.x

6
推荐指数
1
解决办法
1111
查看次数

BeautifulSoup只查找属性包含子字符串的元素?这可能吗?

find_all()在我的BeautifulSoup代码中打电话.这目前可以为我提供所有图像,但是如果我只想定位其中包含"占位符"子字符串的图像,src我该怎么办呢?

for t in soup.find_all('img'):  # WHERE img.href.contains("placeholder")
Run Code Online (Sandbox Code Playgroud)

html python beautifulsoup html-parsing

6
推荐指数
1
解决办法
7670
查看次数

使用Linq在String上运行正则表达式

我有一个字符串,我希望使用Linq运行正则表达式将我的字符串减少到一个匹配我的reg ex的较小的子字符串.

我的代码目前给出了错误

'char'不包含'Name'的定义,也没有扩展方法'Name'可以找到'char'类型的第一个参数

我的代码:

string variable = result.Name.Select(r => regEx.Match(r.Name).Groups[2].ToString());
Run Code Online (Sandbox Code Playgroud)

Result.Name 是包含在自定义类中的字符串.

我做错了什么?我的语法/理解有什么问题?

c# regex linq string

5
推荐指数
2
解决办法
8836
查看次数

如何使用另一个表数据TSQL更新一列数据

我刚刚意识到我一直在为表中的一列捕获错误的数据.我已经解决了这个问题,但到目前为止我捕获的数据仍然不正确.

让我们来命名我的表TableIWantToCorrectTableWithIDs

TableIWantToCorrect,我有一个外键TableWithIDs.这是不正确的.

我可以通过比较列的子字符串和列中TableIWantToCorrect的列来更正数据TableWithIDs.

所以目前,我有

TableIWantToCorrect

Name            ForeignKey
123-abc-123        15
456-def-456        15
789-ghi-789        15
Run Code Online (Sandbox Code Playgroud)

TableWithIDs

CompareName    id
abc            1
def            2
ghi            3
Run Code Online (Sandbox Code Playgroud)

因此,TableIWantToCorrect当Name中的子字符串与Compare name中的子字符串相等时,我想要更新以获得正确的ForeignKey值.子串的位置始终相同,因此我可以使用该Substring方法.

我的尝试:

Update TableIWantToCorrect
SET ForeignKey =
       (SELECT id 
        FROM TableWithIDs 
        WHERE UPPER(CompareName) = UPPER((SUBSTRING(TableIWantToCorrect.Name, 4, 3)))
Run Code Online (Sandbox Code Playgroud)

结果 :

子查询返回的值超过1.当子查询跟随=,!=,<,<=,>,> =或子查询用作表达式时,不允许这样做.该语句已终止.

我知道我做了些傻事.我在这里做错了什么?

sql t-sql database sql-server sql-update

5
推荐指数
1
解决办法
3万
查看次数

在Logistic回归中使用排名数据

因为我正努力学习这些概念,所以我将把最大的赏金放在这上面!我试图在逻辑回归中使用一些排名数据.我想用机器学习来制作一个关于网页是否"好"的简单分类器.这只是一次学习练习,所以我不指望取得好成绩; 只是希望学习"过程"和编码技巧.

我把我的数据放在.csv中如下:

URL WebsiteText AlexaRank GooglePageRank
Run Code Online (Sandbox Code Playgroud)

在我的测试CSV中,我们有:

URL WebsiteText AlexaRank GooglePageRank Label
Run Code Online (Sandbox Code Playgroud)

标签是二进制分类,表示"好",1表示"坏",0表示"坏".

我目前只使用网站文本运行我的LR; 我运行TF-IDF.

我有两个问题需要帮助.我将在这个问题上给予最大的赏金并将其授予最佳答案,因为这是我想要的一些好帮助,所以我和其他人可以学习.

  • 如何规范AlexaRank的排名数据?我有一组10,000个网页,我的Alexa排名全部; 但他们没有排名1-10,000.他们排在整个互联网之外,所以虽然http://www.google.com可能排名#1,但 http://www.notasite.com可能会排名#83904803289480.如何在Scikit中对此进行规范化,以便从我的数据中获得最佳结果?
  • 我正以这种方式运行Logistic回归; 我几乎可以肯定我做错了.我正在尝试在网站文本上执行TF-IDF,然后添加其他两个相关列并适合Logistic回归.如果有人能够快速验证我是否正在接受我要在LR中使用的三列,我会很感激.关于如何提高自己的任何和所有反馈也将在这里受到赞赏.

    loadData = lambda f: np.genfromtxt(open(f,'r'), delimiter=' ')
    
    print "loading data.."
    traindata = list(np.array(p.read_table('train.tsv'))[:,2])#Reading WebsiteText column for TF-IDF.
    testdata = list(np.array(p.read_table('test.tsv'))[:,2])
    y = np.array(p.read_table('train.tsv'))[:,-1] #reading label
    
    tfv = TfidfVectorizer(min_df=3,  max_features=None, strip_accents='unicode', analyzer='word',
    
    token_pattern=r'\w{1,}', ngram_range=(1, 2), use_idf=1, smooth_idf=1,sublinear_tf=1)
    
    rd = lm.LogisticRegression(penalty='l2', dual=True, tol=0.0001, C=1, fit_intercept=True,    intercept_scaling=1.0, class_weight=None, random_state=None)
    
    X_all = traindata …
    Run Code Online (Sandbox Code Playgroud)

python algorithm artificial-intelligence machine-learning scikit-learn

5
推荐指数
1
解决办法
2007
查看次数

如何向现有模型添加类?

我使用张量流对象检测/SSD mobilenet 训练了一个模型。效果很好!

我想为其添加一个类 - 只是为了检测笔或其他东西。

我怎样才能做到这一点?

我已经创建了图像集,但我只是找不到有关如何将单个类添加到现有模型的任何教程或信息。

谢谢!

object-detection neural-network tensorflow tfrecord

5
推荐指数
1
解决办法
2738
查看次数