小编E19*_*504的帖子

一类 SVM 算法耗时太长

下面的数据显示了我的数据集的一部分，用于检测异常

    describe_file   data_numbers    index
0   gkivdotqvj      7309.0          0
1   hpwgzodlky      2731.0          1
2   dgaecubawx      0.0             2
3   NaN             0.0             3
4   lnpeyxsrrc      0.0             4

Run Code Online (Sandbox Code Playgroud)

我使用了一类 SVM 算法来检测异常

from pyod.models.ocsvm import OCSVM
random_state = np.random.RandomState(42)     
outliers_fraction = 0.05
classifiers = {
        'One Classify SVM (SVM)':OCSVM(kernel='rbf', degree=3, gamma='auto', coef0=0.0, tol=0.001, nu=0.5, shrinking=True, cache_size=200, verbose=False, max_iter=-1, contamination=outliers_fraction)
}

X = data['data_numbers'].values.reshape(-1,1)   

for i, (clf_name, clf) in enumerate(classifiers.items()):
    clf.fit(X)
    # predict raw anomaly score
    scores_pred = clf.decision_function(X) * -1

    # prediction of a datapoint …

Run Code Online (Sandbox Code Playgroud)

machine-learning svm scikit-learn anomaly-detection

E19*_*504

lucky-day

6
推荐指数

1
解决办法

902
查看次数

使用 Selenium 抓取词汇并解析为 DataFrame

有这个小程序可以访问一个词汇表，打印该页面上的所有单词，然后单击按钮转到下一页并再次打印该页面上的所有词汇表。

我使用了一个循环来重复这个过程并循环遍历分布在多个页面上的所有单词。

#Create csv
outfile = open("Vocab.csv","w",newline='')
writer = csv.writer(outfile)


#Define the dataframe
df = pd.DataFrame(columns=['rating'])



PATH="C:\Program Files (x86)\chromedriver.exe"
driver= webdriver.Chrome(PATH)


driver.get("https://sq.m.wiktionary.org/w/index.php?title=Kategoria:Shqip&pagefrom=agall%C3%ABk#mw-pages")


for x in range(3):
        rating_element = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, "#mw-pages > div > div > div > ul"))
        )
        rating=rating_element.text
        print(rating)
        element = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.LINK_TEXT, "faqja pasardhëse"))
        )
        element.click() 
        
        
        df2 = pd.DataFrame([rating],columns=['rating'])  
        df = df.append(df2,ignore_index=True)

Run Code Online (Sandbox Code Playgroud)

代码本身运行良好，但是当我尝试实现将所有数据解析为 DataFrame 的功能时，我只得到一个空的 Csv 文件。我试图只有一列包含数千个单词。

python csv selenium web-scraping pandas

E19*_*504

lucky-day

5
推荐指数

1
解决办法

48
查看次数