小编Jon*_*han的帖子

在linq中使用GroupBy对字符串的字母进行分组

我试图进入文件中提取文件中的单词并将文件的字符串中的每个字母分组.分组应按其字母(a,b,c,d,等等)排序,然后计算每个字母并向控制台显示每个字母的计数,如下所示:

a:56 b:34 c:53 d:

所以我正在使用以下代码,但我不认为它按照我想要的方式工作,有没有人有任何想法?谢谢!

var text = System.IO.File.ReadAllText("file.txt");
        var upper = text.ToUpper();
        var alpha = upper.Where(char.IsLetter).ToArray();
        var grouped = alpha.GroupBy(i => i % 26);
        var a = grouped.First(g => g.Key == 0).Count();
Run Code Online (Sandbox Code Playgroud)

c# linq group-by

4
推荐指数
2
解决办法
3699
查看次数

使用JSoup来抓取电子邮件和链接

我想使用JSoup来提取网站的所有电子邮件地址和URL,并将其存储在一个哈希集中(因此不会重复).我试图这样做,但我不确定我需要在选择中输入什么,或者我是否正确行事.这是代码:

Document doc = Jsoup.connect(link).get();

Elements URLS = doc.select("");
Elements emails = doc.select("");
emailSet.add(emails.toString());
linksToVisit.add(URLS.toString());
Run Code Online (Sandbox Code Playgroud)

set web-scraping jsoup

3
推荐指数
1
解决办法
2012
查看次数

html agility pack url scraping——获取完整的html链接

您好,我正在使用 nuget 包中的 html 敏捷包来抓取网页以获取页面上的所有 url。代码如下所示。然而,它在输出中返回给我的方式只是实际网站的扩展,而不是像http://www.foo/bar/foobar.com这样的完整网址链接。我将得到的只是“/foobar”。有没有办法使用下面的代码获取 url 的完整链接?谢谢!

static void Main(string[] args)
    {
        List<string> linksToVisit = ParseLinks("https://www.facebook.com");
    }

public static List<string> ParseLinks(string email)
    {

        WebClient webClient = new WebClient();

        byte[] data = webClient.DownloadData(email);
        string download = Encoding.ASCII.GetString(data);

        HashSet<string> list = new HashSet<string>();

        var doc = new HtmlDocument();
        doc.LoadHtml(download);
        HtmlNodeCollection nodes =    doc.DocumentNode.SelectNodes("//a[@href]");

            foreach (var n in nodes)
            {
                string href = n.Attributes["href"].Value;
                list.Add(href);
            }
        return list.ToList();
    }
Run Code Online (Sandbox Code Playgroud)

c# url web-crawler web-scraping html-agility-pack

3
推荐指数
1
解决办法
3323
查看次数

标签 统计

c# ×2

web-scraping ×2

group-by ×1

html-agility-pack ×1

jsoup ×1

linq ×1

set ×1

url ×1

web-crawler ×1