何千もの画像ファイルがあるワードプレスサイトがあります。問題は、大部分が冗長であり、ディスクスペースを使い果たしていることです。どれが実際にhtmlによって参照されているかを知る方法が必要です。そうすれば、そうでないものを削除できます。
たぶんSeleniumWebDiriverが役立つでしょうか?Webサイトをスクレイプして、すべてのimg要素のsrc属性の値を取得できます。
次のコードを使用すると、画像コレクションに22個のアイテムが入力されます。これは特定のページに適しています。問題は、「src」属性の値を取得する方法がわからないことです。
var images = driver.FindElements(By.TagName("img"));
foreach (var image in images)
{
Debug.WriteLine(image.Text);
}
GetAttribute
withsrc
は、すべての画像のURL /パスを取得します。
var images = driver.FindElements(By.TagName("img"));
foreach (var image in images)
{
Debug.WriteLine(image.GetAttribute("src"));
}
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加