Запуск Selenium в автономном режиме с прокси-сервером внутри Docker

code и конфигурация Вот упрощенная версия codeа, который я использую:

Я работаю над проектом по веб-скрейпингу с использованием Selenium с Chrome и столкнулся с проблемой запуска браузера Chrome в режиме headless внутри контейнера Docker при использовании прокси-сервера. code отлично работает, когда chrome_options.headless установлен в значение False, что означает, что браузер работает с видимым графическим интерфейсом. Однако, когда я переключаюсь в режим headless, он не работает должным образом. Мне нужно запустить этот парсер в фоновом режиме в среде Docker, где графический интерфейс недоступен.

PROXY_HOST_ENV = ''
PROXY_PORT_ENV = ''
PROXY_USER_ENV = ''
PROXY_PASS_ENV = ''

def proxy_chrome(PROXY_HOST, PROXY_PORT, PROXY_USER, PROXY_PASS):
manifest_json = """
{
"version": "1.0.0",
"manifest_version": 2,
"name": "Chrome Proxy",
"permissions": \[
"proxy",
"tabs",
"unlimitedStorage",
"storage",
"\<all_urls\>",
"webRequest",
"webRequestBlocking"
\],
"background": {
"scripts": \["background.js"\]
},
"minimum_chrome_version": "22.0.0"
}
"""

    background_js = """
    var config = {
        mode: "fixed_servers",
        rules: {
            singleProxy: {
                scheme: "http",
                host: "%(host)s",
                port: parseInt(%(port)d)
            },
            bypassList: ["foobar.com"]
        }
    };
    chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});
    function callbackFn(details) {
        return {
            authCredentials: {
                username: "%(user)s",
                password: "%(pass)s"
            }
        };
    }
    chrome.webRequest.onAuthRequired.addListener(
        callbackFn,
        {urls: ["<all_urls>"]},
        ['blocking']
    );
    """ % {
        "host": PROXY_HOST,
        "port": int(PROXY_PORT),
        "user": PROXY_USER,
        "pass": PROXY_PASS,
    }
    
    path = os.path.dirname(os.path.abspath(__file__))
    print(path)
    pluginfile = f'proxy_auth_plugin.zip'
    print(pluginfile)
    
    try:
        os.remove(pluginfile)
    except FileNotFoundError:
        pass
    
    # Создание нового плагина
    with zipfile.ZipFile(pluginfile, 'w') as zp:
        zp.writestr("manifest.json", manifest_json)
        zp.writestr("background.js", background_js)
    
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--ignore-certificate-errors')
    chrome_options.add_argument("--disable-application-cache")
    chrome_options.add_argument("start-maximized")
    chrome_options.add_argument('--headless')
    chrome_options.add_extension(pluginfile)
    
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=chrome_options)
    return driver

PROXY_HOST = PROXY_HOST_ENV
PROXY_PORT = PROXY_PORT_ENV
PROXY_USER = PROXY_USER_ENV
PROXY_PASS = PROXY_PASS_ENV

try:
driver = proxy_chrome(PROXY_HOST, PROXY_PORT, PROXY_USER, PROXY_PASS)
driver.get('https://example.com')
h1_element = driver.find_element(By.TAG_NAME, 'h1')
print('Найденный заголовок \<h1\>: ', h1_element.text)
time.sleep(10)
except Exception as x:
print(repr(x))
raise Exception()
Лука
Вопрос задан3 марта 2024 г.

1 Ответ

2
Ираида
Ответ получен4 сентября 2024 г.

Ваш ответ

Загрузить файл.