iphone for steve,丹东房屋网,冬天来了 春天还会远吗
首页正文呆板之心18小时前2021 内容科学就业市场最全阐发:Python 妙技最紧张,5 到 10 年经验最吃香选自 TowardsAI
作者:Sujan ShirolR、oberto Iriondo
呆板之心编译
编纂:蛋酱、杜伟
阐发了 3000 多个内容科学相关的岗位招聘数据,他们总结出了十点紧张纪律。
在就业市场上,内容科学和呆板学习的机会每年都在增加。如果你是内容科学相关岗位的求职者之一,那么将来十年将是一个明朗的时代,企业需求预计将大幅度增长。
近日,Towards AI 阐发了多个在线职业门户网站上 3000 多个内容科学职位的发布环境,以此进行了招聘趋势层面的总结。这次阐发的主要目的是帮忙求职者更好地认识内容科学和呆板学习当前的市场需求。
Selenium 是抓网页信息最快、最靠得住、性价比最高的工具之一。该项目使用 Selenium 抓取了多个求职门户网站,导入必须的法式包并设置 chrome 驱动法式路径,都是非常简洁的。循环点击 50 页,每页包含也许 20 个职位的简短发布信息,最终抓取了 3000 多个内容科学相关的岗位招聘数据。
提取出来的每个职位的 URL 可进入相应职位发布的详细页面,页面中包括了推理所需的所有详细信息。
import pandas as pdimport numpy as npfrom selenium import webdriverfrom selenium.common.exceptions import NoSuchElementExceptionchromepath = r'D:DriversChrome Driverchromedriver.exe'url_list = [ ] for i in range ( 1, 50 ) : print ( 'Opening Search Pages ' + str ( i ) ) page_url = 'https://jobportalexample.com/data-scientist-jobs-'+str ( i ) driver = webdriver.Chrome ( chromepath ) driver.get ( page_url ) print ( 'Accessing Webpage OK n' ) url_elt = driver.find_elements_by_class_name ( "fw500" ) print ( 'Success' ) for j in url_elt: url = j.get_attribute ( "href" ) url_list.append ( url ) driver.close ( )
为了简化此过程,URL 被留存为 pandas DataFrame。
url_list_copy_cleaned = [ i for i in url_list ] out_company_df = pd.DataFrame ( url_list_copy_cleaned, columns= [ 'Website' ] ) out_company_df.head ( )
内容框。
如今,变量 `url_list_copy_cleaned` 有跨越 3000 个岗位 list 的 URL,下一步是点击所有 1000 页,提取详细信息。被抓取的信息包含企业、位置、经验、脚色、妙技。
jobs={'roles': [ ] , 'companies': [ ] , 'locations': [ ] , 'experience': [ ] , 'skills': [ ] }
driver = webdriver.Chrome ( chromepath ) for url in out_company_df [ 'Website' ] : driver.get ( url ) try: name_anchor = driver.find_element_by_class_name ( 'pad-rt-8' ) name = name_anchor.text jobs [ 'companies' ] .append ( name ) except NoSuchElementException: jobs [ 'companies' ] .append ( np.nan ) try: role_anchor = driver.find_element_by_class_name ( 'jd-header-title' ) role_name = role_anchor.text jobs [ 'roles' ] .append ( role_name ) except NoSuchElementException: jobs [ 'roles' ] .append ( np.nan ) try: location_anchor = driver.find_element_by_class_name ( 'location' ) location_name = location_anchor.text jobs [ 'locations' ] .append ( location_name ) except NoSuchElementException: jobs [ 'locations' ] .append ( np.nan ) try: experience_anchor = driver.find_element_by_class_name ( 'exp' ) experience = experience_anchor.text jobs [ 'experience' ] .append ( experience ) except NoSuchElementException: jobs [ 'experience' ] .append ( np.nan ) try: skills_anchor = driver.find_elements_by_class_name ( "chip" ) each_skill = [ ] for skills in skills_anchor: each_skill.append ( skills.text ) jobs [ 'skills' ] .append ( each_skill ) except NoSuchElementException: jobs [ 'skills' ] .append ( np.nan ) driver.close ( )
本文地址:http://www.wbwb.net/bianchengyuyan/213828.html 转载请注明出处!