伍佰目录 短网址
  当前位置:海洋目录网 » 站长资讯 » 互联网资讯 » 文章详细 订阅RssFeed

2021 内容科学就业市场最全阐发:Python 妙技最紧张,5 到 10 年经验最吃香

来源:本站原创 浏览:98次 时间:2021-08-06

iphone for steve,丹东房屋网,冬天来了 春天还会远吗

首页正文呆板之心18小时前2021 内容科学就业市场最全阐发:Python 妙技最紧张,5 到 10 年经验最吃香

选自 TowardsAI

作者:Sujan ShirolR、oberto Iriondo

呆板之心编译

编纂:蛋酱、杜伟

阐发了 3000 多个内容科学相关的岗位招聘数据,他们总结出了十点紧张纪律。

在就业市场上,内容科学和呆板学习的机会每年都在增加。如果你是内容科学相关岗位的求职者之一,那么将来十年将是一个明朗的时代,企业需求预计将大幅度增长。

近日,Towards AI 阐发了多个在线职业门户网站上 3000 多个内容科学职位的发布环境,以此进行了招聘趋势层面的总结。这次阐发的主要目的是帮忙求职者更好地认识内容科学和呆板学习当前的市场需求。

Selenium 是抓网页信息最快、最靠得住、性价比最高的工具之一。该项目使用 Selenium 抓取了多个求职门户网站,导入必须的法式包并设置 chrome 驱动法式路径,都是非常简洁的。循环点击 50 页,每页包含也许 20 个职位的简短发布信息,最终抓取了 3000 多个内容科学相关的岗位招聘数据。

提取出来的每个职位的 URL 可进入相应职位发布的详细页面,页面中包括了推理所需的所有详细信息。

import pandas as pdimport numpy as npfrom selenium import webdriverfrom selenium.common.exceptions import NoSuchElementExceptionchromepath = r'D:DriversChrome Driverchromedriver.exe'url_list = [ ] for i in range ( 1, 50 ) : print ( 'Opening Search Pages ' + str ( i ) ) page_url = 'https://jobportalexample.com/data-scientist-jobs-'+str ( i ) driver = webdriver.Chrome ( chromepath ) driver.get ( page_url ) print ( 'Accessing Webpage OK n' ) url_elt = driver.find_elements_by_class_name ( "fw500" ) print ( 'Success' ) for j in url_elt: url = j.get_attribute ( "href" ) url_list.append ( url ) driver.close ( )

为了简化此过程,URL 被留存为 pandas DataFrame。

url_list_copy_cleaned = [ i for i in url_list ] out_company_df = pd.DataFrame ( url_list_copy_cleaned, columns= [ 'Website' ] ) out_company_df.head ( )

内容框。

如今,变量 `url_list_copy_cleaned` 有跨越 3000 个岗位 list 的 URL,下一步是点击所有 1000 页,提取详细信息。被抓取的信息包含企业、位置、经验、脚色、妙技。

jobs={'roles': [ ] , 'companies': [ ] , 'locations': [ ] , 'experience': [ ] , 'skills': [ ] }

driver = webdriver.Chrome ( chromepath ) for url in out_company_df [ 'Website' ] : driver.get ( url ) try: name_anchor = driver.find_element_by_class_name ( 'pad-rt-8' ) name = name_anchor.text jobs [ 'companies' ] .append ( name ) except NoSuchElementException: jobs [ 'companies' ] .append ( np.nan ) try: role_anchor = driver.find_element_by_class_name ( 'jd-header-title' ) role_name = role_anchor.text jobs [ 'roles' ] .append ( role_name ) except NoSuchElementException: jobs [ 'roles' ] .append ( np.nan ) try: location_anchor = driver.find_element_by_class_name ( 'location' ) location_name = location_anchor.text jobs [ 'locations' ] .append ( location_name ) except NoSuchElementException: jobs [ 'locations' ] .append ( np.nan ) try: experience_anchor = driver.find_element_by_class_name ( 'exp' ) experience = experience_anchor.text jobs [ 'experience' ] .append ( experience ) except NoSuchElementException: jobs [ 'experience' ] .append ( np.nan ) try: skills_anchor = driver.find_elements_by_class_name ( "chip" ) each_skill = [ ] for skills in skills_anchor: each_skill.append ( skills.text ) jobs [ 'skills' ] .append ( each_skill ) except NoSuchElementException: jobs [ 'skills' ] .append ( np.nan ) driver.close ( )

本文地址:http://www.wbwb.net/bianchengyuyan/213828.html 转载请注明出处!

  推荐站点

  • At-lib分类目录At-lib分类目录

    At-lib网站分类目录汇集全国所有高质量网站,是中国权威的中文网站分类目录,给站长提供免费网址目录提交收录和推荐最新最全的优秀网站大全是名站导航之家

    www.at-lib.cn
  • 中国链接目录中国链接目录

    中国链接目录简称链接目录,是收录优秀网站和淘宝网店的网站分类目录,为您提供优质的网址导航服务,也是网店进行收录推广,站长免费推广网站、加快百度收录、增加友情链接和网站外链的平台。

    www.cnlink.org
  • 35目录网35目录网

    35目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向35目录推荐、提交优秀网站。

    www.35mulu.com
  • 就要爱网站目录就要爱网站目录

    就要爱网站目录,按主题和类别列出网站。所有提交的网站都经过人工审查,确保质量和无垃圾邮件的结果。

    www.912219.com
  • 伍佰目录伍佰目录

    伍佰网站目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向伍佰目录推荐、提交优秀网站。

    www.wbwb.net