Wednesday, September 21, 2016

comparaison des moteurs et metamoteurs spécialisés emplois et stages (job board): premier job. Les stratégies de recherche... Exemple: emploi stage Tourisme.

Le plus souvent un chômeur, une personne en recherche de reconversion, ou un étudiant utilisent des moteurs généraux comme google ou bing avec ses mots clés.
Le moteur de recherche est un des services web "one-click service" les plus utilisés mais hélas souvent peu efficace pour un ciblage efficace.
Comme toujours il faut activer le réflexe des moteurs spécialisés.

Un site d'emploi (en anglais, jobboard ou job board)  affiche des offres d'emploi avec un moteur plus ou moins perfectionné.
Ces offres se situent dans le web visible.
Certaines sociétés par exemple d'interim ou hyper-spécialisé comme les chasseurs de tête nécessitent de passer par leur propres moteurs qui génèrent la liste des offres à la volée.

En outre, pour une recherche "premier job" c'est souvent le néant pour la majorité des sites car le terme "débutant accepté" est utilisé.
"l’addition de ces trois outils (stages, apprentissage et césure) concourt à près de 40 % des recrutements. Loin devant la navigation sur les sites Internet et les réseaux sociaux, qui ne donne des résultats probants que dans 17 % des cas. Pas de doute, l’expérience acquise en entreprise s’avère payante lorsqu’il s’agit de décrocher un emploi."
Ref: http://focuscampus.blog.lemonde.fr/2016/06/16/premier-emploi-entreprises-recherchent-jeunes-diplomes-experimentes/

De plus il existe des offres "stage" qui sont en fait des emplois déguisés (>6mois).

Le décret d’application de la loi du 10 juillet 2014 sur l’encadrement des stages:
Ils sont limités à 6 mois et donnent droit à 554 euros de gratification pour 154 heures de travail mensuel (si >2mois et pas de gratification si deux stages de moins de deux mois avec une période de carence d’une semaine entre les deux).
Un stagiaire a le droit au ticket restaurant.
Quelques données sur le cadre des stages en France:
http://www.intellego.fr/actualites/education/la-proposition-de-loi-sur-l-encadrement-des-stages-passe-le-cap-de-la-cmp/14519
http://www.intellego.fr/actualites/education/ces-entreprises-qui-paient-le-mieux-les-stagiaires/14348

Mais il ne faut pas se perdre avec cette stratégie "moteur spécialisé".  
Il existe d'autres stratégies. Prenons un exemple de domaine:

 l'industrie du tourisme

1/vers des sociétés qui recrutent ce qui n'est jamais facile. Il faut s'orienter vers des revues spécialisées
http://www.press-directory.com/presse-professionnelle/presse-professionnelle-tourisme.html
 par exemple http://www.lechotouristique.com/
certains proposent des offres:
http://tour-hebdo.clicandtour.fr/emploi.aspx?utm_source=wk-th&utm_medium=site-partenaire&utm_campaign=fil-offre
et chercher les actualités des sociétés qui recrutent:
http://www.tourmag.com/Les-entreprises-qui-recrutent_r199.html


2/vers le domaine des syndicats nationaux comme pour les métiers du tourisme:
SNAV, Syndicat National des Agents de Voyages
http://www.easyvoyage.com/pratique/l-aps-le-ceto-et-le-snav-3-organismes-cles-du-tourisme-18
ou les fédérations:
https://www.fftst.org/offres/emploi.php
ou agence de développement
http://atout-france.fr/notre-reseau/belgique

3/les associations spécialisées:
http://www.snav.org/Snav/public?controller=fr.amadeuspro.fo.StandardContent&sectionID=HomePublic%23actualites-tourisme&publicationID=publi_1456307240166248_fr_1&cp=1

4/les congrès, les salons internationaux de tourisme (Madrid pour le marché latino-amé-
ricain http://www.ifema.es/fitur_06/, Dubaï pour le marché du Moyen-Orient...),
https://www.salons-du-tourisme.com/Paris
https://www.salons-du-tourisme.com/index.php/Paris/Liste-des-exposants

5/suivre les nouvelles technologies du domaine comme le moteur de recherche dédié "hotel" https://www.kayak.fr/ qui permet aussi de réserver des visites et des activités touristiques, avec des partenaires spécialisés comme https://www.viatorcom.fr/.

6/Faire le tour du marché en dressant la liste des grosses entreprises:
Filiale à 100% de TUI Group, TUI France regroupe les marques Nouvelles Frontières, Marmara, Passion des îles et Aventuria, ainsi que la compagnie aérienne Corsair International. TUI France est aujourd’hui leader sur le marché touristique français, avec une part de marché de 28% pour le tour operating et une forte expertise sur l’ensemble des métiers de la profession. Riche d’un patrimoine de marques, qui constitue un capital de valeur unique en France, TUI France offre un large panel de produits, adapté à chaque segment de clientèle : hôtel club, circuits, à la carte, ou encore sur mesure.

TUI Group est le leader mondial de l’industrie du tourisme. TUI Group couvre toute la chaîne de valeur du tourisme et emploie 76,000 personnes dans plus de 100 pays. Fort de cette expertise, nous proposons à nos clients plus de 20 millions des services autour de 180 destinations dans le monde entier.

Le domaine "tourisme" est très large mais il est compartimenté:
Les entreprises des secteurs du tourisme en 2013 (poids dans l’économie (7,3 % du PIB)):
 Domaine                  Nbr entreprises                              Employés (equiv temps plain) en milliers
 Hébergements          45 263                                           164,9
 Restauration           162 498                                           433,3
 Débits de boissons   42 232                                             36,9
 Transports                  5 410                                            244,4
 Agences de voyages  8 122                                              34,2
Ref: http://www.entreprises.gouv.fr/files/files/directions_services/etudes-et-statistiques/stats-tourisme/chiffres-cles/2015-Chiffres-cles-tourisme-FR.pdf

On peut donc remarquer que si on cible seulement les agences de voyage, le nbr d'entreprise reste limité.
L'hébergement de tourisme cible plus souvent les formations "hôtellerie".

Recherche d'un emploi par les moteurs des sites spécialisés

Les moteurs d'offre d'emploi généralistes:

En France étrangement les gros sites de petites annonces augmentent leur présence.
Le site www.leboncoin.fr a rapidement pris une place non négligeable.
ainsi que http://www.vivastreet.com.

Les autres sites français:
https://www.apec.fr/
pour premier job: https://jd.apec.fr/home.html
http://www.regionsjob.com/
https://www.keljob.com/
http://www.meteojob.com/


Indeed est un métamoteur de recherche d'emploi international disponible dans plus de 50 pays.
http://www.indeed.fr/
D'autres métamoteur ou aggrégateur important:
http://www.monster.fr/

Personnellement je préfère :
https://www.adzuna.fr/

Les réseaux avec les célèbres linkedin ou viadeo sont devenus des moteurs d'offre.

Les moteurs d'offre d'emploi non-généralistes:

par exemple, spécialisé dans tourisme et culture:



Les agences de placement de stage:

Il en existe deux types les gratuites et les sociétés qui profitent des étudiants pour gagner de l'argent en assurant un "service". Mais souvent ce service est très faible pour le montant demandé.
Exemples:

-dans les pays anglo-saxons, vu la forte demande des étudiants pour la pratique de l'anglais, il existe de très nombreuses sociétés.
http://www.internshipmakers.com/fr/

plutôt que payer 600euros pour ce genre de service. Faites un stage en France et payez vous un voyage avec 600euros dans le pays où vous vous voulez améliorer votre langue. 

Encuentroo est une agence qui recherche et propose des stages aux étudiants dans différents domaines. Soumettez votre candidature gratuitement, et ne payez votre inscription qu’au moment de la validation du stage par vous et l’entreprise (280€ + 40€ de frais de dossier). 
Nous assurons le suivi pendant le stage "gratuitement" et sommes disponibles sur place durant tout votre séjour en cas de problèmes. Nous proposons également des solutions de logement dans la ville de votre stage, le pick-up à l’aéroport, le transfert jusqu’à votre logement, la traduction du CV en espagnol…
Cours d’espagnol gratuit (3h/semaine) hors juillet/Août
Visite gratuite de la Ville de Morelia, de ses centres d’intérêts touristiques principaux et découverte de la gastronomie locale suivie d’une dégustation offerte.


qq témoignages:
http://laruche.wizbii.com/stage-etranger-eviter-arnaques/

Recherche d'un stage

quelques posts sur ce sujet:
http://www.webcairn.com/7-meilleurs-sites-pour-trouver-un-stage/
qui date de 08/2015


-----------------------
PS

La clé du succès de Jobberman (site d'emploi en Afrique)? « Nous avons commencé longtemps avant que d’autres entrepreneurs pensent à créer un site d’emploi », explique Opeyemi Awoyemi. En outre, Jobberman ne se contente pas de faire le lien entre demandeurs d’emploi et employeurs : 
« En six ans, nous avons constaté que, 
derrière le problème du chômage, il y avait un problème de non-employabilité. 
Ça a clairement influencé notre mission. Nous tentons des partenariats avec des organisations gouvernementales et philanthropiques afin de créer des centres de conseils de carrière dans les villes et les universités du Nigeria. »


Tuesday, September 20, 2016

Some online text corpora and interfaces: BYU corpora and others.


Brigham Young University (BYU) corpora.

Example: Wikipedia
This corpus contains the full text of Wikipedia (2014), and it contains 1.9 billion words in more than 4.4 million articles.
http://corpus.byu.edu/wiki/


List of BYU corpora:

The most widely used online corpora -- more than 130,000 distinct researchers, teachers, and students each month.
English
# wordslanguage/dialecttime period compare
NOW Corpus   NEW 2.8 billion+20 countries / Web2010-yesterday
Global Web-Based English (GloWbE)1.9 billion20 countries / Web2012-13
Wikipedia Corpus1.9 billionEnglish-2014Info
Hansard Corpus (British Parliament)1.6 billionBritish1803-2005Info
Corpus of Contemporary American English (COCA)520 millionAmerican1990-2015* * * * *
Corpus of Historical American English (COHA)400 millionAmerican1810-2009* *
TIME Magazine Corpus100 millionAmerican1923-2006
Corpus of American Soap Operas100 millionAmerican2001-2012*
British National Corpus (BYU-BNC)*100 millionBritish1980s-1993* *
Strathy Corpus (Canada)50 millionCanadian1970s-2000s
CORE Corpus  NEW 50 millionWeb registers-2014
Other languages
Corpus del Español   (see also...)100 millionSpanish1200s-1900s*
Corpus do Português   (see also...)45 millionPortuguese1300s-1900s
N-grams
Google Books: American English155 billionAmerican1500s-2000s*
Google Books: British English34 billionBritish1500s-2000s
Google Books: One Million Books89 billionAm/Br1500s-2000s
Google Books: Spanish45 billionSpanish1500s-2000s


-------------------
https://en.wikipedia.org/wiki/List_of_text_corpora




Corpus Google books

The most visible of all the available large corpora out there is from the Google Books project. There are several ways to interact with the data drawn from the several million books scanned by Google:
Google N-Grams Viewer:
http://books.google.com/ngrams/

This is the classic interface designed by Google which allows users to plot single words and short phrases over time in a large subset (~5 million books) of the corpus. In addition it provides searches in selected sets of curated works in the categories "American English," "British English," "English," "Chinese (simplified)," "English Fiction," "French," "German," "Hebrew," "Russian," and "Spanish."

Cultoromics Bookworm Viewer:
This is in many ways perhaps the best interface tool for queries in the Google Books corpus. Developed by the Culturomics folks at Harvard it limits itself to only those digitized texts which have information about them (Full title, Publication Date, Publication Place, etc.) on OpenLibrary.org. As a resuly users can run queries in highly selective corpora based on subject (books on world history, American books on science, etc.) though these corpora are much smaller than those in the full Google Books collection.

BYU Google Books Viewer:
This interface is the only of the above that allows users to search longer strings of words from the corpus. It also shows links to the books in which words appear by year (note however that this initiates a new search in Google Books which may not neccesarily match the original data used in graphing).. It  offers  the same corpora as available in N-Grams including American works (155 billion words) British works (34 billion words) Fiction (91 billion words) Spanish works (45 billion words), and a 1,000,000 book sample (89 billion words).

Five years after the article "Quantitative analysis of culture using millions of digitized books" in Science. End of culturomics?

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3279742/

Citing "articles" = 1000.
https://scholar.google.fr/scholar?hl=en&as_sdt=2005&sciodt=1,5&cites=6168981865649549013&scipsc=&q=&scisbd=1

Languages cool as they expand: 

Allometric scaling and the decreasing need for new words
Nature 2013.
http://physics.bu.edu/~amp17/webpage_files/MyPapers/AllometricScalingLanguage.pdf

We study language evolution by analyzing the word frequencies of millions of distinct words in seven languages recorded in books from the past two centuries. For all languages and time spans we confirm that two scaling regimes characterize the word frequency distributions, with the more common words in each language obeying the Zipf law. We measure the allometric scaling relation between corpus size and vocabulary size, confirming recent theoretical predictions that relate the Heaps law to the Zipf law. We measure a decreasing trend in the annual growth fluctuations of word use with increasing corpus size suggesting that the rate of linguistic evolution decreases as the language expands, implying that new words have increasing marginal returns, and that languages can be said to “cool by expansion.” Counteracting this cooling are periods of political conflict which are not only characterized by decreases in literary productivity but also by a globalized media focus which may increase the mobility of concepts and words across political borders.  

When physicists do linguistics

Is English ‘cooling’? A scientific paper gets the cold shoulder
http://www.bostonglobe.com/ideas/2013/02/10/when-physicists-linguistics/ZoHNxhE6uunmM7976nWsRP/story.html


PlosOne 2015:

http://www.ncbi.nlm.nih.gov/pubmed/26445406
Abstract:
It is tempting to treat frequency trends from the Google Books data sets as indicators of the "true" popularity of various words and phrases. Doing so allows us to draw quantitatively strong conclusions about the evolution of cultural perception of a given topic, such as time or gender. However, the Google Books corpus suffers from a number of limitations which make it an obscure mask of cultural popularity. A primary issue is that the corpus is in effect a library, containing one of each book. A single, prolific author is thereby able to noticeably insert new phrases into the Google Books lexicon, whether the author is widely read or not. With this understood, the Google Books corpus remains an important data set to be considered more lexicon-like than text-like. Here, we show that a distinct problematic feature arises from the inclusion of scientific texts, which have become an increasingly substantive portion of the corpus throughout the 1900 s. The result is a surge of phrases typical to academic articles but less common in general, such as references to time in the form of citations. We use information theoretic methods to highlight these dynamics by examining and comparing major contributions via a divergence measure of English data sets between decades in the period 1800-2000. We find that only the English Fiction data set from the second version of the corpus is not heavily affected by professional texts. Overall, our findings call into question the vast majority of existing claims drawn from the Google Books corpus, and point to the need to fully characterize the dynamics of the corpus before using these data sets to draw broad conclusions about cultural and linguistic evolution.

Plos comput biol 2016:
The Virtuous Cycle of a Data Ecosystem
http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005037
Digital data of all types are being created at an ever-increasing rate, doubling approximately every two years.
Annual data creation rates are estimated to reach 44 trillion gigabytes by 2020.
Similarly, the rate at which primary scientific data are being collected is accelerating. This astounding growth in scientific data creation has led to the contemporary discussion of scientific data sharing policies. Many of the criticisms levied against data sharing have focused on practical issues such as the economics and logistics of data storage, technical challenges for doing so, or appropriate attribution of credit. In contrast, the arguments in favor of data sharing have focused largely on scientific replication, reproducibility, facilitation of collaborative research, and increased citations for publications that share data. This is largely an ethical argument wherein there is an obligation to share data collected using public funds.

------------------