Academic Journal
[en] AUTOMATIC INFORMATION EXTRACTION: A DISTANT READING OF THE BRAZILIAN HISTORICAL-BIOGRAPHICAL DICTIONARY (DHBB) ; [pt] EXTRAÇÃO AUTOMÁTICA DE INFORMAÇÕES: UMA LEITURA DISTANTE DO DICIONÁRIO HISTÓRICO-BIOGRÁFICO BRASILEIRO (DHBB
العنوان: | [en] AUTOMATIC INFORMATION EXTRACTION: A DISTANT READING OF THE BRAZILIAN HISTORICAL-BIOGRAPHICAL DICTIONARY (DHBB) ; [pt] EXTRAÇÃO AUTOMÁTICA DE INFORMAÇÕES: UMA LEITURA DISTANTE DO DICIONÁRIO HISTÓRICO-BIOGRÁFICO BRASILEIRO (DHBB |
---|---|
المساهمون: | MARIA CLAUDIA DE FREITAS |
بيانات النشر: | MAXWELL |
سنة النشر: | 2021 |
المجموعة: | Pontifícia Universidade Católica (PUC) do Rio de Janeiro: Maxwell |
مصطلحات موضوعية: | [pt] LINGUISTICA COMPUTACIONAL, [pt] DICIONARIO HISTORICO-BIOGRAFICO BRASILEIRO, [pt] LEITURA DISTANTE, [pt] LINGUISTICA COM CORPUS, [pt] HUMANIDADES DIGITAIS, [pt] EXTRACAO DE INFORMACAO, [en] COMPUTATIONAL LINGUISTICS, [en] BRAZILIAN HISTORICAL-BIOGRAPHICAL DICTIONARY, [en] DISTANT READING, [en] CORPUS LINGUISTICS, [en] DIGITAL HUMANITIES, [en] EXTRATION OF INFORMATION |
الوصف: | [pt] A pesquisa aplica algumas técnicas de processamento de linguagem natural (PLN) ao domínio da história, tendo como objeto de investigação o Dicionário Histórico-Biográfico Brasileiro (DHBB), obra de estilo enciclopédico concebida pelo Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) da Fundação Getulio Vargas (FGV). O objetivo foi criar, a partir do DHBB, um corpus anotado para fins de extração automática de informações, relevante para as Humanidades Digitais, capaz de viabilizar ‘leituras distantes’ da política contemporânea brasileira. O processo completo passa pelas etapas de análise morfossintática do material, identificação de entidades relevantes ao domínio, inclusão de anotação no corpus, definição de relações semânticas de interesse para a pesquisa e mapeamento dos padrões léxico-sintáticos existentes nestas relações. Busca-se com estas etapas preparar os textos para a identificação de estruturas de interesse, isolando as informações relevantes e apresentando-as de forma estruturada. Para testar e avaliar um conjunto de padrões quanto à sua produtividade, foram selecionados como temas de interesse idade de entrada dos biografados na carreira política, formação acadêmica e vínculos familiares. O pressuposto é que utilizando padrões léxico-sintáticos é possível extrair informação de qualidade direcionada ao domínio da História, a partir de um corpus anotado do gênero enciclopédico. Na avaliação dos padrões para a extração do ano de nascimento dos biografados a medida-F foi de 99 por cento, para a extração de relações familiares a medida-F foi de 84% e para informações sobre formação acadêmica o índice de acertos alcançou 99,1 por cento. Essas extrações, por sua vez, permitiram uma leitura distante dos dados do DHBB que nos mostra i) queda da média de idade no que se refere à entrada dos políticos na carreira pública, que passam a se posicionar cada vez mais abaixo dos 40 anos, principalmente os nascidos a partir da década de 1960; ii) declínio acentuado na formação militar, ... |
نوع الوثيقة: | text |
اللغة: | Portuguese |
DOI: | 10.17771/PUCRio.acad.54623 |
الاتاحة: | https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54623@1 https://www.maxwell.vrac.puc-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=54623@2 https://doi.org/10.17771/PUCRio.acad.54623 |
رقم الانضمام: | edsbas.68AD91C7 |
قاعدة البيانات: | BASE |
كن أول من يترك تعليقا!