APLICAÇÃO DO BCP 47 NA CATALOGAÇÃO BIBLIOGRÁFICA PARA CODIFICAÇÃO DE IDIOMA E ESCRITA

Por FERNANDO MODESTO
Maio/2026

Um tema “quente” no campo da catalogação bibliográfica é a codificação de dados de idioma e de escrita não latina nos formatos MARC e BIBFRAME, por meio da aplicação do padrão BCP 47.

Na coluna anterior (Do MARC 21 ao moderno MARC), o padrão é citado ao se abordarem as diretrizes adotadas pelos serviços técnicos da Library of Congress (LC) em sua migração para o formato BIBFRAME.

No workshop "BCP 47 Language Tags in BIBFRAME and MARC: The What, Why, and How", o tema é destacado por sua relevância atual no campo da catalogação.

Participante do evento, Kevin Ford, bibliotecário especializado em dados vinculados do Network Development and MARC Standards Office da LC, comenta que a biblioteca começou a experimentar, a partir de setembro de 2024, o registro de idioma e escrita para etiquetas individuais no BIBFRAME. Essa decisão representou uma mudança significativa na catalogação bibliográfica realizada pela instituição.

A codificação de idioma é usada há muito tempo nos processos catalográficos, em geral para registrar a língua em que o material é apresentado, e não para identificar sequências ou rótulos na descrição bibliográfica. A data citada marca a decisão da LC, baseada na necessidade de uma solução rápida e compatível com o uso de dados vinculados, além da inclusão de pontos de acesso multiescrita em registros convertidos de BIBFRAME para MARC.

Essa solução exigiu dos bibliotecários de catalogação a identificação precisa do idioma e da escrita usados nas etiquetas específicas da descrição bibliográfica, por meio dos códigos BCP 47. Em seguida, esse conhecimento passou a ser utilizado para extrair etiquetas de registros de autoridade relacionados que correspondessem ao idioma e à escrita empregados na descrição bibliográfica.

O uso do BCP 47 demonstrou ser um componente-chave da solução para a transliteração. Além disso, possibilitou à LC ampliar o uso de códigos de idioma tanto no BIBFRAME quanto no MARC, com impacto promissor para a comunidade bibliotecária envolvida na transição para uma catalogação contemporânea.

Outro participante, Adam Schiff, catalogador-chefe das Bibliotecas da University of Washington, instrutor da NACO e membro do PCC Non-Latin Script Variants in NARs Task Group, destacou a incumbência do grupo de planejar e conduzir o teste piloto de diretrizes para avaliar pontos de acesso com variantes de escrita não latina em registros de autoridade de nomes. Como parte dessas diretrizes, as variantes de escrita não latina poderão ser indicadas para qualquer idioma e escrita permitidos em registros de autoridade de nomes.

A indicação deve consistir em uma sequência textual informada no subcampo $i (informações de relacionamento (R)) das etiquetas de campo 4XX (campos de remissiva "Ver" e de rastreamento de informação) e um código de idioma ou idioma/escrita no subcampo $7 (proveniência de dados (R)) – Exemplo (1).

Exemplo (1) de registros de autoridade – MARC – compatíveis com máquinas para processamento automatizado:

100	1#	$a Stravinsky, Igor, $d 1882-1971. $t Vesna svi︠a︡shchennai︠a︡
400	1#	$a Stravinsky, Igor, $d 1882-1971. $t Rite of spring
400	11	$a Стравинский, Игорь, $d 1882-1971. $t Весна священная $7(bcp47) ru
400	11	$a Стравінський, Ігор, $d 1882-1971. $t Весна священна $7(bcp47) uk
400	1#	$a Stravinsky, Igor, $d 1882-1971. $t Vesna svi︠a︡shchenna
400	11	$a ストラヴィンスキー, イーゴリ, $d 1882-1971. $t 春の祭典 $7(bcp47) ja
400	1#	$a Stravinsky, Igor, $d 1882-1971. $t Haru no saiten

O Exemplo (1) apresenta a aplicação do campo 4XX com o subcampo $7 para codificação automática, bem como outras possibilidades que poderão surgir durante o teste de desenvolvimento desse procedimento.

Detalhamento do Exemplo (1) aplicado:

• Campo 100: Forma para nome pessoal (NR). Em um registro de cabeçalho estabelecido, o campo contém a forma estabelecida de um nome pessoal. Em um registro de remissiva, este campo contém uma forma não estabelecida de um nome pessoal.

• Indicadores 1#: primeiro indicador: Sobrenome; segundo: Indefinido.

• $a: Nome pessoal (NR)

• $d: Datas associadas ao nome (NR)

• $t: Título da obra (NR)

• Campo 400: Remissiva “ver” para nome pessoal (R): Usado em um cabeçalho ou subdivisão já estabelecidos para registrar a origem de uma referência quando o nome pessoal citado não é utilizado como cabeçalho oficial.

• Indicadores 1#: primeiro indicador: Sobrenome; o segundo: Indefinido.

• Indicadores 11: primeiro indicador: Sobrenome; o segundo: Título preferencial. [Documento de Discussão nº 2025-DP13]

• $a: Nome pessoal (NR).

• $d: Datas associadas a um nome (NR).

• $t: Título de uma obra (NR).

• $7: Proveniência de dados (R).

Exemplo (2): registros de autoridade MARC de aplicação convencional e leitura humana:

100	0#	$a Aristophanes
400	0#	$w r $i Preferred variant in Bulgarian, Macedonian, Serbian, and Russian (Cyrillic script): $a Аристофан
400	0#	$w r $i Preferred variant in Ukrainian (Cyrillic script): $a Арiстофан
400	0#	$a Aristofanes
400	0#	$a Ἀριστοφάνης
667	##	$a Cyrillic script references evaluated. Greek non-Latin script reference not evaluated.

O Exemplo (2) ilustra a aplicação do campo 4XX, com os subcampos $w e $i, para ampliar a legibilidade dos dados.

Detalhamento do exemplo (2) aplicado:

• Campo 100: Forma para nome pessoal (NR).

• Indicadores 0#: primeiro indicador: Prenome; segundo: Indefinido.

• $a: Nome pessoal (NR).

• Campo 400: Remissiva “ver” para nome pessoal (R).

• Indicadores 0#: primeiro indicador: nome; segundo: indefinido.

• $w: subcampo de controle (NR). /0 – relacionamento especial, identificada pelo código “r”. Na prática catalográfica da LC/PCC, o valor “r” indica que a remissiva possui uma relação especial explicitada, acompanhada do subcampo $i com texto relacional.

• $i: informação de relacionamento (R).

• $a: nome pessoal (NR).

• Campo 667: nota geral não pública (R). Fornece informações gerais sobre um cabeçalho 1XX quando não há um campo de nota específico definido. Pode incluir dados temporários ou permanentes, nem sempre formatados para exibição pública, sendo cada informação registrada em um campo 667 separado.

• Indicadores ##: indefinidos.

• $a: nota Geral Não Pública (NR).

As etiquetas BCP 47 devem ser usadas no subcampo $7. Entretanto, ressalta-se que as diretrizes para a codificação de idioma e escrita nesse subcampo ainda estão em desenvolvimento pelo NARs, como demonstrado no Exemplo (1). Prevê-se, ainda, a demonstração de métodos automatizados em desenvolvimento para que os bibliotecários de catalogação insiram essa codificação com o auxílio do Authority Toolkit, ferramenta desenvolvida por Gary Strawn, bibliotecário da Northwestern University, voltada às variantes de escritas não latinas no contexto da catalogação e do controle de autoridade, segundo diretrizes do Program for Cooperative Cataloging (PCC) e do NACO (Name Authority Cooperative Program).

Entre as mudanças introduzidas na atualização da versão 3.1 da conversão de “MARC para BIBFRAME” e de “BIBFRAME para MARC” está a ampliação da integração dos códigos BCP 47 de idioma e escrita às descrições BIBFRAME, além de sua inclusão no subcampo de proveniência de dados $7 do MARC.

O BCP 47 fornece especificações para a codificação de idiomas e escritas humanas. Publicado pela Internet Engineering Task Force (IETF), o padrão constitui uma forma de codificar essas informações em ambientes computacionais, especialmente na web. O documento Modern MARC apresenta informações sobre como os códigos BCP 47 devem ser usados no formato.

A sigla BCP 47 (Best Current Practice 47) resulta de um conjunto de documentos publicados pelo IETF, e o número 47 corresponde à identificação específica dessa prática. Essas “melhores práticas correntes” não têm força de lei, mas constituem convenções amplamente adotadas como referência por diversos protocolos e sistemas da Internet. O padrão emprega etiquetas para identificar idiomas e escritas humanas em tecnologias como HTTP, HTML, XML e PNG. O BCP 47 é formado pelas diretrizes dos seguintes RFCs:

• RFC 4647: documento contendo uma sintaxe chamada “intervalo de idiomas” para expressar as preferências linguísticas de um usuário e explica formas de comparar essas preferências com etiquetas de idioma. Define dois processos: filtragem, que gera um conjunto possível de resultados; e pesquisa, que identifica apenas uma opção. Também indica aplicações como negociação de idioma e seleção de conteúdo, além de estabelecer boas práticas da internet e atualizar padrões anteriores.

• RFC 5646: documento que define a estrutura e uso das etiquetas de idioma para identificar a língua de um conteúdo, incluindo regras de formação, significado e organização. Também explica como registrar novos valores e criar extensões personalizadas para uso específico, além de estabelecer boas práticas da internet e incentivar melhorias contínuas.

Exemplo (3) do catálogo da LC de aplicação de códigos BCP47 em registros bibliográficos MARC:

245	00	$6 880-03 $a 50-onbetsu denwachō. $p Saitama-ken chuō-ban. $7 (bcp47)ja-latn
880	00	$6 245-03/$1 $a 50音別電話帳. $p 埼玉県中央版. $7 (bcp47)ja

Detalhamento do exemplo MARC aplicado:

• Campo 245: Indicação de Título (NR)

• Indicadores 00: nenhuma entrada adicionada; e nenhum caractere desprezado

• $6: subcampo de ligação (NR): aplicação do subcampo encontrada no apêndice A: Subcampos de Controle. Em resumo, o subcampo vincula campos que são representações de escritos diferentes entre si. Esse subcampo é sempre o primeiro do campo, quando indicado.

• $a: subcampo de indicação do título (NR).

• $p: subcampo para indicação de nome da parte/seção de uma obra (R).

• $7: subcampo para registro da proveniência de dados (R). A aplicação do subcampo é fornecida no apêndice J: Subcampos de Proveniência de Dados. O valor de proveniência de dados: ja-latn é precedido por um código identificado da lista de códigos de proveniência de dados MARC, indicado entre parênteses (bcp47). O “ja-latn” expressa o código para variação do idioma japonês latinizado.

• Campo 880: representação gráfica alternativa (R). Uma representação definida em termos de conteúdo, um idioma diferente de outro campo, no mesmo registro. O campo é vinculado ao campo associado pelo subcampo $6. O subcampo $6, no campo associado, também vincula ao campo 880.

• Indicadores 00: os indicadores do campo são apropriados, conforme disponível no campo associado.

• $6: subcampo de ligação (NR): conforme citado, a aplicação do subcampo é encontrada no apêndice A: Subcampos de Controle.

• $a: subcampo utilizado igual ao campo associado. [caracteres japoneses]

• $p: subcampo utilizado igual ao campo associado. [caracteres japoneses]

• $7: subcampo utilizado igual ao campo associado. Código “ja" [idioma japonês]

Exemplo (4) do catálogo da LC de aplicação de códigos BCP47 em registros bibliográficos MARC:

264	#1	$6 880-22 $a Tōkyō-to Chiyoda-ku : $b Nihon Denshin Denwa Kōsha, $c Shōwa 52 [1977] $7 (bcp47) ja-latn
880	#1	$6 264-22/$1 $a 東京都千代田区 : $b日本電信電話公社, $c 昭和52 [1977] $7 (bcp47) ja

Detalhamento do exemplo MARC aplicado:

• Campo 264: Produção, Publicação, Distribuição, Fabricação e Direitos Autorais (R). As informações do campo assemelham às informações do campo 260. O campo 264 é útil nos casos em que o padrão de conteúdo ou as políticas institucionais fazem distinção entre funções.

• Indicadores: primeiro indicador, nenhuma informação fornecida. Secundo indicador 1 – Publicação. O campo contém uma indicação relacionada à publicação, divulgação ou emissão de um recurso.

• $6: subcampo de ligação (NR): aplicação do subcampo encontrada no apêndice A: Subcampos de Controle. Subcampo é sempre o primeiro do campo, quando indicado.

• $a: subcampo para a indicação do local de produção, publicação, distribuição e fabricação.

• $b: subcampo para indicação do nome do produtor, editor, distribuidor, fabricante.

• $c: subcampo para indicação de data de produção, publicação, distribuição, fabricação ou data de direitos autorais.

• $7: subcampo para registro da proveniência de dados (R). A aplicação do subcampo é fornecida no apêndice J: Subcampos de Proveniência de Dados. O valor de proveniência de dados: “ja" é precedido por um código identificado da lista de códigos de proveniência de dados MARC, indicado entre parênteses (bcp47). O “ja” expressa o código para variação do idioma japonês.

• Indicadores #1: os indicadores do campo são apropriados, conforme o campo associado 264.

• $6: subcampo de ligação (NR): conforme citado, a aplicação do subcampo é encontrada no apêndice A: Subcampos de Controle.

• $a: subcampo utilizado igual ao campo associado. [caracteres japoneses]

• $b: subcampo utilizado igual ao campo associado. [caracteres japoneses]

• $c: subcampo utilizado igual ao campo associado. [caracteres japoneses]

• $7: subcampo utilizado igual ao campo associado. Código “ja" [idioma japonês]

Exemplo (5) do catálogo da LC de aplicação de códigos BCP47 em registros bibliográficos MARC:

710	2#	$6 880-70 $a Nihon Denshin Denwa Kōsha $e contributor $0 http://id.loc.gov/authorities/names/n80119836 $1 http://id.loc.gov/rwo/agents/n80119836 $7 (bcp47) ja-latn
880	2#	$6 710-70/$1 $a日本電信電話公社 $e contributor $0 http://id.loc.gov/authorities/names/n80119836 $1 http://id.loc.gov/rwo/agents/n80119836 $7 (bcp47) ja

Detalhamento do exemplo MARC aplicado:

• Campo 710: Entrada adicional para nome corporativo (R).

• Indicadores 2#:primeiro indicador – Nome em ordem direta; segundo indicador, nenhuma informação fornecida.

• $6: subcampo de ligação (NR): aplicação do subcampo encontrada no apêndice A: Subcampos de Controle. Subcampo é sempre o primeiro do campo, quando indicado.

• $a: nome corporativo ou da jurisdição como elemento adicional de entrada (NR)

• $e: termo relacionador (R). Termo de função que descreve a relação entre o nome e a obra.

• $0: número de controle de registro de autoridade (R)

• $1: URI de objeto do mundo real (R)

• $7: proveniência de dados (R). A aplicação do subcampo é fornecida no apêndice J: Subcampos de Proveniência de Dados. O valor de proveniência de dados: ja-latn é precedido por um código identificado da lista de códigos de proveniência de dados MARC, indicado entre parênteses (bcp47). O “ja-latn” expressa o código para variação do idioma japonês latinizado.

• Indicadores 2#: os indicadores do campo são apropriados, conforme o campo associado 710.

• $6: subcampo de ligação (NR): conforme citado, a aplicação do subcampo é encontrada no apêndice A: Subcampos de Controle.

• $a: subcampo utilizado igual ao campo associado. [caracteres japoneses]

• $e: subcampo utilizado igual ao campo associado.

• $0: subcampo utilizado igual ao campo associado.

• $1: subcampo utilizado igual ao campo associado.

• $7: subcampo utilizado igual ao campo associado. [caracteres japoneses]

Observe-se, no subcampo $7, a aplicação dos códigos de idioma. Para pesquisar etiquetas e subetiquetas de idioma BCP 47, consulte o BCP47 language subtag lookup. As etiquetas de idioma BCP 47 são construídas a partir de subetiquetas estabelecidas no registro da IANA (Internet Assigned Numbers Authority).

Essa agência é responsável por coordenar elementos essenciais para a manutenção e o funcionamento da Internet. Embora a Internet seja uma rede mundial sem coordenação central, há a necessidade técnica de que algumas de suas partes sejam coordenadas globalmente. Nesse contexto, a IANA auxilia na pesquisa e na localização de subetiquetas, bem como na verificação de possíveis erros em etiquetas de idioma.

Ressalte-se que a etiqueta de idioma BCP 47 configura-se como uma sequência de caracteres que especifica um idioma humano e, opcionalmente, um sistema de escrita e um dialeto. Por exemplo, “en” especifica o inglês, enquanto “en-GB” e “en-US” especificam, respectivamente, o inglês britânico e o inglês americano.

Os códigos atuais permitem indicar o idioma e o sistema de escrita usados em um valor textual registrado em um campo ou subcampo MARC. No entanto, eles ainda não oferecem uma forma de identificar qual esquema de transliteração foi aplicado quando um texto é convertido de uma escrita para outra. Neste aspecto, o BCP 47 permanece sendo o único padrão aceito em RDF (Resource Description Framework) para marcar valores de texto e especificar informações como idioma, escrita e transliteração.

Indicação de leitura:

Adding an Indicator for a Preferred Heading in 4XX Fields in the MARC 21 Authority Format. MARC Discussion Paper No. 2025-DP13, May 22, 2025.

Tagging Transliteration Schemes and BCP 47 in Data Provenance Subfields in the MARC 21 Authority and Bibliographic Formats. MARC Discussion Paper No. 2024-DP11, May 23, 2024.

Library of Congress (LC). “Modern” MARC. March 24, 2026.

369 Leituras

Saiba Mais

Próximo Ítem

ATUALIZAÇÕES DE 2005 PARA O AACR2R, EDIÇÃO 2002
Junho/2026

Ítem Anterior

DO MARC 21 AO MODERNO MARC: NOVAS DIRETRIZES PARA CODIFICAÇÃO CATALOGRÁFICA
Abril/2026

FERNANDO MODESTO

Bibliotecário e Mestre pela PUC Campinas (SP), Doutor em Comunicação pela USP e Professor no curso de Biblioteconomia e Ciência da Informação da ECA/USP.